search
main
0

Хранить вечно. Опыт и принципы создания электронных библиотек

Все, что может быть оцифровано, рано или поздно будет оцифровано. Во всем мире в настоящее время активно идет процесс создания электронных библиотек и систем цифрового доступа к фондам библиотек традиционных. В той или иной степени он затрагивает все учебные заведения, от школ до государственных архивов. Какие проблемы возникают при создании систем хранения оцифрованных объектов и каковы пути их решения?

Полностью публикация приведена в формате PDF:Скачать/Просмотреть(Для просмотра необходима программа Adobe Reader или ее произвольный аналог).

Километры и терабайты

Фонды крупнейших мировых библиотек поистине огромны. Так, например, в Национальной библиотеке Великобритании (http://portico.bl.uk) имеется 150 миллионов единиц хранения, а объемы новых поступлений составляют 3 миллиона единиц в год. Здесь находится 13 миллионов книг, 7 миллионов манускриптов, 4,5 миллиона карт, 56 миллионов патентов, 3,5 миллиона аудиозаписей, 8 миллионов марок, 58 миллионов газет в различных форматах. Существует закон, согласно которому эта библиотека получает копию каждого материала, публикуемого в Объединенном Королевстве и Ирландии.

Неудивительно, что суммарная длина полок Британской библиотеки составляет 625 километров, а ее ежегодный прирост – 12 километров. Нагляднее представить эти колоссальные объемы позволяет такой расчет: если в день просматривать по 5 экспонатов, то для ознакомления со всей коллекцией понадобится 80000 лет.

Компания Microsoft реализует в Британской библиотеке проект под названием Digital Object Management (DOM) – «Система управления электронными объектами». По оценкам специалистов, в течение ближайших пяти лет потребуется примерно 320 терабайт объемов хранения для тех объектов оцифровки, которыми они сейчас занимаются. Существуют и другие расчеты, согласно которым на 1 миллион объектов хранения требуется от 8 до 600 терабайт.

Право доступа

Создание цифровых библиотек и архивов – это вопрос не только более компактного и надежного хранения информации, но и реализации прав на эту информацию.

Фонды Российского государственного исторического архива (http://rgia.narod.ru) – пожалуй, крупнейшего исторического архива в Европе – насчитывают 7,2 миллиона единиц хранения, из них 6,5 миллиона – уникальные исторические документы: указы, подписанные Петром I и Елизаветой, карты всех городов Российской империи и многое другое.

Это богатейшее культурное наследие является нашим национальным достоянием, и по Конституции все граждане имеют на него равные права. Однако реализовать их на практике (например, получить на руки один из 24 томов гербов российских дворянских фамилий, страховая стоимость которого составляет десятки миллионов долларов) невозможно. Единственный способ – оцифровка и хранение этих объектов в электронном виде. По разным оценкам, для создания цифрового аналога РГИА потребуется от 52 терабайт до 3 с лишним петабайт информации.

Системные требования

Поскольку речь идет о создании архивов цифровых объектов большой емкости и длительного (в идеале – вечного) хранения, важно не только оценить объемы информации, но и перечислить важнейшие принципы, которые в свою очередь определят архитектуру системы.

Так, уже сейчас можно совершенно точно сказать, что доступ к отдельным объектам массива хранения будет иметь случайный характер. «Как показывает практика, 90 процентов запросов обращены лишь к 10 процентам оцифрованных материалов, – говорит руководитель практики по работе с государственными организациями Департамента консалтинга и технической поддержки Microsoft Александр Данилин. – Как правило, люди пользуются очень ограниченным подмножеством из всех оцифрованных объектов хранения».

Он приводит интересную статистику:

80 процентов объема хранения – это большие, неизменяемые объекты, доступ к которым осуществляется редко;

от 78 до 90 процентов объектов хранения ни разу не запрашивались читателями;

10 процентов объема – это материалы, к которым обращаются достаточно часто и большинство из которых относительно невелики по объему;

менее 1 процента объема – это традиционно изменяемые данные.

Итак, электронный архив библиотеки должен обеспечивать возможность хранения больших объемов, точное значение которых трудно предсказать, а также безопасного и надежного содержания оцифрованных объектов, при том, что:

продолжительность их «жизни» неопределенно велика;

каждый объект является неизменяемым, и некоторые из них могут иметь существенные размеры (с точки зрения объемов хранения);

невозможно предсказать частоту использования для всех объектов хранения.

Скорость работы с файлами – фактор менее значимый, чем обеспечение гарантий сохранности и защита от потери. Поэтому более всего важно обеспечить сохранность объектов. Другой момент касается возможности предоставления постоянного доступа к ресурсам архива. При этом скорость вовсе не обязательно должна измеряться долями секунд, однако полноценно работать с информацией можно при условии весьма оперативного «отклика».

Среди других важных аспектов системы можно назвать обеспечение аутентичности и целостности цифровых объектов хранения. Для этого предполагается использовать соответствующие технические решения – электронно-цифровые подписи объектов, электронные «штампы времени» и алгоритмы кэширования (вычисления контрольных сумм файлов).

Разумеется, система должна быть устойчивой по отношению к запланированным и экстремальным выходам из строя отдельных частей и подсистем. Наконец, стоимость владения системой в течение всего жизненного цикла при выполнении всех прочих требований должна быть минимально возможной.

Зашифрованная вечность

Знания, накопленные древними шумерами, и мудрость египетских жрецов долгое время оставались недоступными для далеких потомков, поскольку, выражаясь техническим языком, коды этих записей в свое время были утрачены. Аналогичным образом обстоит дело и с цифровыми данными.

Вот пример из недавнего прошлого. В 1975 году НАСА запустило два спускаемых космических аппарата «Викинг» к Марсу. Для хранения снимков и других материалов для будущих исследований использовались магнитные ленты, которые хранились в помещении с контролем климата. Однако через пару десятков лет механические повреждения на лентах сделали их практически непригодными для использования, а в конце 1990-х годов обнаружилось, что раскодировать формат, в котором сделаны записи, невозможно. Пришлось заново сканировать старые отпечатки снимков.

«Технология меняется очень быстро, – говорит Александр Данилин. – Иногда через 10 лет к тому, что было сохранено в определенном формате данных, уже невозможно получить доступ даже с помощью современного оборудования и программного обеспечения».

Эти и многие другие моменты следует обязательно учитывать при выборе технических решений для создания электронных библиотек.

Цена вопроса

Можно выделить два основных варианта создания системы хранения электронной библиотеки.

Первый – использование максимально продвинутых технических решений, как правило, с привязкой к одному поставщику – например, дисковые массивы с интерфейсами Fiber Channel, используемые для создания сетей хранения SAN. Это сопряжено с высокими затратами, в том числе на функции, которые в реальности не будут использоваться. Существенная привязка к конкретному поставщику также нежелательна для долгосрочного масштабного проекта.

Второй вариант – использование более дешевых систем хранения массового производства индустриальных стандартов, таких, например, как дисковые массивы NAS с интерфейсом SATA. Это менее дорогое решение, обеспечивающее высокую степень независимости от поставщиков систем хранения (соответствующие закупки можно будет производить, выбирая из широкого списка поставщиков). Однако такой вариант потребует архитектурных решений, заложенных в саму систему электронной библиотеки и обеспечивающих должный уровень надежности в целом.

Качественное сопоставление затрат при использовании обоих вариантов представлено на рис. 1. Расчеты основаны на примерной стоимости 1 Гб хранения данных в основном хранилище.

Использование стандартных компонентов и продуктов обеспечит длительный жизненный цикл решения, упростит реализацию и внедрение системы, обеспечит возможности для дальнейшего развития.

Архитектурные решения

Концептуальная архитектура системы в целом представлена на рис. 2.

Логическая архитектура сервисов системы хранения включает два независимых сайта (узлы хранения), централизованные сервисы и сервисы электронной подписи (рис. 3).

При построении информационной библиотеки могут быть использованы практически все продукты Microsoft:

NET framework – платформа для разработки специализированных компонентов;

Windows Server 2003 R2 – базовая инфраструктура и платформа сервера приложений;

Windows Storage Server 2003 – платформа управления сетевыми хранилищами данных NAS;

Microsoft SQL Server 2005 – сервер базы данных для обработки структурированной информации и поиска;

ISA Server 2006 – платформа для обеспечения информационной безопасности, надежная защита по периметру;

Microsoft BizTalk Server 2006 – платформа интеграции и сложных преобразований форматов данных;

Microsoft SharePoint Server 2007 – платформа реализации функциональных возможностей портала и поиска;

Microsoft Operations Manager 2007 (MOM) – платформа для мониторинга различных подсистем;

Microsoft System Center Configuration Manager 2007 (SMS v.4) – платформа для инвентаризации оборудования и ПО, автоматического развертывания ОС, ПО и обновлений;

Microsoft InfoPath 2007 – ввод и проверка структурированных данных;

Антивирусное программное обеспечение (Microsoft Forefront);

Microsoft Exchange Server 2007 – почтовая инфраструктура;

Microsoft Data Protection Manager 2006 – система резервного копирования данных;

Система распознавания текста (например, FineReader OCR).

Опыт реализации проекта DOM лег в основу предложений, сделанных для российской Президентской библиотеки. Также эти наработки могут быть использованы при создании систем хранения цифровых объектов любых масштабов и сложности.

Оценить:
Читайте также
Комментарии

Реклама на сайте