РНБ: как цифровые инструменты формируют новую универсальную исследовательскую среду

Евгений ХАКНАЗАРОВ, Санкт-Петербург

25.07.2024

РНБ: как цифровые инструменты формируют новую универсальную исследовательскую среду
Материал опубликован в №7 печатной версии газеты «Культура» от 25 июля 2024 года.

Цифровизация преображает привычные методы библиотечной работы. Для Российской национальной библиотеки расширение возможностей на новом технологическом уровне означает реализацию множества ранее невозможных амбициозных проектов.

Россия — страна чтения и почтительного отношения к книге. А библиотеки, от столичных, научных и фундаментальных до самых близких — районных и школьных, давным-давно стали символом просвещения, знаний, а также полезного и возвышающего душу времяпрепровождения. Но ход времени отразился на уютной «тиши библиотек» с их ламповыми карточными каталогами и вкусным книжным запахом. Переход на цифровые технологии обозначил поистине новый век этой, казалось бы, самой консервативной культурно-просветительской отрасли. Особенно наглядны изменения, происходящие в работе Российской национальной библиотеки, ставшей одной из передовых площадок страны по цифровизации современности.

О том, как новое поколение читателей сможет работать с фондами РНБ, как сутяжный характер вдовы Александра Пушкина Натальи Гончаровой связан с раскрытием информационных данных цифровыми методами, и о важности найти то, что надо, и тем более не найти то, что читателю не нужно, «Культуре» рассказал заместитель генерального директора РНБ по библиотечной работе Станислав Голубцов.

— Станислав Брониславович, со стороны кажется, что цифровизация библиотечной работы предсказуема и очевидна — создавай цифровые копии разных изданий и обеспечь их доступность для пользователей. Вот, в принципе, и все...

— Ситуация гораздо сложнее и интереснее. Я сам всегда использую слово «всё», когда говорю про нашу библиотеку. Это библиотека с богатейшими фондами. Она универсальна, к нам поступает все, что публикуется в России. На какую целевую аудиторию ориентирована библиотека? На всех граждан. Какие задачи стоят? Самый широкий спектр задач. Да, собственно, все и стоят. Нужно понимать, что библиотека за несколько сотен лет своей жизни в принципе отладила и инструменты, и формы работы с информационными потребностями. Все инструменты, которые позволяли читателю взаимодействовать с библиотечным фондом, были выверены. Эта огромная, очень серьезно взаимосвязанная внутри структура традиционно называлась справочно-библиографическим аппаратом, который позволял любому читателю найти в библиотеке то, что ему нужно. Это те самые карточные и печатные каталоги, библиографические и справочные издания с системой взаимных ссылок, частичного дублирования функций, чтобы не потерять возможность найти любую информацию, если в этом возникла необходимость. Эта инфраструктура стала создаваться в библиотеке практически с начала XIX века, развивалась и где-то к восьмидесятым годам прошлого века была отлажена, прекрасно работала.

Когда возникает вопрос о необходимости цифровой трансформации, важно понять: мы цифровизируем — что? Эту систему, посредника между читательским запросом и теми изданиями, в которых есть ответ на этот запрос? Или мы цифровизируем сам фонд? У нас сорок миллионов изданий, и оцифровать весь фонд — понятная производственная задача. Есть объем, есть ресурсы и сроки — но будет ли это переходом на «цифру»? Наверное, не вполне. Потому что, с одной стороны, просто отсканировать недостаточно. Нужно весь этот массив датифицировать, превратить изображения страниц в текстовый слой — для того, чтобы на эту базу напустить поисковый алгоритм, какого-то робота, подключить искусственный интеллект, словари. Библиотека как институция и информационные ресурсы, с которыми она работает, должны позволять читателю узнавать новое. Не только утверждаться в своей правоте, а именно узнавать новое. Здесь очень важно взаимодействие с поисковиком. Если ты сформулировал запрос правильно, ты нашел на него ответ. Иначе ответа просто нет — потому что ты не сформулировал запрос правильно. Цифровизация фонда без цифровизации поисково-экспертной структуры ничего не дает. Хотя у нас есть собственно электронная библиотека, оцифрованные издания — в этом году ожидается около миллиона единиц, это немало. А вот как из них найти то, что нужно? Ведь вдобавок еще не все можно датифицировать — например, если это рукопись или какой-то особенный шрифт. Множество документов имеет сложную структуру. Например, у газеты, которая в девятнадцатом веке выходила и дневным, и вечерним, и экстренным выпуском, верстка была такова: графически выделялось начало статьи, конец находился на втором развороте. И навигация внутри самого текста в подобном случае тоже очень важна.

Поиск оценивается полнотой и точностью. Полнота — это когда я нашел все, что нужно для решения задачи. Точность — когда я не нашел то, чего мне не нужно. Так-то в любой библиотеке полнота всегда стопроцентная. Книги стоят на стеллажах — где-то в них есть все, что вам нужно. Только там есть еще масса того, что вам не нужно. Значит, между читателем и фондами должен быть буфер, в котором специально обученные люди со специальным образованием пропишут специальные условия. На самом деле эта система стала создаваться у нас в библиотеке с начала девятнадцатого века — на карточках. Зачем это надо? Не потому что — ах, давайте мы все усложним. А потому что читатель должен получить ответ на свой вопрос, не привлекая специально обученного эксперта.

— Мне кажется, здесь есть некоторая сложность. Далеко не все способны внятно сформулировать, что им нужно. Библиотека может как-то помочь читателям, изъясняющимся в парадигме «принеси то — не знаю что»?

— По статистике около 60–70 процентов любых запросов — тематические: «Мне нужны книги, статьи про...» Но сказать: мне нужны книги по экономике или, скажем, журналистике — это слишком общий запрос. Хотя и на него можно ответить, выдать полтора миллиона документов — выбирайте. Но мы-то получаем все, что выходит в стране — это в среднем четверть миллиона единиц в год: принцип «ходи и выбирай» не сработает. Это технически нереализуемо. Поэтому для пользователей ценна возможность получать ответы на узкие запросы. Здесь мы понимаем, что в нашей системе нужны поисковые инструменты. Таких инструментов ранее существовало несколько типов, но когда это работало в карточках, то было ограничено. Выбрать книги по узкой теме, применив дополнительные формальные ограничения, скажем, пусть в документе будет от 100 до 120 страниц и еще есть два листа вклеенных иллюстраций, в карточном каталоге невозможно — мы ограничены формой реализации поискового инструмента. В электронном каталоге — пожалуйста. Поэтому он является серьезнейшим компонентом, в котором каждое издание описано по стандартам, позволяющим искать издание по формальным или содержательным признакам. Откуда берутся содержательные признаки? Это значит, что кто-то сидит и все книги читает, в терминологии ГОСТа — изучает. У нас и в других крупных библиотеках есть подразделения, которые анализируют каждое поступившее издание. Формируется база, позволяющая получить доступ как к электронной, так и обычной библиотеке: читатель сформировал запрос и, если издание оцифровано, кликает документ. Если не оцифровано — можно предложить издание к оцифровке. Есть второй вариант: тебе в принципе не нужно обращаться к библиотекарю. Можно заранее, из дома подготовиться к посещению библиотеки, под своим логином зайти, заказать издание на определенное время, и, что характерно, никакой человеческий посредник на этом этапе не нужен. Заказ через электронный каталог уйдет в хранилище, заказанное издание уже будет ждать читателя в читальном зале. Интересно, что цифровизация — это не только история про онлайн-взаимодействие. Это еще касается управления внутренними производственными процессами. Например, в хранилище на Московском проспекте у нас фонды где-то на километр отделены от обслуживания. А между хранилищами и читателем ездит монорельсовая железная дорога. У нее несколько веток, ведущих в разные хранилища: книги вместе с газетами, например, не хранят — им нужны разные по размеру стеллажи. Всем этим управляет информационная система: заказ поступает, его снимают с полки, кладут в корзину, которая «тайными путями» приезжает в пункт выдачи. Это все интегрируется с электронным каталогом и, соответственно, с системой автоматизации библиотеки. Для этого работает автоматизированная библиотечная система, объединяющая все цифровизированные процессы. И вот, создав эту инфраструктуру, состоящую из фонда и посредника-каталога, мы понимаем, что эта система ждет вопроса от читателя. Запрос читателя и пользователя в поисковике — это та точка, вокруг которой складываются все возможности. И еще мы понимаем, что должна быть рекомендательность — не в прямом смысле, что читать, а цифровые сервисы, которые ранжируют издания, определяют, что чаще спрашивается. На нашем сайте такие сервисы есть, их достаточно много. Существуют тематические подборки — что нового поступило по той или иной теме. Там прикручена такая возможность — тебя заинтересовал любой тематический вопрос, например, рукоделие, вышивка. Можно нажать на кнопку, и тебе предложат дополнительные материалы. Скажем, издания XIX века, где есть оригинальные схемы вышивки, про которые мы уже забыли.

— Расскажите, пожалуйста, про наглядные примеры применения цифровизации каталога или изданий РНБ.

— Мы сейчас как раз разрабатываем систему автоматизации предприятия нового поколения. Мы ее назвали «Приоритет», генеральный директор РНБ Денис Цыпкин анонсировал ее на конференции Российской библиотечной ассоциации. Эта система будет интернет-ориентированной. Идея заключается в том, что программное обеспечение может быть установлено на локальных компьютерах, а может работать как сервис. Например, как привычные нам службы интернет-почты и социальные сети. Для работы с ними ничего, кроме браузера и интернет-подключения, не нужно. Возникают новые возможности интеграции собирания изданий. Например, это цифровая реконструкция библиотек. У нас уже есть несколько законченных проектов, два из них мы сделали совместно с Музеем литературы ХХ века. Это формирование цифровых коллекций личных библиотек Михаила Зощенко и Евгения Шварца, которые хранятся в музее. Читатель не может взять эти издания почитать: каждый экземпляр имеет следы бытования. Где-то есть рукописные пометы, где-то замечания, иногда экспрессивные. На самом деле это артефакт. Но с другой стороны — это книга. И она должна быть доступна исследователям, в первую очередь литературоведам, историкам культуры. Но что писали и читали Зощенко и Шварц — это может быть интересно для молодых исследователей, для школьников. Мы атрибутировали все издания в этих личных библиотеках, нашли такие же экземпляры у себя, привязали их к электронному каталогу. Если вы хотите эти книги прочитать — пожалуйста, они у нас собраны в отдельную коллекцию. На самом деле возможности при цифровизации гораздо шире, теперь можно виртуально восстанавливать библиотеки — начиная от средневековых: владельческие, личные, известнейших монастырей. Даже восстанавливая динамику развития библиотеки, показывать, как фонд менялся — прирастал, убывал, что-то дарили, меняли.

Переход на «цифру» позволяет формировать особую библиотечную информационную экосистему связанных данных. Вот, например, поступила в фонд книга про Пушкина. Раньше мы на карточке написали бы: «Пушкин Александр Сергеевич» — как тема. После пришла книга «Евгений Онегин». Здесь Пушкин выступает в качестве автора. Вот архивный материал из наших фондов — мы его презентовали недавно — про то, как вдова поэта пытается у нашей библиотеки забрать несколько рукописей Пушкина. Письмо Натальи Николаевны хранится у нас в архиве, в нем она грозит директору правовыми последствиями, ей явно оказана юридическая помощь — прекрасная история. Но это же тоже о Пушкине! В итоге появляется фонд: изображения, книги, архивные дела. И появляется поисковая система, в которой есть объект «А.С. Пушкин». Сведения о нем все время прирастают из постоянно поступающих изданий. У поисковой системы появляются энциклопедические функции. Применение цифровых методов в этом случае очень способствует раскрытию данных, выявлению неявных связей между объектами. Важны не столько факты, сколько связи между ними. Очень важно, что все это происходит в процессе текущей работы библиотеки, являющейся, таким образом, универсальным исследователем и аналитиком. На нынешнем историческом этапе формируется универсально-аналитическая система, на основании которой можно обучать искусственный интеллект. Это один из глобальных и стратегических приоритетов цифровизации.

— Переход на «цифру» требует колоссальных сил и ресурсов. Как решает этот вопрос РНБ?

— Мы понимаем, что любые ресурсы не безграничны, важно их концентрировать и организовывать их кумулятивное использование для решения первостепенных задач и видение, как это стратегически укладывается в систему цифрового развития страны, в том числе формирование информационного цифрового суверенитета нашей страны. На государственном уровне такие задачи определены. Мы стремимся оптимально использовать ресурсы для их выполнения.

— Против России введены санкции, в том числе и в области цифровых технологий. Есть ли трудности со специальным оборудованием и инструментами?

— У нас развивается импортозамещение. Оно касается в первую очередь не столько оборудования как такового, сколько программного обеспечения, на котором работают те связанные данные, о которых мы говорили, и на котором основана электронная библиотека. Система «Приоритет», которую мы разрабатываем, также направлена на цифровое импортозамещение. Важно понимать, что импортозамещение в цифровой, информационно-аналитической области — это возможность сделать лучше, реализовать новые сервисы и инструменты именно под те задачи, которые нужны здесь и сейчас стране и обществу. Именно так и происходит. Поэтому в этом смысле импортозамещение — вещь благая, с моей точки зрения.

— Какой цифровой проект сейчас особенно актуален для РНБ?

— Как мне кажется, один из эффективных путей цифровизации — формирование цифровых коллекций. Сейчас у нас в работе коллекция «Крым: история в документах». Мы решаем амбициозную задачу: собрать все информационные ресурсы о Крыме. Карты, изображения, документы разных периодов — давайте мы их покажем, свяжем между собой, посмотрим, какие они. Этот ресурс поможет посмотреть на регион с точки зрения исторических источников и достоверности. Получается интересно: по сравнению с существовавшей ранее крымской библиографией мы уже выявили в два раза больше документов. Мы считаем, что эта крымская коллекция станет частью большого цифрового проекта «Вся Россия», где каждый регион будет не описан — это не энциклопедия, — а представлен информационными ресурсами и фактической информацией, взаимосвязанными с единой системой навигации и возможностью удаленной работы. Это важно, потому что библиотека сейчас не только отвечает на вопросы. Она дает достоверный материал, показывает его на новом технологическом уровне, сама становясь системой формирования знаний и работы с молодежью — применяя цифровые инструменты, конкретные методики и технологии, которые позволяют реализовать поставленные цели.

Фотографии предоставлены пресс-службой Российской национальной библиотеки