книги / Электронная информация и электронные ресурсы
..pdfРаскрытие содержания документа
(АИСТ). В табл. 35 приведен средний размер оплаты библиоте кой единичной доставки документа и участие пользователя в оплате.
Таблица 35
Средний размер оплаты библиотекой единичной доставки документа (доллары США)
Оплата |
|
|
Библиотека |
|
|
|
|
АИСТ |
№ 1 |
№3 |
№5 |
№ б |
№7 |
Средний размер оплаты еди |
21,7 |
0.3 |
2,.5 |
0,0 |
20,9 |
20,0 |
ничной доставки документа |
|
|
|
|
|
|
Возмещение от пользователя |
- |
+ |
+ |
+ |
+ |
- |
72% своих поступлений по линии доставки документов биб лиотека АИСТ получает бесплатно, но оставшиеся 28% обхо дятся ей очень дорого.
В качестве показательного примера роли системы доставки документов приведем технологию библиотечной работы в орга низации, которая по-немецки называется Wissenschaftskolleg zu Berlin (Содружество ученых в Берлине), а в англоязычной вер сии они себя обозначают как Institute for Advanced Study (Ин ститут перспективных исследований) в подражание Принстону, США. Это очень необычное научное учреждение, функциони рующее с 1981 г. В институт приглашаются для стажировки в те чение 10 месяцев примерно 40 стипендиатов (fellows) из всех стран мира, в том числе и из Германии. Это писатели, музыкан ты, философы, психологи, экономисты, юристы, историки и т. п., в том числе, например, Станислав Лем, венгерский пи сатель, лауреат нобелевской премии 2003 г. Петер Надаш, много композиторов. Они могут заниматься всем, чем угодно, пре имущественно заявленными большими проектами. Библиотека института создает своим клиентам практически «райские» усло вия: фактически любое пожелание стипендиата самым срочным образом выполняется через систему МБА и доставки докумен тов. В чем-то специфика работы данного учреждения близка некоторым нашим библиотекам, например Библиотеке Адми нистрации Президента и Парламентской библиотеке. Свои соб
221
Глава 5. Создание, хранение электронных документов и работа с ними
ственные коллекции у библиотеки не очень велики — и это понятно, ибо интересы клиентов совершенно различны и не предсказуемы, на постоянной основе комплектуют только справочные издания и какую-то базу данных для общего обра зования.
ГПНТБ России, будучи фактически национальной библио текой по науке и технике, как правило, намного больше выдает, чем получает. За 2005 г. библиотека выполнила более 13 тыс. за казов МБА, в том числе 7 тыс. — оригиналами и 6 тыс. — копия ми, при этом используя как собственные коллекции, так и фон ды других московских библиотек. Из указанного числа пример но 2215 заказов исполнено в формате электронной доставки документов (отправлено 18 тыс. страниц). Перспективным яв ляется использование системы международной доставки доку ментов СУБИТО (www.subito-doc.com). Дело не только в скуд ности собственных средств, не позволяющих выписывать доро гостоящие зарубежные периодические издания, но и в том, что читатели ГПНТБ понемногу стали осознавать, что информа ция — это товар, за который можно платить. Если в середине 1990-х гг. библиотека продвигала, рекламировала тогда еще бес платные услуги по доставке документов (реально они оплачива лись немецким правительством в рамках специальных про грамм помощи), то с начала 2005 г. наши читатели и коллектив ные пользователи начали все шире использовать обращения к системе СУБИТО (в год выполняется более одной тысячи зака зов). Распределенный фонд СУБИТО опирается на базу данных журнальных статей (20 млн записей) и многие сводные каталоги системы из более чем 30 специальных библиотек Германии, Ав стрии, Швейцарии.
Работу с электронными документами невозможно себе представить без соответствующего информационного обеспе чения, в первую очередь — справочно-поискового аппарата, яд ро которого составляет электронный каталог. Не менее важным является хорошо организованная система лингвистического обеспечения. Эти аспекты нельзя опустить в настоящей книге, попробуем в этом тоже разобраться.
ПОИСК ДОКУМЕНТОВ И ИНФОРМАЦИОННОПОИСКОВЫЕ СИСТЕМЫ
ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ
^ФУНКЦИОНАЛЬНЫЕ ТРЕБОВАНИЯ К БИБЛИОГРАФИЧЕСКИМ ЗАПИСЯМ И ЭЛЕКТРОННЫЕ КАТАЛОГИ
<P*I
fa
КОМПЛЕКС ПОИСКОВЫХ ИНТЕРНЕТ-СИСТЕМ КОМПАНИИ GOOGLE
ONIX КАК НОВЫЙ ФОРМАТ МЕТАДАННЫХ ДЛЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ
ИДЕНТИФИКАТОР ЦИФРОВОГО ОБЪЕКТА DOI
£7 РЕФЕРИРОВАНИЕ И ЦИТИРОВАНИЕ ПУБЛИКАЦИЙ
БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ НАУЧНОЙ АКТИВНОСТИ
£ У ВОЗМОЖНОСТИ СОВЕРШЕНСТВОВАНИЯ
МОНИТОРИНГА ЦИТИРОВАНИЯ РОССИЙСКИХ АВТОРОВ
ОБЕСПЕЧЕНИЕ СОХРАННОСТИ ДОКУМЕНТОВ: К ПОСТАНОВКЕ ПРОБЛЕМЫ В ЭЛЕКТРОННОЙ СРЕДЕ
Исторически одновременно с созданием традиционных библиотек происходило формирование систем поиска нужного документа в фондах. Можно выделить два основных направле ния поиска:
1)найти документ, название которого (или другие призна ки) мы знаем точно;
2)найти документ или группу документов, которые отвеча ют сформулированным признакам (тема, или предмет, или ав тор, или дата публикации и т. д.).
Последние десятилетия ушедшего века оказались весьма на сыщенными переменами в работе библиотеки, в потребностях и ожиданиях пользователя. Системы библиотечной автоматиза ции, создание колоссальных библиографических баз данных,
системы сводных каталогов, корпоративной каталогизации и новые формы публикаций — это лишь некоторые из произо шедших перемен и технологических продвижений. В то же вре мя библиотеки столкнулись с необходимостью экономии расхо дов в целом и на каталогизацию в частности. Сегодня пока с точки зрения общей организации все остается таким же, как было с 1876 г., когда Каттер опубликовал свой список функций каталога. Парижские Принципы каталогизации в 1961 г. про возгласили разделение предметного индексирования и фор мальной каталогизации.
Серия профессиональных обсуждений по библиографиче ским записям признала необходимым снизить стоимость ката логизации для библиотек и сформулировала основные позиции для проведения дальнейших исследований: удовлетворение по требностей читателя, связанных с использованием материалов различного типа и расширением требований, предъявляемых
225
Глава 6. Работа по составлению и использованию вторичных документов...
к библиографическим записям. Предполагается начать иссле дования по «определению (формулированию) функциональных требований к библиографическим записям». Предлагалось рас смотреть не только элементы описания, но и точки доступа (имя, заглавие, предметная рубрика и т. п.), другие организую щие элементы (классификация и т. п.) и аннотации.
За последние 5 лет произошли заметные изменения на рын ке информации. Во-первых, изменился состав пользователей: если раньше 90% составляли профессионалы, специалисты по информации и библиотечные работники, то сейчас большинст во составляют просто пользователи. Им, как и специалистам, нужна высококачественная информация, но им не интересно вникать в глубины поиска и тратить время на изучение тонко стей его проведения.
Во-вторых, Интернет существенно изменил понимание сути и формы онлайновых услуг, а разнообразие подачи материала заставило учить заново какие-то программы, что всегда чревато потерей клиентов.
Тема поиска информации практически неисчерпаема. По скольку «нельзя объять необъятное», нам пришлось в данной главе только упомянуть о классических инструментах — класси фикационных системах, предметных рубриках, библиографи ческих описаниях (УДК, ДДК, ББК, LCSH, MARC и т. п.) — и дать материалы, относящиеся к наиболее новым тенденциям в области поиска электронных документов в Сети. Мы не считаем себя вправе испытывать терпение читателя, излагая ему то, что можно (и нужно) прочитать в других публикациях по библио графическим системам и системам организации справочно-по искового аппарата (СПА). Несмотря на то что авторы весьма за метно проявились в этой области: профессор Я. Л. Шрайберг в течение ряда лет активно работал в составе Постоянного коми тета по ЮН И МАРКу (Permanent UNI MARC Committee — PUC), организовывал и участвовал в нескольких крупнейших международных семинарах по программе ИФЛА «Универсаль ный библиографический учет и MARC-форматы» (UBCIM), руководил работой Межведомственной комиссии по разработ ке единой технологической платформы взаимодействия издате лей, книгораспространителей и библиотек, осуществлял науч ное руководство изданиями материалов по ЮН И МАРКу, под
226
Поиск документов и информационно-поисковые системы
готовкой и публикацией 21-го издания Десятичной системы Дьюи, и оба автора руководили подготовкой и изданием перво го в России Руководства по ЮН ИМАРК (UNIMARC Manual), мы исходим из того, что наша задача — уделить максимальное внимание изложению специфических для электронных доку ментов проблем. В данной главе, в разделах, посвященных по иску, мы даем, как правило, совсем новый материал по таким проблемам и технологиям, как FRBR (Functional Requirements for Bibliographie Records), Google, DOI (Digital Object Identifier), ON IX и подобным.
Что касается архивации, то мы хотели бы подчеркнуть важ ность нескольких моментов, имеющих принципиальное значе ние:
•отношение государственных органов к проблеме обяза тельного депозитарного хранения цифровых материалов;
•достижение договоренностей или, еще лучше, стандарти зация технологии долговременного хранения;
•формирование системы открытых архивов (Open Archive Initiative — OAI).
6.1. Поиск документов и информационно поисковые системы
Электронных документов в мире насчитывается уже милли арды и поиск необходимого среди этого множества — одна из важнейших задач библиотечных работников. Большинство сис тем поиска базируется на использовании вторичного докумен та, то есть его описания, как правило библиографического. Цель создания вторичного документа — провести структуриза цию фонда по тематике (или по другим признакам), облегчить поиск оригинала, сэкономить время на ознакомлении с содер жанием. Для текстовых документов вторичным документом яв ляется библиографическое описание, а также реферат, аннота ция, предмет или системные рубрики и индексы. Для музыкаль ных библиотек, архивов или музеев используются другие описания.
227
Глава 6. Работа по составлению и использованию вторичных документов...
Некоторые основы правильной организации поиска надо все же осветить. Отметим, что целью документного поиска яв ляется нахождение и выдача соответствующих запросу пользо вателя документов или их описаний.
Документы, отвечающие запросу пользователя, называются релевантными. Для организаций, как правило, тематического поиска в крупных библиотеках, научно-технических центрах, архивах применяются информационно-поисковые системы (ИПС). В настоящее время в связи с резким возрастанием объе мов документной информации и проникновением компьютер ных технологий во все сферы жизни общества стали широко ис пользоваться автоматизированные ИПС или АИПС.
В учебном пособии В. Л. Захарова [38] на очень доступном языке излагаются основы теории и практики информационного поиска, а для непосредственного знакомства с ИПС мы реко мендуем использовать работу А. И. Кудрявцева и О. Б. Назарен ко [39].
Подчеркнем основные понятия информационного поиска. ИПС — упорядоченная совокупность документов и инфор мационных технологий, предназначенных для хранения и обес печения поиска документов или данных. Главное, что должны обеспечивать ИПС, — это поиск и хранение. Сейчас практиче ски все ИПС автоматизируются, но можно встретить еще много
неавтоматизированных ИПС.
Информационный поиск может быть документным (доку ментальным) и фактографическим, и, соответственно, ИПС де лятся на документальные и фактографические.
Документальные ИПС обеспечивают поиск по тематиче ским запросам в массиве документов с последующим предо ставлением пользователю некоторого подмножества этих доку ментов (копий). Фактографические ИПС обеспечивают хране ние, поиск и выдачу непосредственно данных: технических характеристик, объектов и явлений, научных фактов, экономи ческих показателей, адресов, названий, количественных пара метров и т. д.
Главное отличие между документальным и фактографиче ским поиском заключается в подходе к семантике документов: в документальных системах описывается смысл документов с точки зрения их предметного содержания, а в фактографиче
228
Поиск документов и информационно-поисковые системы
ских системах фиксируются признаки и значения объектов; со ответственно для каждого вида поиска существуют свои поис ковые средства [38].
Иногда выделяется и третий тип И ПС — информационно-ло гические системы, отвечающие на запросы, на которые в инфор мационной базе нет явного ответа. Ответ формируется на осно ве алгоритмической генерации из имеющихся документальных или фактографических ИПС.
Запросы на поиск представляют собой информационные потребности пользователей, сформулированные на естествен ном языке. В результате перевода запроса на ИПЯ (информаци онно-поисковый язык) образуется поисковый образ запроса, или поисковое предписание. Далее ИПС формирует поисковый образ документа — текст, состоящий из лексических единиц ИПЯ, выражающий содержание документа или информацион ного запроса и предназначенный для реализации информаци онного поиска. Основная задача при создании поискового об раза документа — как можно полнее и точнее отразить содержа ние документа, сохранив при этом предельную краткость описания. Затем в результате обработки ИПС выдает краткое описание (библиографию) документов или сами документы (полные тексты).
Оценка эффективности поиска является большой теорети ческой и практической проблемой. Главные функциональные показатели ИПС — это полнота и точность, которые основыва ются на разделении документов на релевантные и нерелевант ные, а также на выданные и невыданные.
Под полнотой поиска понимается мера, вычисляемая как от ношение количества выданных релевантных документов к об щему числу релевантных документов, содержащихся в массиве информации.
Точность поиска — это соотношение количества выданных релевантных документов и общего числа документов в выдаче.
Традиционное понимание документального поиска состоит в том, что поиск проводится по всему тексту документа (или по его поисковому образу); при этом в качестве запросов чаще все го выступают ключевые термины (слова) или их логическая комбинация. Автоматизированный документальный поиск мо жет быть организован на основе ряда технологий, в том числе
229
Глава 6. Работа по составлению и использованию вторичных документов...
поиска по полному тексту документа или поиска по гипертек стовым ссылкам. Это особенно актуально при поиске в Интер нете, что и составляет сегодня одну из важнейших проблемных областей в организации электронных информационных ресур сов в целом.
6.2. Информационный поиск в Интернете
ИПС существует уже более полувека, и в начале своего появ ления И ПС была человеко-машинной системой: анализ и опи сание содержания документов (классификация и индексирова ние) выполнялись вручную, а поиски проводились ЭВМ. Пер воначальную основу ИПС составляли ИПЯ, основным элементом которых являлись дескрипторные словари и тезауру сы. Сегодня большинство ИПС относится к классу вербальных систем, работающих без тезаурусов, а индексационные терми ны выбираются прямо из текстов документов.
Сегодня лавинообразный поток электронной информации, рост массивов электронных документов, распределение элек тронных библиотек в Интернете вызвали к жизни проблему по иска. Вначале появились такие программные системы, обеспе чивающие поиск, как Gopher, Veronica, WAIS и др.; но вскоре на смену этому инструментарию пришла клиент-серверная тех нология WWW. В. П. Захаров [38] так классифицирует ИПС в Интернете:
1.ИПС вербального типа (поисковые системы — search engines).
2.Классификационные ИПС (каталоги — directories).
3.Электронные справочники («желтые» страницы и т. п.).
4.Специализированные ИПС по отдельным видам ресур
сов.
5.Интеллектуальные агенты.
Глобальный учет всех ресурсов Интернета обеспечивается вербальными и отчасти классификационными системами.
Классификационные ИПС реализуют навигацию в WWW на основе специальных указателей, представляющих собой тема тические «деревья», строящиеся на основе классификаций.
230