книги / Сетевой информационный поиск
..pdfОрганизация поиска документов и ресурсов |
71 |
рованными. На начальном этапе любой серьезной работы, особенно связанной с полной или частичной переориентацией направления ис следований или же их объекта, приходится сталкиваться с необходи мостью узнать и освоить новые области знания. При этом поиск ин формации вынужденно проводится по очень широкому кругу тем и вопросов. Такой поиск естественно назвать широким информацион ным поиском. Д о известной степени широкий поиск относительно кратковременен. Рано или поздно пользователь знакомится с ситуа цией в интересующей его области, а его запросы конкретизируются и сужаются. В жизни любого профессионала необходимость широкого поиска может встретиться несколько раз. В повседневной работе мо жет возникнуть необходимость в быстром получении некоторых све дений и справочных данных, которые нужны для постоянной работы. Так, инженеру могут неожиданно понадобиться сведения о свойствах того или иного материала, режимах некоего технологического процес са или климатических данных, необходимых для вывоза оборудова ния в новые государства и страны. Таких задач может быть очень мно го, они постоянно возникают при активной работе и разрешаются относительно быстро. Подобный тип поиска можно назвать поиском справочной информации.
Наконец, третий тип поиска и контроля информации связан с по вседневной профессиональной работой. Любой индивидуум в повсед невной деятельности должен следить за новостями в своей области, за работой конкурирующих организаций и многими иными проблемами. Для поддержания своей квалификации любому специалисту также не обходимо следить за информационными новинками в широкой облас ти знаний, связанной с его непосредственной работой. Для этого необ ходимо уметь выбирать нужные источники информации, находя их с помощью поисковых систем. Это можно назвать поиском текущей про фессиональной информации. Естественно, провести резкую грань меж ду перечисленными нами основными типами поисковых задач невоз можно; более того, сами технические методы поиска остаются во всех случаях почти одинаковыми, а изменяются только базы данных и по исковые системы, к которым приходится обращаться конкретному пользователю. Иными словами, тип поиска определяет его практи ческую организацию. Также меняется и активность поиска, количе ство вовлекаемых в него одновременно БД и прочее. Постепенно у каждого пользователя формируются свои индивидуальные приемы и отыскиваются наиболее удобные лично для него источники инфор мации (естественно, что со временем они немного видоизменяются),
72 |
Глава 3 |
но при устоявшейся тематике и наличии определенного опыта работы изменения в этой обл4асти уже не столь часты, как на начальных стади ях работы.
Естественно, каждый пользователь должен время от времени обнов лять свой поисковый репертуар и источники информации, но эти воп росы носят индивидуальный характер и в общем пособии говорить о них не имеет смысла, хотя существует множество мелких полезных при емов поисковой работы, которыми может поделиться с начинающим любой опытный пользователь.
Поисковые задачи, о которых мы говорили, — это задачи нахожде ния нужных источников информации. Иными словами, речь шла о том, что в общем виде можно назвать информационным поиском. Есте ственно, такой поиск является важнейшей частью любой задачи по на хождению информации, однако на практике встречается и другой тип поисковых задач, когда сам необходимый источник информации изве стен (это может быть конкретная книга, название которой, ее автор и многие другие данные пользователю могут быть также известны, од нако он может не знать, где находится соответствующий материал, то есть то хранилище, куда ему нужно обратиться). Таким документом или ресурсом не обязательно должна быть книга. С равным успехом это может быть репродукция картины, музыкальная запись и т. д. Пользователю же необходимо найти места, где необходимый ресурс имеется, и получить возможность выбрать из них наиболее для него приемлемое с точки зрения расстояний, возможной цены использова ния, копирования, получения прав на использование части сведений. Такой поиск можно назвать поиском мест хранения, и зачастую он мо жет быть сложным и длительным. Задачи поиска мест хранения широ ко распространены во многих видах профессиональной деятельности, а его методы во многом пересекаются с методами чисто информацион ного поиска. Чаще всего эти оба вида поисковых задач взаимосвязаны и решаются одновременно.
Кроме того, следует помнить, что реальные поисковые задачи не отвечают идеальным схемам. На практике широко распространен поиск ресурса по неполным данным о нем. Скажем, пользователю может быть известен автор, но не известно название нужной пользо вателю одной из его многочисленных публикаций. Иногда чисто ин формационная поисковая задача может самым причудливым образом переплестись с задачей поиска мест хранения ресурса и с поисковой задачей восстановления полноты характеристик документа или ре сурса.
Организация поиска документов и ресурсов |
73 |
Основные характеристики ресурса и документа, используемые при поисковых запросах
Любой электронный ресурс и документ имеют ценность из-за имеющейся в них информации, то есть ресурс ценен своим содержа нием. Естественно, что в идеале именно содержание должно лежать в основе информационного поиска. Прекрасной поисковой мечтой яв ляется представление о такой работе АПР, когда поисковая система полностью анализирует всю информацию во всех доступных ей ре сурсах, оценивает качество информации с точки зрения соответствия его содержания поисковому запросу и затем своевременно знакомит пользователя с адресами соответствующих ресурсов. Даже поверхно стный взгляд на проблему поиска информации говорит о том, что та кая мечта несбыточна.
Для этого существуют две главные причины. Во-первых, ни одна даже самая совершенная поисковая система не в состоянии творчески оценить полное содержание документа, установить необходимые свя зи и аналогии. Это по силам только самому автору запроса. Работа же АПР основывается на формализации делаемого запроса. Оценка со-, держания — это творческий процесс. Но даже если предположить, что оценку содержания исследуемых ресурсов АПР может совершить дос таточно надежно, сама возможность полного анализа всей информации, которая содержится в больших базах данных (а без этого результаты поиска бессмысленны), в принципе невозможна по чисто техническим причинам. Работа эта столь объемна, что ни одна система справиться с ней не сможет. Таким образом, для поиска нужных ресурсов прихо дится опираться на некоторые признаки, которые формируют инфор мационно-поисковый образ каждого ресурса. Это могут быть призна ки, исходящие из содержания ресурса, и признаки, которые являются некоторыми его формальными характеристиками. Все они использу ются в информационно-поисковом языке — ИПЯ. Часть слов, которые в ИПЯ специально отобраны для описания содержания документа, называют дескрипторами. Этот термин происходит от английского слова description — описание, изображение.
Описание поисковых данных ресурса мы начнем с формальных его характеристик. Одной из таких характеристик, которую с известной долей условности можно считать формальной, являются фамилии од ного или нескольких авторов, название учреждения, где выполнялась работа, конференции, где она докладывалась и т. д. И фамилия автора, и название учреждения могут иногда дать некоторое представление
74 |
Глава 3 |
о содержании ресурса, однако установить необходимую связь между этими характеристиками и содержанием ресурса очень трудно. Во вся ком случае, при поиске ресурса по этим признакам АП Р почти всегда никак не сопоставляет их с его содержанием. Аналогичными формаль ными характеристиками, которые могут использоваться при поиске, являются год издания, издательство, место издания и т. д. — все это хорошо известные выходные, а иногда и так называемые выпускные характеристики печатных изданий. Их можно использовать при поис ке мест хранения ресурса как при традиционных методах поиска, так и при сетевом поиске.
Во всех видах поиска в качестве поисковых характеристик (призна ков) зачастую используют ссылки на некий конкретный ресурс, кото рые делаются в других ресурсах. Иногда, наоборот, анализируются ссылки на ресурсы, которые имеются в некотором определенном мате риале. При сетевом поиске ресурса нередко учитывается то, как часто на данный ресурс ссылаются в других ресурсах. Эту характеристику называют пришедшим из библиографии термином -«индекс цитирова ния». Обычно предполагается, что чем выше индекс цитирования ре сурса, тем более полезна и интересна содержащаяся в нем информа ция. Это допущение ничем не обосновано и, надо полагать, не вполне правильно.
Для поиска места нахождения ресурса очень удобны введенные в
мировую практику в последние годы стандартные индексы изданий. В случае книг такой индекс называется «Международный стандарт ный книжный номер» (International Standard Book Number), обозначае мый как ISBN и состоящий из 10 цифр, разделенных дефисами на 4 группы. Первая цифра обозначает страну издания (для России это 5, для СШ А — 0). Остальные цифры указывают язык и ряд других дан ных, которые обычному пользователю не нужны. Любая вышедшая в мире книга имеет свой неповторяющийся номер ISBN, и поэтому ис пользовать этот номер для поиска места нахождения книги в разных хранилищах очень удобно. Естественно, что разные издания одной и той же книги, а также одновременные издания одной и той ж е книги в разных странах имеют и разные номера. Этот номер представляет со бой очень удобный поисковый признак, хотя предложен он для других целей.
Н е следует думать, что такой номер должен иметься у любого напе чатанного и переплетенного текста. Термин «книга» имеет строгое оп ределение. В соответствии с международной терминологией книгой считается печатное издание, объем которого не менее 49 страниц. Кро-
Организация поиска документов и ресурсов |
75 |
ме того, книга обязательно должна иметь обложку. Таким образом, можно сказать, что общий объем книги не менее 50 страниц. Принято полагать, что тираж менее 100 экземпляров — это размножение мате риала, а не настоящая печать. Короче, малотиражные и малообъемные издания ISBN не имеют, что вполне объяснимо, так как централизо ванное получение ISBN в соответствующем официальном националь ном органе обычно платное. Для нас важно только то, что этот номер является хорошим подспорьем при поиске некоторых документов и ресурсов.
Периодические издания, прежде всего журналы, также имеют свой неповторяющийся номер, единый для всех выпусков журнала. Он назы вается «Международный стандартный сериальный номер» (International Standard Serial Number) или сокращенно ISSN. Этот номер можно уви деть на обложках всех серьезных научных и художественных журналов и состоит он из 8 цифр, обычно разделяемых одной черточкой. Регист рация номера бесплатная, и ее проще всего провести в международном информационном центре, который расположен в Париже. Для регист рации следует обратиться по адресу http://www.issn.org и заполнить все необходимые формы. Узнать номера ISSN любого журнала можно, по лучив месячную бесплатную регистрацию по этому же адресу.
Отметим также, что наличие стандартных номеров изданий суще ственно для охраны авторских прав. Аналогичный номер (ISM N ) применяется и для идентификации музыкальных произведений. Ве дутся работы по созданию и других номеров подобного типа — в час тности, для описания специфических электронных изданий. Вся эта работа проводится в рамках Международной организации стандар тизации — ISO, которая разрабатывает Международные стандарты библиографического описания (International Standard Bibliographical Description).
Все указанные и другие формальные характеристики ресурса обес печивают поиск только в ограниченном числе практических ситуаций. Основными же поисковыми признаками ресурса и документа являют ся те характеристики, которые отражают их содержание. Прежде все го, такой характеристикой является Заглавие (Заголовок) — Title. Сама идея заглавия подразумевает краткое отражение в нем содержания до кумента или ресурса. Если для книг стремление автора к краткости заглавия зачастую делает заголовок малоинформативным, то в науч но-технических публикациях заголовки обычно более пространные и лучше отражают содержание документа. При создании электронных ресурсов их авторы хорошо знают, что текст заголовка будет использо
76 |
Глава 3 |
ван для информации о содержании материала при работе АПР, и поэто му созданию информативного заголовка в этих случаях обычно уделя ется особое внимание.
Рассмотрим для примера заглавие «Аналогия в практике научного исследования». Здесь каждое слово, кроме предлога «в» дает некото рое представление о содержании ресурса. Именно такие слова и при нято называть ключевыми словами {keywords). Набор ключевых слов создает информационно-поисковый образ документа. А вот пример другого заголовка — «Как стать еретиком». Можно предположить, что эта книга (пример реальный) посвящена истории религии, филосо фии или описанию чьей-нибудь биографии. На самом деле это полупопулярное издание, посвященное технике изобретательской рабо ты (Т Р И З), предложенной и разработанной известным советским изобретателем Г. С. Альтшуллером. Здесь, в отличие от предыдущего случая, слова заглавия никак не характеризуют содержание докумен та. К глубокому сожалению, в последние годы прием создания броских заголовков, плохо соотносящихся с содержанием, получил широкое распространение даже в серьезной научно-технической литературе. По этой причине намного лучше, если ключевые слова, характеризую щие ресурс или документ, выбираются специалистом, знакомым с под линным содержанием приводимого материала. Еще лучше, если такой набор ключевых слов будет выбран самими авторами ресурса. Не слу чайно во многих случаях в редакциях журналов, при написании отче тов и при создании электронных ресурсов авторов просят самих выб рать необходимые ключевые слова. В крупных библиотеках и в ряде других учреждений, а также кое-где в электронных БД ключевые сло ва проставляются специалистами-библиографами. В практике работы электронных систем специалисты, отбирающие материал и описываю щие его, называются обычно модераторами.
Модераторы и библиографы стремятся пользоваться наборами «ти повых» ключевых слов. Последний принято приводить в соответствие с разделами той библиотечно-библиографической классификации или того предметного каталога, которые используются в данном хранили ще документов или ресурсов. Это позволяет достаточно хорошо опи сывать содержание документа при сохранении нормального количе ства ключевых слов, которые используются в системе в целом. Таким образом характеризующие ресурс ключевые слова могут быть найде ны с помощью формальных процедур или же выявлены специалиста ми. Назовем первые формальными ключевыми словами, а вторые — экс
пертными ключевыми словами.
Организация поиска документов и ресурсов |
77 |
Формальные процедуры — это не только анализ заглавий. Элект ронно-вычислительная техника позволяет анализировать большие части текстов, а иногда и весь текст в целом. При этом в тексте могут быть выявлены термины и их сочетания, которые имеются в запросе
вкачестве ключевых слов. Естественно, что формальное выявление ключевых слов оперативно, не требует затрат на работу специалиста и практически никак не ограничивает количества ключевых слов. Тем не менее именно формальность соотнесения всех встречающих ся слов с содержанием документа приводит к многочисленным ошиб кам, когда в ответе на поисковый запрос появляется множество адре сов ресурсов, не имеющих к существу дела никакого отношения. Это так называемый информационный шум. На самом деле за часть ин формационного шума обычно ответственен автор неточно сформу лированного запроса.
Экспертные ключевые слова более надежны и лучше описывают со держание документа, однако и в этом случае встречаются ошибки. Со шлемся на конкретный пример. Книга «Коэффициенты распределения
всложных полупроводниковых системах» посвящена вопросам физи ческой химии и глубокой очистки полупроводниковых материалов. В каталоге Библиотеки конгресса США содержание этой книги тради ционно описывается 4 экспертными ключевыми словами. Три из них правильно описывают документ. Четвертое же слово относит эту книгу
кразделу «Математическая статистика». Это объясняется тем, что экс перт не знал хорошо известного физико-химического термина, состоя щего из сочетания двух слов «Коэффициент распределения». Слово же «распределение» действительно широко используется в математиче ской статистике. Такие ошибки достаточно широко распространены, и избавиться от них невозможно в принципе. По этой причине эксперты всегда характеризуют документ несколькими ключевыми словами, и чем больше этих слов, тем лучше. Поиск же нужного ресурса по этой же при чине разумно (если только это возможно) проводить по комбинациям ключевых слов (кстати, в ряде традиционных, но не очень широко рас пространенных типов печатных библиографических указателей доку менты описываются жесткими парами ключевых слов). При сетевом поиске такие жесткие увязки должен задать сам пользователь в момент составления поискового запроса. Сама же связь нескольких терминов воедино при поисковом запросе в случае сетевого поиска проста. Это является большим преимуществом электронных поисковых систем.
Взаключение отметим, что именно ключевые слова и их различные комбинации являются основными характеристиками, которые описы
78 |
Глава 3 |
вают ресурс. Именно поэтому они повсеместно и широко применяются почти во всех видах сетевого поиска.
Ответ на поисковый запрос
Ответ на поисковый запрос мог бы существовать в произволь ной форме, однако это настолько неудобно, что основные виды ис пользуемых на практике возможных ответов достаточно строго стан дартизованы. Содержание ответа во многом определяет его форму. В основной массе поисковых систем Интернета ответ выводится на экран в виде списка URL-адресов, и обычно поисковая система рас полагает их в соответствии со «значимостью». Этот термин нуждает ся в пояснении, которое зависит от конкретной поисковой системы, так как возможно и другое расположение материала (в частности, приводимые адреса можно расположить в соответствии со сроками появления информации о них в поисковой системе). Расположение адресов по значимости используется «по умолчанию». Перестройка же характера расположения материала в ответе задается пользователем. Как это выглядит, а также какими еще возможностями расположения материала можно воспользоваться, легко разобраться при непосред ственной работе.
При выводе ответа на запрос адреса располагаются друг под дру гом, но на экране можно разместить только ограниченное число адре сов, и поэтому при большом их числе в ответе на запрос список адресов или других материалов выводится на экран группами по 10, 15, 25 и т. д. единиц. Иногда это число можно менять. Переход к следующей группе адресов осуществляется щелчком по соответствующей кнопке на экране, которая обычно располагается в конце списка, в его начале, а иногда и в обеих этих местах сразу. Общее число адресов-ответов ука зывается в верхней части экрана перед первой порцией материала. Все это достаточно наглядно представлено на рис. 7. Все адреса гипертек стовые, и соответствующим щелчком мыши по конкретному адресу можно перейти непосредственно к ресурсу. Поскольку адрес сам по себе ни о чем не говорит, в небольшой порции текста, который поиско вая система или модераторы посчитали значительным, приводятся не сколько фраз из текста ресурса. Эти фразы с известными усилиями можно использовать для оценки реального содержания ресурса.
Иногда ответ на запрос может выдаваться сразу в полнотекстовой форме, то есть в виде некоторой «статьи». Такой вывод ответа исполь зуется во многих справочниках, энциклопедиях и иных похожих со браниях ресурсов. Это, естественно, возможно только тогда, когда зап-