Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
314.doc
Скачиваний:
22
Добавлен:
30.04.2022
Размер:
2.18 Mб
Скачать

6.3. Информационно-поисковые системы Internet

При описании и классификации информационно-поисковых систем ставилась задача проанализировать наиболее популярные и наиболее типичные системы, которыми пользуются в Сети.

Lycos

Как и большинство систем, Lycos дает возможность использовать простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке. Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о числе документов на каждое слово, а уже позже и список ссылок на формально релевантные документы. В списке напротив каждого документа указывается его мера близости запросу, число слов из запроса, которые попали в документ и оценочная мера близости, которая может быть больше или меньше формально вычисленной. На апрель 1996 года в Lycos не был реализован булевый поиск, такие планы были анонсированы. Последнее предложение подразумевает только то, что нельзя вводить эти операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Последнее относится к расширенной форме запроса, который предназначен для использования искушенными пользователями системы, которые уже научились пользоваться этим механизмом. Таким образом мы видим, что Lycos относится к системе с языком запросов типа "Like this", но предполагается его расширения и на другие способы организации поисковых предписаний.

AltaVista

Наиболее интересным с точки зрения информационно-поискового языка в AltaVista является возможность расширенного поиска. Здесь стоит сразу выделить, что в отличии от многих систем AltaVista поддерживает одноместный оператор NOT. Кроме этого есть еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой словарь этих фраз. Кроме всего прочего, при поиске.в AltaVista можно задать имя поля где должно встретиться слово. Это может быть гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но сказано, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

Yahoo

Данная система появилась в сети одной из первых, и поэтому говорить будем о сегодняшнем состоянии Yahoo, а не о состоянии годовой давности. В настоящее время Yahoo сотрудничает со многими производителями средств информационного поиска и на различных ее серверах используется различное программное обеспечение. На мой взгляд, это самая незатейливая информационная служба, которая сосредоточилась на информации о Web как таковой. ИПЯ Yahoo достаточно прост: все слова следует вводить через пробел и они соединяются либо AND, либо OR. При выдаче не выдается степени соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что информация в базе данных Yahoo точно есть. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

OpenText

Информационная система OpenText представляет из себя самый коммерциализированный информационный продукт в сети. Все описания больше напоминают рекламу, чем реальное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов поиска сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести без сомнения к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

InfoSeek

Система InfoSeek обладает довольно развитым информационно-поисковым языком, который позволяет не просто указывать какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, "-" - термин обязан отсутствовать в документе. Кроме этого InfoSeek позволяет проводит то, что называется контекстным поиском. Это значит, что используя специальную форму запроса можно потребовать последовательной совместной встречаемости слов. Кроме этого можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Есть возможность и указания ключевых фраз. Ключевая фраза от последовательной встречаемости отличается тем, что фраза всегда ищется как единое целое, а при последовательной встречаемости слова могут стоять рядом, но в произвольном порядке. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса в документе, за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме можно сказать, что InfoSeek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS

WAIS является одной из наиболее изощренных поисковых систем Internet. В отличии от многих поисковых машин, ИПЯ системы позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечение терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet.

Яндекс

Несомненным лидером среди ИПС Рунета по величине индекса цитирования (числу обращений), исходя из статистических данных, является система Яндекс. В окне каталога Яндекс видны два уровня предложенной разработчиками данной ИПС классификации ресурсов Интернет по типу содержащейся в них информации (Справки, Товары и услуги, Публикации и пр.). Запрос также можно уточнить по региону, которому принадлежит искомый ресурс. На первом уровне тематического дерева каталога Яндекса десять тем, а число уровней в глубину не превышает четырех. Помимо тем, в каталоге имеется ряд дополнительных признаков (фасет), позволяющих уточнить характер ресурсов, которые пользователь хочет увидеть в тематических категориях. Эти нетематические признаки характеризуют ресурсы по региону, сектору экономики, степени достоверности (источнику) информации, ее потенциальной аудитории (адресату информации), жанру (художественная литература, научно-техническая литература, и т. д.), цели (предложение товаров и услуг, Интернет- представительство) и т. д. Разработчиками Яндекса сформированы группировки ресурсов такие, как справочно-информационные сайты, сайты с предложениями товаров и услуг, Интернет–представительства, сетевые публикации, сайты для общения.. Таким образом, в каждой предметной теме (Дом и семья, Наука и образование, Бизнес и экономика и т. п.) пользователь может выделить и просмотреть группу ресурсов. Сайты в рубриках расположены по убыванию их взвешенного индекса цитируемости. Каталог Яндекса позволяет найти нужный сайт, сужая область поиска в дополнение к основной рубрикации по темам (Бизнес и экономика, Дом и семья, Развлечения и отдых и пр.).

Рамблер

Второй по популярности среди ИПС Рунета, является Рамблер. Одноуровневый каталог представлен 56 разделами, разбитыми по категориям или расположенными в алфавитном порядке (на выбор пользователя). Результатом поиска по дереву каталога является список ссылок на сайты по выбранной категории. Если поиск осуществляется через строку запроса, то результатом его будет список ссылок на ресурсы Инернет, отсортированных по сайтам, страницам и по дате. Роботы Рамблера при сканировании игнорируют поля HTML -кода, такие <meta... > , в которых обычно содержатся ключевые слова и описание ресурса, кроме поля <meta name="robots". . . > , в котором прописаны инструкции по индексированию ресурса. Поэтому краткое описание выдаваемых при поиске документов сформировано по содержимому тегов <title> (заголовок страницы), <hl>... <h4> (заголовки внутри текста), <strong> (особо важные фрагменты, выделенные полужирным шрифтом), <и> (подчеркнутый текст).

Апорт

Структура каталога ИПС Апорт несколько похожа на каталог Яндекса. На стартовой странице расположены четырнадцать тематических рубрик с основными разделами (рис. 4). Число уровней вглубь каталога в некоторых случаях доходит до пяти. При перемещении вглубь каталога можно уточнять запрос, указывая географическое расположение требуемых ресурсов (регион, страна, город и т. п.). Апорт, как полнотекстовая поисковая система, индексирует все слова, которые присутствуют на конкретной странице сервера. В результате любое слово из текста документов сервера может служить критерием поиска. Для документов HTML, кроме основного текста документа, индексируются также: заголовок документа (TITLE), ключевые слова (МЕТА KEYWORDS), описания страниц (МЕТА DESCRIPTION), подписи к картинкам (ALT) и ссылки, как на документы внутри сайта, так и ссылки на внешние ресурсы. Выдача результатов поиска и сортировка документов производится, исходя из целого перечня критериев:

  • количество искомых слов в тексте документа (в процентах), расстояние между поисковыми словами в тексте документа;

  • место в тексте, где встречаются поисковые слова (заголовок, описание, мета-тэг и т. п.);

  • внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет);

  • количество ссылок из Интернета на данный документ;

  • использование искомого слова в тексте ссылок из Интернета на данный документ.

Хотя, благодаря эффективной работе ИПС Интернета, пользователи сети не оказываются в "информационной яме", четкой информационной структуры весь объем информации сети, к сожалению не имеет. В разных ИПС один и тот же запрос может принадлежать различным по названию и по содержанию тематическим рубрикам, следовательно, пользователь не сможет сделать однозначного вывода, к какому разделу системы классификации знаний принадлежит на самом деле полученный по его запросу документ.

Выходом из этой ситуации может явится попытка создания ИПС, в которой будут учтены все особенности поиска информации в необъятном пространстве Глобальной сети и базовые принципы организации поиска в системах автоматизации библиотек, диктуемые лингвистическим обеспечением АБИС.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]