книги / Сетевой информационный поиск
..pdfВведение, посвященное полезным советам |
31 |
В каких-либо пояснениях такая запись не нуждается.
Отметим еще, что между терминами главная и домашняя страницы есть небольшая разница. Тем не менее ею обычно пренебрегают и рас сматривают оба эти названия, как равнозначные. Учитывая это, мы в дальнейшем будем предпочтительно пользоваться термином главная страница без каких-либо дополнительных уточнений. В заключение раздела укажем на еще одно обстоятельство. Домены в путевых адре сах разделяются точкой. Эта точка не имеет грамматического смысла, а является просто разделительным знаком. В этом смысле она анало гична точкам и двоеточиям в хорошо знакомых библиотечным работ никам записям ссылок на цитированную литературу. Там эти знаки препинания имеют специальное название — УРЗ (универсальный раз делительный знак). В адресах Интернета точка в конце никогда не про ставляется — это достаточно неприятная ошибка. В то же время эти адреса часто расположены в тексте. Если такой адрес находится в сере дине фразы, то никаких проблем не возникает. Если же он находится в конце фразы, то после него без разрыва должна следовать точка, свя занная с правилами пунктуации. До настоящего времени разумного решения этой проблемы не предложено. В одних случаях пунктуаци онную точку ставят сразу после адреса, в других точка отделена пробе лом, в третьих же фразу просто оставляют без заключительной точки. Единого правила на этот счет не существует. Мы также столкнулись с этой трудностью. Выбранное нами решение очевидно читателю. Явля ется ли оно оптимальным, мы судить не можем.
Несколько замечаний,
/полезных в практической работе
Хотим обратить ваше внимание еще на ряд обстоятельств. Боль шие поисковые машины работают без перерывов. Единственная воз можная сложность при работе с ними — это перегруженность каналов связи. К непрерывному режиму работы быстро привыкают и считают, что такая система доступа применяется везде. На самом деле это не так. В работе небольших поисковых систем часто случаются заплани рованные остановки. При обращении же к онлайновыми каталогами даже самых больших библиотек надо очень внимательно следить за информацией о режиме их работы, помещаемой на главной странице. Так, каталог самой большой библиотеки мира — Библиотеки конгрес са СШ А два раза в день по одному часу закрыт для регламентных работ. Некоторые библиотечные каталоги просто не работают по вы ходным и праздничным дням, а иногда и в ночное время. Ряд уни
32 Введение, посвященное полезным советам
верситетских библиотек закрывается для профилактики в канику лярное время. За всем этим надо внимательно следить и не теряться при временных перерывах в работе того или иного звена компьютер ных сетей.
В процессе обучения иногда приходится неоднократно обращаться по одному и тому же URL-адресу. По одному и тому же адресу много кратно обращаются и при постоянном чтении новостных сайтов. Как известно, броузер резервирует на винчестере компьютера специальную область, называемую «временной» или кэш-памятыо, где хранятся те программы, к которым часто обращается пользователь или те файлы, к которым он обращался недавно. Поэтому при частом обращении к новостным и учебным сайтам на экран иногда выводится информация, которая была сохранена кэш-памятью от предыдущего обращения, то есть «старая версия» информации. Если вы замечаете или подозревае те, что столкнулись с таким явлением, то при появлении подозри тельного по новизне файла нажмите кнопку Обновление {Refresh). Можно даже сделать более «жесткое обновление», а именно нажать клавишу F5 или же сочетать команду Обновление с нажатием клави ши Control (при пользовании Internet Explorer) или ж е клавиши Shift (в Netscape Communicator). Это весьма полезный прием, однако зло употреблять им все же не следует.
Сделаем еще одно замечание. При знакомстве с методами поиска сетевой информации поневоле приходится сталкиваться с незнакомой терминологией. Авторы этого пособия стремятся не злоупотреблять новыми терминами и объяснять их при первой встрече с ними в тексте. Тем не менее не только практическая поисковая работа, но и простые упражнения поневоле столкнут вас с незнакомыми выражениями. Они будут не всегда понятны. Новая терминология будет относится к двум темам: чисто компьютерные термины и библиотечные термины. Могут встретиться трудности и при встрече с такими ж е терминами в иноязычных поисковых системах. С новой терминологией чаще всего вам придется встретиться сидя за компьютером. Поэтому и разъясне ния ее лучше всего искать в компьютерных базах данных. Есть множ е ство URL-адресов, посвященных компьютерной терминологии. К со жалению, вход в соответствующие ресурсы часто осуществляется с перебоями. На русском языке объяснения компьютерных терминов можно найти по адресам: http://whaits.textarget.com и http://www.pcchainik.mft.spb.ru/dict.htm. Большинство компьютерных терминов при шло к нам из английского языка. Они часто представляют собой анг лоязычные аббревиатуры (abbreviations, acronymes). Поэтому списки компьютерных терминов даже в русскоязычных файлах обычно при-
Введение, посвященное полезным советам |
33 |
водятся в порядке английского алфавита. При этом кратких объяснений термина оказывается вполне достаточно для понимания его смысла. Краткость объяснений и английская терминология позволяют восполь зоваться для этих же. целей и англоязычными ресурсами. Их имеется великое множество. Приведем для примера только ряд URL-адресов:
http://www.ionstrom.com/glossary/
http://www.web.webworld.co.uk/web/info/jargon.htm
http://wwwstate.vt.us/inthelp.htm
http//members.tripod.co.uk/sixfour/bobjude/tutor/abbr/f.html.
При желании можно, используя несложные поисковые приемы, найти еще много англоязычных ресурсов, посвященных терминологии. Искать их надо, используя для поиска английские термины: jargon, glossary, dictionary. В то же время в настоящее время появились русскоязычные разъяснения необходимых терминов, расположенные в списках в соот ветствии с русским описанием и русским алфавитом. Словарь подобно го рода можно найти в поисковой системе Апорт: http://www.aport.ru. Чтобы найти этот словарь, с главной страницы поискового портала надо пройти следующим образом:
Навигатор > Образование > Основные понятия и определения интернетики.
При этом правомерность введения термина интернетика полнос тью лежит на совести авторов словаря. К этому же словарю можно про сто добраться, используя линк: http://rol.ru/files/dict/intemet.
В отношении библиотечной терминологии ситуация иная. Имеет ся много прекрасных русскоязычных печатных пособий и учебников, хорошо освещающих эту тему. Сведения о них можно легко найти как в традиционных библиотечных каталогах, так и в Интернете. Тем не менее русскоязычных электронных ресурсов, посвященных разъясне нию этой тематики, авторы данного пособия не знают. Надо полагать, что понимание этой терминологии в общем должно прийти к вам без особых затруднений. Сложнее обстоит дело с пониманием и нахож дением соответствующих иноязычных терминов. В отношении чисто компьютерной терминологии эта проблема остро не стоит. Наиболее важные компьютерные и сетевые термины звучат очень похоже по чти на всех языках. Поэтому и трудностей на этом поле почти не возникает. С библиотечной тематикой вопрос намного более сложен, и приходится пользоваться словарями. Мы полагаем, что освоить при необходимости несколько важнейших англоязычных библиотечных терминов особого труда не составит, однако иногда приходится пользо
34 |
Введение, посвященное полезным советам |
ваться и поисковыми системами других стран. Здесь проблемы понима ния библиотечных терминов стоят остро даже для профессиональных библиотечных работников.
Действительно, переход к новому языку часто неоднозначен. Так, один из самых распространенных в практике библиотечного и сетево го поиска термин ключевое слово (по-английски keyword) имеет три аналога на немецком языке. Разобраться в тонкости различий этих немецких терминов не просто. Для помощи в решении этой пробле мы в Интернете имеются многоязычные списки, сопоставляющие библиотечные термины. К сожалению, нам не известны списки, в ко торых бы учитывалась и русская библиотечная терминология. Поэто му если необходимость в таких сопоставлениях возникнет, что очень маловероятно на этапе освоения поисковых методик, то лучше всего обратиться к обычным словарям. Их количество в сети довольно вели ко. Мы приведем только URL-адрес немецко-английского библиотеч ного словаря: http://www.cyboerg.de/glossar. На этом мы и закончим наше введение.
ГЛАВА 1
ИНФОРМАЦИЯ И ДОКУМЕНТЫ
/Понятие «информация»
"Роль информации в личной, профессиональной и социальной жизни человека столь велика, что попытка дать ее всеобъемлющее опи сание обречена на провал. Понимать ведущую роль информации люди стали не очень давно. Возникновение такого понимания совпало, что весьма естественно, с бурным ростом информационных технологий. Этот рост резко увеличил то количество информации, с которым по вседневно приходится иметь дело человечеству. Понятия информации, информатики и информационных систем и сетей повсеместно распро странены. Почти наверняка нет человека, который не только слышал бы эти термины, но и не имел бы о них некоторого интуитивного пред ставления, однако интуитивное понимание, а значит и подразумевае мое определение термина (понятия) «информация», далеко не одно значны. Такая ситуация часто встречается при знакомстве с достаточно общими понятиями, которые точно не определяются и их смысл выч леняется только при массовом использовании. Для описания основных проблем, затрагиваемых в данном пособии, интуитивного понимания термина информация вполне достаточно. Тем не менее для ряда оце нок качества получаемой информации полезно сделать некоторые уточнения и ввести некие определения. Им и посвящен этот раздел, который стоит несколько в стороне от основных задач пособия, но зна комство с которым, на наш взгляд, все же достаточно полезно.
Слово информация происходит от латинского слова informatio — разъяснение, изложение. Это означает, что информация — это нечто несущее или таящее в себе некоторые сведения. Такое определение яв ляется достаточно общим, и, как следствие, связано с потерей конкрет ности. Последнее обстоятельство естественно для общих определений всех базовых (фундаментальных) понятий. Его скорее можно назвать философским определением. Стало быть, для уточнения смысла тер мина информация необходимо уточнить и конкретизировать его содер жание, обратив внимание на его основные свойства.
При введении любого нового термина теория обычно стремится оп ределить его с помощью других терминов, которые, в конечном итоге, опираются на различные постулаты. Такой чисто теоретический под ход не всегда удобен, и поэтому в нашем случае можно исходить из дру гого подхода, который принято называть операционным или операционалистским. В этом случае вводимая вновь величина определяется путем указания способа ее измерения. При таком подходе информа цию можно определить через вызванное ею уменьшение числа возмож
Информация и документы |
37 |
ных ответов в некоей задаче (проблеме). Таким образом, количество информации связывается с уменьшением неопределенности. Количе ственный подход к определению информации позволяет изучать воп росы хранения и передачи информации, однако он совершенно не ка сается ценности информации. Ценность информации связывают с ее прагматическим смыслом, то есть с возможностью ее разумного ис пользования.
Поясним понятие прагматического смысла информации. Ценность информации зависит от соответствующей ситуации, а также от уровня сведений, которые могут уже иметься у индивидуума. Можно сказать, что ценность информации существенным образом зависит от характе ристик воспринимающего информацию субъекта, точнее от уровня уже имеющихся у него знаний. Сумму этих знаний принято опреде лять как тезаурус субъекта. Иными словами, ценность информации есть функция тезауруса воспринимающего объекта и в этом смысле она относительна.
Анализ математической формулы дает совершенно разные представ ления о скрытом в ней смысле в зависимости от того, каков образова тельный уровень человека, с этой формулой знакомящегося. Таким об разом, семантический смысл информации связан как с объектом, с которым соотносится информация, так и с субъектом, получающим и анализирующим данную информацию.
О наличии информации обычно судят, если замечают в распределе нии каких-либо объектов (знаков, предметов и т. д .) некие отклонения от хаоса. Иными словами, информация определенным образом связа на с упорядоченностью. Можно говорить о том, что во внешнем мире любая информация — это упорядочение, которое может быть осмыс ленно истолковано. Информация искусственного происхождения, то есть информация, которая создана человеком, — это любое целена правленное упорядочение. В то же время следует учитывать, что ин формация при полном упорядочении (когда, например, все знаки в тексте строго периодически повторяются), на самом деле не так уж и велика. Собственно говоря, в этом случае имеют дело только с очень малым количеством информации: наличием упорядоченности и ее ха рактеристиками. Это соответствует минимально возможному количе ству информации, иногда даже всего в 1 бит (одна единица двоичного кода). Приведем пример практически нулевой информации:
АВАВАВЛВАВАВАВАВАВ.
Фактически информацию здесь несет только число повторяемых символов в группе А и В, а также число повторений. В действительное-
38 |
Глава 1 |
ти, хотя расположение последовательных единиц, несущих информа цию (обобщенно символов), и упорядочено, в их расположении не дол жно быть строгой регулярности. Чем более неожиданным (непредска зуемым) является расположение символов, отличное в то же время от полного хаоса, тем более информативным и содержательным является общий смысл сообщения или хранимой информации. В этом случае мы сталкиваемся с неожиданностью или непредсказуемостью инфор мации. Приведем пример словесного сообщения, когда практически каждое следующее слово нельзя предвидеть, опираясь на предыдущий текст:
Он надувшийся громчайше закид следившей прислали толстая пузырь замечать говорите;
не подошла и — далее, меченный шишка Воронухиной заходиламасон голова взял стеалось потухание. И, подумав двери туфлей он какая чужим гцурили.
Этот текст получен путем случайной выборки слов из романа А. Бе лого -«Московский чудак» (эта работа была выполнена переводчиками известной монографии А. Моля, посвященной информации). Знаком ство с этим отрывком сразу же показывает, что непредсказуемость, нео жиданность и понятность связаны между собою так, что возрастание одной из этих характеристик соответствует уменьшению другой. При передаче информации и просто при знакомстве с ней понятность обес печивается тем, что в сообщении или же, например, в файле, имеется некоторая избыточность, то есть некий резерв. Он-то и позволяет вос становить информацию при разного рода нарушениях в процессе ее хранения или передачи. Отметим также важнейший закон, являющий ся одной из возможных формулировок второго начала термодинами ки, а именно: при всякой передаче информация искажается. То есть всякая передача и копирование информации неизбежно связаны с из менением ее качества.
Все естественные языки имеют существенную избыточность (для русского языка избыточность составляет около 45%). Считается, что во всех языках количество информации, приходящейся на одну букву или фонему, приблизительно равны. При этом основная информация сосре доточена обычно в начале слова. По этой причине в аббревиатурах по чти всегда используются начальные буквы слов. В то же время широко распространены сокращения, которые комбинируют и начальные, и ко нечные части слов (например, транзистор = transformer + resistor). Нам достаточно лишь отметить, что избыточность информации может слу жить мерой ее понятности.
Информация и документы |
3 9 |
/ Связь информации с ее носителем
Информация связана не только с воспринимающим ее индиви дуумом (субъектом). Весьма существенна связь информации с так на зываемым носителем. Под термином носитель подразумевается любой материальный объект, на котором расположена (закреплена) инфор мация. Действительно, информацию в «чистом» виде можно только попытаться себе представить. На самом деле она всегда связана с неко торым объектом-носителем. Это может быть глиняная табличка с кли нописными текстами, папирусный свиток, лист бумаги или пергамена. Носителем определенного типа информации является и полотно кар тины. Информация может располагаться на кино- и фотопленке, маг нитной ленте, на дискете или же на жестком диске (винчестере) ком пьютера, на оптическом диске. Для речевой информации носителем является звуковая волна. При передаче информации ее временным но сителем могут быть не только звуковые, но и радиоволны. Этот список нетрудно приумножить. Для нас важны следующие, достаточно очевид ные обстоятельства:
♦Одна и та же информация может располагаться на разных носите лях и переносится с одного носителя на другой. Это могут быть однотипные носители, например, копии одного и того же тиража книги. В то же время носители информации могут иметь и раз ную природу: одну и ту же информацию, например, запись песни, можно расположить на магнитофонной ленте, компакт-диске и даже на пластмассовой патефонной пластинке. В этих случаях мы говорим о разнотипных носителях. Суть информации и ее харак теристики остаются при этом неизменными.
♦На одном и том же носителе, иногда практически в одной и той ж е его части, может быть записано несколько информационных сообщений.
♦Информация может быть нанесена на различные носители. Ин формация, зафиксированная на каком-либо носителе, называет ся документом.
Вэлектронных сетях понятию документ в известной степени соот ветствует понятаересурс. Мы пользовались уже этим выражением без особых пояснений. Термин ресурс, как и термин документ, использу ют в расширительном смысле. К сожалению, традиционное библиотеч ное понимание терминаресурс отнюдь не соответствует использованию этого термина в Интернете. Вся литература, связанная с Интернетом, использует термин ресурс в качестве электронного аналога термина «документ». Вне всякого сомнения, желательно было бы для этих це-
40 |
Глава 1 |
лей использовать иной термин, однако авторы данного пособия вынуж дены считаться со сложившейся практикой и обращаться к термину ре сурс именно в том смысле. Во избежание недоразумений мы везде, где это необходимо, добавляем в этом случае к термину ресурс прилага тельное электронный. Э то не вполне удобно, но зато вполне однозначно.
Поиск информации в электронных сетях в конечном итоге приводит к адресу или обычного документа на традиционном носителе, или ж е к документу в электронной форме (то есть записанному где-то в машин ной памяти или же на магнитном носителе). Таким образом, мы смело могли бы говорить о поиске в сетях документов вне зависимости от того, какой материальный объект использован для хранения на нем ин формации, однако в сложившейся практике такая терминология не ис пользуется. Мы вынуждены с этим считаться, но для материалов, под линники которых хранятся вне сетей и размещаются на традиционных носителях, предпочтительней пользоваться термином «документ».