книги / Электронная информация и электронные ресурсы
..pdfСканирование или оцифровка печатных и графических текстов
тановленным у вас программным обеспечением. И в этом слу чае также рекомендуются детальное предварительное рассмот рение и проведение пробных оцифровок.
Требования к компьютеру и программному обеспечению при сканировании предъявляются достаточно высокие. В каче стве иллюстрации возьмем предельно простой случай — скани рование листа белой бумаги формата А4 с нанесенной на него косой черной чертой, допустим, по диагонали из конца в конец. При заданном пространственном разрешении 300 dpi в каждой строке будет 2500 точек и 3536 точек по высоте, всего 8,9 млн то чек на страницу; если в каждой точке фиксировать только ее ко ординаты и самую простую информацию, то на одну страницу потребуется зарезервировать память в несколько мегабайтов. Конечно, такой простейший способ никогда не применяется, а широко используются системы сжатия (компрессии) данных. Для иллюстрации принципов сжатия можно, например, не фиксировать тупо каждый показатель, а фиксировать только их изменения; это уже сэкономит необходимую память в несколь ко тысяч раз. Если же для передачи все той же косой черты дать
ее уравнение (в данном случае это линейная зависимость типа
у= ах + b), то вместо нескольких мегабайтов можно обойтись десятком байтов.
5.2.2.Сжатие данных (компрессия) и форматы оцифровки
Из приведенных примеров видно, что сканирование тек стов, изображений или микрофильмов приводит к созданию очень больших цифровых массивов. Работать с ними не очень удобно — большие емкости памяти, большое время обработки массивов, их пересылки. Поэтому с «сырыми» массивами оцифрованных данных стараются не работать, а используют так называемую компрессию, или сжатие данных. Зачастую речь идет просто об удалении не очень важных для раскрытия содер жания документа подробностей. Эта работа в чем-то близка ре ферированию — нужно путем разумного компромисса значи тельно сократить объем документа, не утратив его смысла. В на стоящее время разработано много систем компрессии данных,
191
Глава 5. Создание, хранение электронных документов и работа с ними
каждая из которых имеет свои преимущества и недостатки и, значит, пригодна для соответствующего применения.
Формат TIFF работает как со сжатыми, так и с несжатыми массивами данных, при этом формат T IFF G4 обеспечивает компрессию черно-белого материала без потери. Конечно, если процедура сжатия без потерь является доступной, она должна применяться в целях экономии объемов необходимой памяти. Но поскольку не все без исключения программы могут работать со сжатыми данными в формате TIFF, соответствующую со вместимость следовало бы опробовать заранее. В любом сомни тельном случае следует рекомендовать работу с несжатыми мас сивами.
Широко используемый для передачи и хранения данных оцифровки полутоновых и цветных фотографий формат JPEG (Joint Photographic Experts Group), разработанный объединен ной группой экспертов по фотографии, работает в режиме пере менных коэффициентов сжатия и поэтому не рекомендуется для массовых проектов, в которых необходимы стандартизация и унификация. Каждое промежуточное сохранение приводит к некоторым потерям данных, поэтому в данном формате лучше хранить только окончательные версии графических файлов.
Формат обмена изображениями GIF (Graphics Interchange Format) также не зависит от платформы и позволяет хорошо сжимать файлы, в которых много однородных элементов (зали вок, схем, логотипов и т. п.). Алгоритм G IF широко распростра нен для передачи кнопочек, баннеров в оформлении интерне товских интерфейсов и является платным, принадлежит компа нии CompuServe.
Довольно громоздкими оказываются и массивы данных вы сококачественной цифровой звукозаписи. В соответствии со стандартом ISO 9660 оцифровка музыкального произведения осуществляется так называемой импульсной модуляцией (Pulse Code Modulation, PCM). В секунду берется 44 100 образцов (темп сбора образцов (сэмплирования) составляет 44,1 кГц), каждому из сэмплов присваивается одно из 16 536 возможных значений (запись в 16 битов). Экономия может быть достигнута разными способами: уменьшением темпа взятия образцов (до 22,05 или даже до 11,025 кГц), либо уменьшением объема за писи одного сэмпла (использование 8-битовой записи, предо-
192
Сканирование или оцифровка печатных и графических текстов
ставляющей 256 значений), либо уменьшением числа каналов поступления информации (моно вместо стерео или квадро).
Развитие технологии импульсной модуляции состоит в за писи только разницы между соседними образцами, а не их абсо лютного значения. Эта методика называется адаптивной им пульсной модуляцией (Adaptive Differential Pulse Code Modulation, ADPCM ) и уменьшает объем необходимой памяти в 16 раз по сравнению с РСМ.
Еще одна методика сокращения объемов памяти при записи музыкальных произведений — использование системы так на зываемого интерфейса цифровых музыкальных инструментов (Musical Instrument Digital Interface, MIDI). В этой технологии записываются не образцы звуков, а их нотные обозначения в цифровом формате (высота и длительность звука); при этом достигается экономия примерно в 60 раз по сравнению с ADPCM.
Для сжатия музыкальных и видеофайлов широко использу ется стандарт, разработанный группой экспертов по кинофиль мам (Motion Pictures Expert Group, MPEG), который к настоя щему времени имеет несколько рабочих версий, в том числе формат MP3, используемый в аудиоплеерах и при передаче му зыкальных произведений через Интернет. Если CD-ROM обес печивает не более 74 минут звучания, то диски с записями фор мата MP3 обеспечивают 7—8 часов звучания. При воспроизве дении видеоинформации технология VHS потребовала бы темпов расходования запаса памяти 100—200 Мб в минуту, по этому бесплатный алгоритм сжатия MPEG позволяет сжимать в отношении 180:1 за счет передачи только изменений в кар тинке.
5.2.3.Оптическое распознавание букв
Оптическое распознавание букв (символов) (Optical Characters Recognition — OCR) представляет собой компьюте ризованный процесс превращения элементов изображения тек ста в буквенно-цифровые коды, соответствующие таблицам ASCII, и последующее формирование слов, отвечающее кон тексту. Программы распознавания опираются на встроенные
193
Глава 5. Создание, хранение электронных документов и работа с ними
системы многоязычных словарей и списков замещений; поль зователь может по желанию сохранять сегментирование стра ницы (колонки, блоки текста, графики) или сделать итоговый текст однородным и компактным. Для практических примене ний уровень надежности распознавания должен быть не ниже 99,5%, то есть не более 4—5 ошибок на 1000 знаковых единиц. В России широкое распространение получило семейство про грамм, поддерживающих сканирование и оптическое распозна вание символов русского и английского языков Fine Reader (4.0 Professional и более высокие версии) компании ABBYY и др.
5.3. Носители информации*
На первых порах достаточно существенным было деление возможных носителей цифровой информации на стационарные и портативные устройства (в данном случае правильнее бы ис пользовать прямой перевод — переносимые). Для систем персо нальных компьютеров обоих типов — IBM PC или Macintosh основным стационарным носителем информации был и остает ся жесткий диск.
Портативные устройства очень быстро развивались и транс формировались. Первые по времени появления стандартные гибкие диски диаметром пять дюймов с четвертью и емкостью несколько сотен килобайтов (до 360) уже не используются, и до вольно трудно будет найти оборудование для считывания ин формации, записанной в свое время на них. Пришедшие на смену стандартные диски три с половиной дюйма и емкостью 1,44 Мб также понемногу выходят из употребления. Новые ком пьютеры уже зачастую не имеют соответствующих приводов. Впоследствии пришли записываемые оптические компакт-дис ки — CD-R или CD-RW, DVD-R, DVD-RW, а также устройства, не содержащие вращающихся частей, — FlashJet и подобные, совместимые с универсальными портами USB. Нужно сказать, что на развитие компактных устройств памяти очень большое
* Материал дается на основе публикаци й авторов, о б щ и х сведений из инф орматики, в том числе из справочников по ко м пь ю терной технике.
194
Носители информации
влияние оказало внедрение музыкальных стандартов, цифро вых видео- и фотокамер.
Однако же совершенно революционные перемены в соотно шении стационарных и переносимых устройств принесло рас пространение Интернета. Необходимость брать с собой ка кие-то электронные документы отпадает, если в пункте назна чения и у вас имеется возможность использовать Интернет. Несколько упрощая, можно спросить самого себя: «Зачем пере носить, если можно переслать?»
С точки зрения типологии в дополнение к стационарным и портативным устройствам можно бы вводить и третий тип средств передачи данных, а именно: оборудование для связи че рез Интернет и по мобильной связи (мобильные телефоны вто рого и третьего поколений, смартфоны и т. п.). Вто же время ог раниченные скорости передачи данных могут перевернуть ваше представление о возможностях Интернета. Например, если вам почему-либо понадобилось передать на значительное расстоя ние очень большой массив информации, скажем 500 Гб, то вре мя передачи его по линии с пропускной способностью 1,5 Мбит/с составит более 30 дней непрерывной работы! Для та кого случая будет намного проще и удобнее переписать весь массив на выносной жесткий диск и просто отвезти его на место.
5.3.1.Физические основы записи цифровой информации
Для записи символов машиночитаемой информации ис пользуются изменения различных физических параметров, на пример:
•сквозная проницаемость «на просвет» (перфокарты);
•светоотражающая способность (оптические компакт-дис ки CD -ROM , вся печатная и рукописная продукция, ис ключая тексты Брайля);
•изменения электрической проводимости (открытое или закрытое положение транзистора);
•изменения намагниченности (магнитные ленты, диски);
•изменения квантовых параметров;
195
Глава 5. Создание, хранение электронных документов и работа с ними
•формирование последовательностей выпуклых точек (тексты Брайля);
•другое.
Всоответствии с параметрами физической среды записи и считывания информации различаются: магнитные носители, оптические носители, смешанные магнитооптические носите ли, платы памяти — микросхемы.
Наиболее распространенная геометрическая форма носи теля:
•диски (односторонние и двусторонние);
•ленты;
•плоские платы памяти — микросхемы (чипы);
•отдельные портативные устройства.
5.3.2.Жесткий диск
Это общепринятый физический носитель информации в сервере и в персональном компьютере. Ж есткий диск, иногда называемый «винчестер», состоит из набора вращающихся на одной оси плоских дисков диаметром несколько сантиметров (типичный диаметр — от трех с половиной дюймов и менее), покрытых магнитным слоем. Эксплуатационные свойства же сткого диска весьма привлекательны: большая емкость, быст рый доступ к записанной информации, высокий темп считыва ния информации и взаимозаменяемость (стандартизация дис ков). Быстрый доступ к информации обеспечивается небольшим расстоянием, которое проходит считывающая го ловка при поиске нужного места, а также записью информации в предварительно созданные (отформатированные) секторы на диске. Технические особенности, обеспечивающие малый из нос считывающих головок и магнитного слоя поверхности пла стины, — бесконтактное считывание информации, «полет» го ловки над диском. Принимаются специальные меры по обеспе чению надежности опорных подшипников жесткого диска, например используются газодинамические подш ипники, то есть также режим «полета» над опорной поверхностью. Поэто му для обеспечения ресурса сервера опасно не количество отра
196
Носители информации
ботанных часов, а число включений/выключений, связанных с «посадкой» головок и разгоном дисков. Указанная особенность конструкции диска дает возможность (при наличии устройств бесперебойного питания) оставлять сервер включенным в тече ние многих суток (недель). Таким образом достигается одно из существенных преимуществ электронной библиотеки — обслу живание пользователя 24 часа в сутки круглый год.
Примерные параметры жестких дисков.
1. Семейство жестких дисков компании Seagate Technology, Barracuda 7200, емкость 160/120/80/40 Гб, с интерфейсом Serial АТА, среднее время поиска 8,5 мс; одна из последних разрабо ток — жесткий диск Barracuda NL35, объем памяти 500 Гб, 3 пластины, скорость вращения пластин 7200 оборотов в мину ту. Скорость считывания данных составляет 47 Мб/с. Еще один образец продукции той же компании — семейство дисков Cheethah со скоростью вращения дисков 15 тыс. оборотов в ми нуту, памятью до 300 Гб.
2. Отвечает самым высоким требованиям надежности бес шумный и противоударный жесткий диск компании Samsung емкостью 40,8 Гб; скорость вращения пакета из 2 дисков 5400 оборотов в минуту; емкость буфера 512 Кб, среднее время доступа 8,5 мс, скорость передачи данных до 66 Мбит/сек. Среднее время наработки на отказ 500 тыс. часов (это примерно 57 лет), удельная стоимость хранения данных — 1 доллар за 200 Мб, то есть 0,5 цента за 1 Мб.
3. Тот же принцип обеспечения высокой надежности реали зует конструкция жесткого диска WD Caviar компании Western Digital для серверов емкостью до 250 Гб, обладающего специ альной функцией контроля надежности и предупреждения вы хода диска из строя. Расчетное время наработки на отказ со ставляет 1 млн часов (более 100 лет).
Для хранения больших массивов данных существуют специ альные дисковые системы с высоким быстродействием, напри мер, в продажу поступает цифровая библиотека-хранилище (конструктивно — один шкаф) из дисков по 73 Гб каждый, сум марной емкостью 9 Тб.
Завершая данный раздел, приведем обобщенное суждение об особенностях кинематики в конструкции жестких дисков. В позиции ожидания и в работе диск находится в состоянии
197
Глава 5. Создание, хранение электронных документов и работа с ними
равномерного, непрерывного и быстрого вращения. Обраще ние к записанной информации происходит за счет поперечного перемещения головок на очень короткую дистанцию . Нагрузка на физическую основу носителя (создается центробежной си лой) постоянна во все моменты времени.
5.3.3.Носители информации на магнитных лентах
Данные носители реже используются сегодня, чем на заре компьютерной эры. Тем не менее их преимущества очевидны: это хорошо освоенные технологии производства, высокая плот ность записи, высокая скорость считывания информации и большая емкость. Однако конструктивное различие ленточных устройств по сравнению с жесткими дисками в кинематике яв ляется абсолютно принципиальным.
•Состояние ожидания — это неподвижная лента.
•Выход на исходную позицию при поиске файла на опре деленном и заранее неизвестном участке ленты — это ус коренное движение (перемотка) и последующее резкое торможение.
•Рабочий режим считывания или записи — это равномер ное движение ленты со скоростью, намного меньшей, чем при поиске.
Ленточные устройства используют не монотонный, а «рва ный», пульсирующий режим работы, с большой и переменной во времени механической нагрузкой на физическую основу но сителя информации. Неустранимый недостаток устройств с ис пользованием магнитных лент — большое время доступа к ин формации, постепенное стирание магнитного слоя, ухудшение записи из-за размагничивания ленты, вытягивание ленты-ос новы в ходе эксплуатации. Тем не менее цифровые устройства хранения информации очень часто реализуются на магнитных лентах, например стримеры, цифровые магнитофоны DAT (Digital Audio Таре), магнитофоны со спиральной дорожкой за писи, занимающей всю ширину магнитной ленты (Exabyte).
Некоторые примеры устройств хранения информации: лен точные накопители Surestore с технологией DLT (Digital Linear
198
Носители информации
Таре), в которых используются кассеты емкостью 160 Гб каж дая, скорость передачи данных 16 Мбит/с (384 дорожки, сред нее время доступа к файлу порядка 70 с). В качестве иллюстра ции широкого распространения этих систем укажем, что к 2002 г. было продано 2 млн приводов, 80 млн картриджей.
Разработан открытый формат Ultriym, в котором использу ются кассеты на 200 Гб, и скорость передачи данных составляет 20 Мбит/с. На базе этих устройств созданы цифровые хранили ща — роботизированные библиотеки с суммарной емкостью 10 Тб, темпом передачи данных до 10 Мбит/с.
Российская компания «Мобильные ТелеСистемы» (МТС) установила недавно ленточную библиотеку Exabyte Х200 (один шкаф), способную хранить до 30 Тб сжатых данных (это эквива лент 30 млн томов), — для резервного копирования и архивиро вания биллинговых (платежных) записей. Библиотека состоит из 200 кассет, до 150 Гб на кассету, темп передачи данных 30 Мбит/с.
5.3.4. Компактные оптические диски
Диски «только для чтения» CD-ROM с предварительно за писанной и неизменяемой информацией — один из наиболее надежных и распространенных носителей цифровой информа ции. Особенно полезны такие диски для записи неизменяемой информации, например архивных или ретроспективных изда ний, коллекций рисунков и подобных данных, которые могут потребоваться большому числу пользователей. Полезно отме тить разницу и сходство между веб-сайтом и оптическим дис ком. Хотя оба вида содержат машиночитаемую информацию, диск в обслуживании намного ближе к печатному формату. Это подтверждает библиотечная практика. Диском владеют физиче ски, его можно каталогизировать и поставить на полку библио теки. В то же время есть и очень важное технологическое и ло гическое единство: обе технологии работают в режиме форми рования стандартных пакетов информации.
Технология CD -ROM появилась благодаря сотрудничеству фирм Sony (Япония) и Philips (Нидерланды). В 1987 г. Между-
199
Глава 5. Создание, хранение электронных документов и работа с ними
народная организация по стандартизации выпустила междуна родный стандарт ISO 9660 «Обработка информации — структу ра файла и тома CD-ROM для обмена информацией (1988)», ко торому в настоящее время соответствуют практически все рыночные виды CD-ROM.
Аудиокомпакт-диск, или CD-ROM, — это диск диаметром 12 см из чистого поликарбонатного пластика, покрытый отра жающим металлом (алюминий, золото) и защитным слоем про зрачного лака. Сфокусированный лазерный луч считывает мельчайшие (0,5 микрона) углубления вдоль спиральной до рожки общей длиной 4,5 км. Плотность кодирования очень вы сока: на дорожке аудиокомпакт-диска, или CD -ROM , содер жится около 3 млрд кодов. На стандартном компакт-диске мо жет быть записано 74 минуты звучания или около 680 Мб информации. Диск не имеет физически выделенных дорожек и не нуждается в форматировании, а запись идет вдоль некоей виртуальной спирали, делающей 20 тыс. оборотов от центра на ружу. Информация считывается с диска при движении с посто янной линейной скоростью: диск вращается медленнее (200 оборотов в минуту), когда считывающая головка находится на его внешней части. Воспроизведение осуществляется встро енными в компьютер устройствами с возможностью ускоренно го вращения диска (и передачи данных) кратностью 8, 16,32,40 и выше.
Логическая структура дисков CD-ROM в формате ISO 9660 имеет четырехуровневую архитектуру: бит, байт, блок, файл. Физическая структура приведена ниже. Эта архитектура позво ляет использовать CD-ROM с различными операционными системами так, как будто это просто еще один магнитный диск или накопитель файлов. Структура блока C D -ROM приведена в табл. 31 (в каждом блоке 2352 байта).
|
|
|
|
|
Таблица 3! |
Структура блока CD-ROM формата ISO 9660, байты |
|||||
Синхрониза |
Заголовок |
Основные |
Коды обнару |
Не использу |
Коды коррек |
ция |
|
данные |
жения ошибок |
ется |
ции ошибок |
12 |
4 |
2048 |
4 |
8 |
276 |
200