Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

контента подписчикам могут включать гибкий дизайн в зависимости от пользовательских на строек и поддержку широкого спектра типов клиентских устройств. Дополнительные функциональные модули или компоненты могут поддерживать поиск, компоновку документов, работу с электронными подписями, семантический анализ контента и доступ к CMS через мобильные приложения.

3.1.3 Потоки работ по обработке контента и документов

Средства поддержки потоков работ (workflow) настраиваются в соответствии с бизнес-процес сами и позволяют маршрутизировать потоки контента и документов, распределять задачи меж ду сотрудниками, отслеживать статус их выполнения, создавать и вести журналы аудита. Долж на быть предусмотрена возможность определения процедур обязательного рецензирования и утверждения контента перед публикацией.

3.2 Инструменты поддержки совместной работы

Средства поддержки совместной работы позволяют членам команды собирать, сохранять, обра батывать и организовывать документы и контент, необходимый для реализации текущих проек тов. Взаимодействуя через социальные сети, отдельные участники и команды делятся докумен тами и контентом внутри своих групп и доносят его до сведения внешних (целевых) групп через блоги, вики-ресурсы, RSS и теги.

3.3 Инструменты управления контролируемыми словарями и метаданными

Средства, помогающие разрабатывать контролируемые словари и метаданные или управлять ими, варьируются в широком спектре и могут включаться в состав самых разнообразных пакетов программных продуктов, в том числе офисное ПО, системы управления репозиториями мета данных, средства бизнес-аналитики и системы управления документами и контентом. Примеры включают:

модели данных, используемые в качестве справочных руководств по классификации и струк турированию данных организации;

системы управления документами и пакеты офисных приложений;

репозитории метаданных, глоссарии, справочные каталоги и т. п.;

таксономии и схемы перекрестных ссылок между таксономиями;

индексированные предметные указатели по категориям (например, по продукту, рынку или конфигурации), файловым системам, опросам, архивам, локализациям или офлайновым ре сурсам;

информационно-поисковые системы;

средства бизнес-аналитики, поддерживающие обработку неструктурированных данных;

тезаурусы предприятия и подразделений;

библиотеки опубликованных отчетов, аннотации, оглавления, библиографии и каталоги.

Управление документами и контентом

405

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

3.4 Стандартные форматы разметки и обмена

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

Компьютерные приложения не могут работать с неструктурированными данными или контен том напрямую. Для обеспечения совместимости различных информационных систем по данным и возможности обмена ими через интернет используются стандартные языки и форматы размет ки и обмена данными.

3.4.1 XML

Расширяемый язык разметки (XML) позволяет представлять как структурированные, так и не структурированные данные и информацию. XML использует метаданные для описания содержания, структуры и бизнес-правил любого документа или базы данных.

Перевод данных в формат XML-документа обеспечивает возможность обмена ими между си стемами. В XML элементы данных маркируются таким образом, чтобы однозначно идентифици ровался смысл данных. Отношения между элементами данных задаются посредством простых вложений и ссылок.

Пространства имен XML позволяют избежать конфликтов имен между различными докумен тами, включающими идентичные имена элементов. Имеются и по-прежнему широко использу ются и более старые языки разметки: достаточно упомянуть HTML и SGML. Однако потребность именно в предлагаемых XML функциональных возможностях по управлению контентом назрела по ряду серьезных причин.

XML позволяет включать неструктурированные данные наряду со структурированными в ре ляционные модели в качестве BLOB (больших двоичных объектов) или XML-файлов и управ лять ими с помощью стандартных реляционных СУБД.

XML позволяет интегрировать структурированные данные в неструктурированные докумен ты, отчеты, e-mail, изображения, графики, аудио и видео (и об этом важно помнить проек тировщикам моделей данных, чтобы не забывать включать эти продукты в процессы учета и исправления ошибок обработки, резервного копирования и архивирования).

XML позволяет строить корпоративные порталы классов B2B (бизнес для бизнеса) и B2C (бизнес для клиента) для предоставления их пользователям единой точки доступа к разно образному контенту.

XML обеспечивает идентификацию и маркировку неструктурированных данных и/или кон тента понятным для компьютерных приложений образом. Благодаря этому приложения полу чают возможность обрабатывать неструктурированный контент и сопоставлять его со струк турированными данными. Стандарт обмена метаданными на XML (XMI) определяет правила генерирования XML-документа по актуальным метаданным, задающим его структуру.

3.4.2 JSON

JSON (JavaScript Object Notation) — стандарт предельно облегченного формата обмена данными. Будучи формально независимым от языков и легко читаемым, синтаксически он всё-таки тяготеет

406

Г Л А В А 9

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

к семейству C-языков программирования. Формат JSON включает два типа структур: неупорядо ченный набор объектов формата имя: значение и упорядоченный массив значений. В последнее время формат JSON всё чаще используется в веб-ориентированных базах данных NoSQL.

Формат JSON может использоваться вместо XML и в обмене данными между сервером и веб-приложением. Структурно форматы JSON и XML похожи, но JSON компактнее и про ще в прочтении и интерпретации. При использовании архитектурных решений на базе RESTтехнологий выдается контент, отформатированный и в XML, и в JSON.

3.4.3 Модель RDF и стандарты W3C

Разработанная Консорциумом Всемирной паутины (W3C) «Модель описания ресурсов» (Resource Description Framework, RDF) позволяет стандартизировать не только описания веб-ресурсов, но и обмен данными между ними в глобальных масштабах. Данные о включенных в RDF ресурсах сохраняются в единой базе данных триплетов, используемой для выдачи ссылок на ресурсы в от вет на семантические запросы на языке SPARQL.

В модели RDF любой ресурс описывается в рамках множества утверждений семантической структуры «субъект — предикат — объект», где субъект — имя описываемой сущности (ресур са), предикат — имя свойства, характеристики или отношения, а объект — значение свойства предиката. Обычно каждый из элементов триплета «субъект — предикат — объект» описывается адресом URI (Uniform Resource Identifier), однако субъект или объект (но не оба одновременно) может быть представлен так называемым незаполненным узлом (blank node), который называ ется также анонимным ресурсом. Кроме того, допускается использование в качестве объекта ли терала (безадресной текстовой строки). Неопределенные или пустые предикаты недопустимы, поскольку именно предикат URI определяет смысловую связь между двумя ресурсами. Самая распространенная и общеизвестная разновидность URI — адрес URL (Uniform Resource Locator). Именно через URL-адреса всевозможные приложения получают совместный доступ к структу рированным и частично структурированным данным.

Семантическая паутина требует доступа не только к данным как таковым, но и к определени ям связей между различными множествами данных, описывающих отношения между элемента ми. Полный набор взаимосвязанных множеств данных называют связанными данными. Семан тика URI позволяет однозначно идентифицировать любую уникальную сущность. Язык HTML служит средством структурирования и привязки веб-документов. Модель RDF описывает все данные, имеющиеся во Всемирной паутине, как единую структуру графов с узлами (объектами/ субъектами) в вершинах и предикатами (отношениями) на ребрах — и тем самым увязывает меж ду собой данные обо всем сущем1

Синтаксически модель RDF использует XML в качестве языка определения кодов. Метадан ные рассматриваются как обычные элементы данных (автор, дата создания и т. д.). Совокупность вышеописанных свойств модели RDF позволяет использовать ее для придания семантических

1 Под «всем сущим» здесь имеется в виду всё сущее во вселенной Всемирной семантической паутины W3C. — Примеч. пер.

Управление документами и контентом

407

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

смыслов сетевым ресурсам. Схемой RDF (сокращенно RDFS) называют структурированный сло варь логической RDF-модели данных, являющийся расширением базового словаря концептуаль ной модели RDF.

SKOS (Simple Knowledge Organization System)1 представляет собой семантическую модель структуры тезаурусов RDF (иными словами, проекцию модели данных RDF на иерархическую структуру терминологических понятий). Модель SKOS настолько универсальна, что в ее рамках можно представить любую классификацию, таксономию или тезаурус, не говоря уже о простых словарях.

OWL (W3C Web Ontology Language)2 является семантическим расширением модели RDF и служит языком разметки публикуемых и распространяемых через семантическую паутину OWL-документов (онтологий). В отличие от базовой модели RDF, описывающей ресурсы, ориен тированные на конечных пользователей, язык онтологий OWL используется, как правило, для ге нерирования документов, предназначенных для машинной обработки приложениями, а не людь ми. И RDF, и OWL утверждены W3C в качестве стандартов семантической паутины и образуют единую рамочную модель обмена данными и их многократного использования, обеспечивающую интеграцию, согласованность и совместимость данных с различными веб-приложениями в мас штабах глобальной семантической паутины.

RDF также помогает справляться с избыточной разнородностью характеристик больших дан ных. Если данные из различных источников доступны через триплеты RDF-модели, они допуска ют слияние в единый пул («озеро»), а обращенные к ним запросы на языке SPARQL позволяют затем отыскивать связи и закономерности без задания какой-либо предопределенной схемы. Вот как это описывается консорциумом W3C: «RDF обладает функциональностью, которая позволя ет с легкостью производить слияние данных даже в тех случаях, когда они структурированы по принципиально различным схемам, и даже в явном виде поддерживает эволюцию схем во време ни без отключения всех потребителей изменяемых данных»3. Также RDF поддерживает интегра цию разрозненных данных в различных форматах из множества рассогласованных источников с последующим редуцированием (удалением избыточных данных) или заменой исходных набо ров данных на семантически согласованные и оптимизированные. То есть речь идет, по сути, о синтезе данных (см. главу 14).

3.4.4 Семантическая разметка Schema.org

Унификация семантической разметки контента — в частности, по схеме, предложенной в рам ках открытого проекта Schema.org, — упрощает информационно-поисковым системам задачу индексирования содержимого веб-страниц, а поисковым роботам-обходчикам (так называе мым «веб-паукам») в составе этих систем — сопоставление контента с поисковым запросом.

1

«Простая система организации знаний» (англ.). — Примеч. пер.

2

«Язык веб-онтологии» (англ.). — Примеч. пер.

3

W3C, «Resource Description Framework (RDF)», http://bit.ly/1k9btZQ.

408

Г Л А В А 9