Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Модель NIEM для определения схем и представления элементов использует язык XML, что максимально упрощает структуру данных и их понимание за счет применения простых, но тща тельно определенных правил синтаксиса.

2. ПРОВОДИМЫЕ РАБОТЫ

Обеспечение интеграции и интероперабельности данных (DII) подразумевает, что данные всегда должны оказываться в нужное время в нужном месте и в требуемой форме. Работы по инте грации данных (разработке интеграционного решения) соответствуют фазам жизненного цикла разработки систем. Они начинаются с планирования и далее проходят фазы проектирования, разработки, тестирования и внедрения. По завершении внедрения интегрированные системы требуют надлежащего управления, мониторинга и совершенствования.

2.1 Планирование и анализ

2.1.1 Определение требований к интеграции и жизненному циклу данных

Определение требований к интеграции данных начинается с осмысления бизнес-задач организа ции, а также потребностей в данных и информационных технологиях, за счет которых эти задачи могут быть выполнены. Кроме того, необходимо тщательно собирать и учитывать требования всех нормативно-правовых актов и отраслевых регламентов, распространяющихся на данные, которые планируется использовать. Какие-то работы, возможно, потребуется вести в режиме строгой конфиденциальности из-за характера данных, и лучше все подобные требования знать заранее во избежание проблем в будущем. Требования также могут учитывать политику органи зации в отношении сроков сохранения данных (data retention) и других аспектов их жизненного цикла. Требования в отношении сроков сохранения часто сильно зависят от предметной области и вида данных.

Обычно требования к интеграции и жизненному циклу данных определяются бизнес-ана литиками, распорядителями данных и архитекторами, работающими в различных областях дея тельности организации, включая ИТ, которые заинтересованы в том, чтобы данные оказались

внужных местах, в требуемых форматах и были интегрированы с другими данными. Требования определяют вид модели взаимодействия при обеспечении DII (DII interaction model), которая,

всвою очередь, обусловливает выбор технологий и сервисов, необходимых для ее реализации с целью выполнения требований.

Впроцессе определения требований создаются и выявляются полезные метаданные. Они подлежат управлению на протяжении всего жизненного цикла данных, начиная с обнаружения источников и заканчивая выполнением операций. Чем полнее и точнее метаданные органи зации, тем больше она способна управлять рисками и затратами, связанными с интеграцией данных.

344

Г Л А В А 8

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

2.1.2 Исследование данных

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

Исследование данных (data discovery) необходимо проводить перед проектированием. Цель ис следования — определение потенциальных источников данных, которые могут быть использова ны при выполнении работ по интеграции. Оно должно выявить, где данные могут быть получены и где они должны интегрироваться. Процесс исследования объединяет технический поиск, ис пользующий инструменты, которые сканируют метаданные и/или реальное содержимое наборов данных организации, с экспертизой данных по той или иной предметной области (то есть интер вьюированием профильных специалистов, работающих с данными).

Исследование также включает высокоуровневую оценку качества данных с целью определе ния их пригодности к использованию в рамках реализуемой интеграционной инициативы. Такая оценка требует не только детального анализа имеющейся документации и интервьюирования специалистов в предметных областях, но и проверки собранной информации на предмет ее соот ветствия реальным данным путем профилирования или других видов анализа (см. раздел 2.1.4). Почти во всех случаях выявляются расхождения между предполагаемым состоянием набора дан ных и результатами проверки.

В процессе исследования создается или дополняется реестр данных организации. Этот реестр должен вестись в репозитории метаданных. Следует рассматривать его ведение как стандартную часть работ по интеграции и обеспечивать своевременное обновление его содержимого в ходе проводимой деятельности, например при добавлении или удалении хранилищ данных или при изменении структуры документов.

Большинству организаций требуется интеграция данных из их внутренних систем. Однако некоторые интеграционные решения предусматривают получение данных от сторонних постав щиков. Объемы полезной информации — как бесплатной, так и предоставляемой поставщиками на платной основе — лавинообразно нарастают. Данные из внешних источников могут оказаться крайне полезными при их объединении с данными организации, — но лишь при условии тща тельного планирования их приобретения и интеграции.

2.1.3 Документирование происхождения данных

В процессе исследования данных выявляется также информация о том, как данные перемеща ются в организации. Эта информация может быть использована для документирования проис хождения данных (имеется в виду только высокоуровневое описание): из какого источника они берутся или как генерируются; где внутри организации они перемещаются и изменяются; как и для чего используются (аналитика, принятие решений, запуск процессов). Детализированное описание происхождения данных может включать правила, в соответствии с которыми они из меняются, и сведения о частоте изменений.

Анализ происхождения данных иногда позволяет выявлять необходимость внесения измене ний в документацию на эксплуатирующиеся системы. ETL-решения собственной разработки и дру гие унаследованные средства манипулирования данными должны быть документированы, чтобы организация имела возможность анализировать влияние любых изменений в потоках данных.

Интеграция и интероперабельность данных

345

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Анализ также позволяет выявить потенциальные возможности для оптимизации потоков данных. Например, может выясниться, что какой-нибудь ресурсоемкий программный модуль обработки данных можно заменить вызовом стандартной функции, а то и вовсе исключить его из процесса обработки за ненадобностью. Иногда при использовании старых инструментальных средств возникают ситуации, когда на последующих этапах обработки потока данных произво дится обратное преобразование, сводящееся к отмене изменений, внесенных ранее. Выявление и удаление подобных непроизводительных элементов может оказать существенную помощь в успешной реализации проекта и повышает способность организации эффективно использо вать свои данные.

2.1.4 Профилирование данных

Успешная интеграция данных невозможна без понимания их содержания и структуры, для чего полезно использовать такой аналитический прием, как профилирование данных (data profiling). Реальные данные по структуре и содержанию всегда отличаются от нашего представления о них. Хорошо, если эти отличия несущественны; однако нередко они достаточно велики, чтобы свести к нулю все усилия по интеграции данных. Профилирование помогает командам по интеграции выявить такие расхождения и использовать полученные знания для принятия решений относи тельно оптимизации источников и подходов к проектированию. Если опустить этап профилиро вания данных, информация, которую следовало бы изначально учитывать при проектировании, не выявится, пока не начнется тестирование или эксплуатация.

Базовое профилирование данных включает анализ следующих аспектов:

формат данных, определенный в описании структур данных и выявленный на основе реаль ных данных;

заполнение полей данных, включая уровни наличия неопределенных и пустых значений, а также значений по умолчанию;

фактические значения данных и степень их соответствия определенным наборам допустимых значений;

паттерны и связи в наборе данных, такие как связанные поля и правила мощности связей;

связи с другими наборами данных.

Однако, чтобы понять, насколько данные соответствуют требованиям конкретной интеграцион ной инициативы, требуется более обширное и глубокое профилирование потенциальных набо ров — источников данных и целевых наборов. Профилирование и исходных и целевых наборов позволяет составить представление о том, каким образом следует преобразовать данные, чтобы обеспечить выполнение требований.

Одной из целей профилирования является оценка качества данных. В частности, для про ведения оценки пригодности данных к использованию по конкретному целевому назначению требуется наличие четко сформулированных бизнес-правил и измеримых показателей

346

Г Л А В А 8

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

соответствия данных этим правилам. Для оценки точности данных нужно иметь эталонный набор для сравнения, данные в котором признаны точными. Такие наборы имеются далеко не всегда, поэтому оценка точности может быть невозможна, особенно в рамках усилий по про филированию.

Как и в случае высокоуровневого исследования данных, профилирование данных включает проверку соответствия предположений по поводу данных реальным данным. Результаты про филирования данных следует зафиксировать в репозитории метаданных, чтобы использовать их

вбудущих проектах. Следует также использовать информацию, полученную в процессе профи лирования, для повышения точности метаданных (Olson, 2003; см. также главу 13).

Требование профилирования данных не должно вступать в противоречие с установленными

ворганизации правилами информационной безопасности и внешними требованиями по защите конфиденциальных данных (см. главу 7).

2.1.5 Сбор и систематизация бизнес-правил

Бизнес-правила — критически важное подмножество требований. Бизнес-правило — это утверж дение, которое определяет или ограничивает тот или иной аспект бизнес-процесса. Бизнес-пра вила устанавливаются для утверждения определенной деловой структуры и контроля/влияния на нее. Можно выделить четыре основные категории бизнес-правил:

определения бизнес-терминов;

взаимосвязи между различными бизнес-терминами;

ограничения или предписываемые действия;

производные правила.

Используйте бизнес-правила для поддержки различных функциональных элементов обеспече ния интеграции и интероперабельности данных, в частности с целью:

определения порядка доступа к данным в исходном и целевом наборах;

маршрутизации потоков данных в организации;

мониторинга операционных данных организации;

определения пороговых значений и сигналов для автоматического запуска событий и/или вы дачи предупреждений.

В области управления основными данными бизнес-правила включают правила соответствия, слияния, наследования и утверждения. Для архивирования и других процессов, связанных с ис пользованием различного рода хранилищ данных, бизнес-правила также включают правила со хранения данных.

Процесс сбора бизнес-правил иногда называют также «пожинанием» (harvesting) или «добы чей» (mining) бизнес-правил. Действительно, бизнес-аналитикам или распорядителям данных

Интеграция и интероперабельность данных

347