Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

1.3.10.4 ПРЕОБРАЗОВАНИЕ И СТАНДАРТИЗАЦИЯ ДАННЫХ

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

При преобразовании данных к стандартному виду применяются правила обработки, позволяю щие перевести их в формат, который может прочитать целевая система. Однако «читаемость» данных не гарантирует приемлемости их значений. Правила обработки и проверки должны при меняться непосредственно в интеграционном потоке данных или встраиваться в специальные отдельно используемые инструменты.

Любые преобразования данных должны иметь встроенные механизмы стандартизации. При выработке правил переноса данных из системы в систему строго придерживайтесь специфика ций мэппинга. Выявленные средствами синтаксического анализа нестандартные компоненты в структуре данных подлежат реструктурированию, исправлению и прочим изменениям соглас но действующим правилам с целью приведения их в соответствие с установленными стандартами. Фактически стандартизация является частным случаем трансформации данных, но только с использованием правил, определенных не произвольным образом, а с учетом всей суммы на копленных знаний о контексте, лингвистике и идиоматике, подкрепленных многократной про веркой этих правил на предмет их соответствия реальному положению вещей специалистами по разработке правил или поставщиками инструментов (см. главу 3).

2. ПРОВОДИМЫЕ РАБОТЫ

2.1 Определение данных высокого качества

Некачественные данные часто узнаваемы с первого взгляда. Намного сложнее дать четкое опре деление высококачественных данных. Потребители либо вовсе теряются, затрудняясь сформу лировать критерии и признаки качества данных, либо отделываются общими фразами: «данные должны соответствовать действительности», «нам нужны точные цифры» и т. п. Но даже из таких ответов можно сделать вывод, что в потребительском понимании главным критерием высокого качества данных служит их пригодность к использованию по назначению. Перед вводом в дей ствие программы качества данных полезно получить как можно более точное и детализирован ное понимание нужд бизнеса, сложившейся терминологии и болевых точек организации, чтобы изначально имелся консенсус относительно базовых стимулов и приоритетов в сфере повышения качества данных. Набор стандартных вопросов к целевой группе потребителей данных, по ответам на которые можно составить достаточно полное и точное представление о текущем состоя нии и готовности организации к внедрению модели качества данных, основанной на принци пах непрерывного совершенствования жизненного цикла данных, в самой общей формулировке включает следующие принципиальные вопросы.

Что именно вы, как ответственное лицо, понимаете под «высококачественными данными»?

Как сказывается низкое качество данных на ведении и стратегии вашего бизнеса?

592

Г Л А В А 13

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Какие новые стратегические возможности откроются перед вашим бизнесом с повышением качества данных?

Какие стимулы к повышению качества данных являются приоритетными?

Определены ли допуски погрешностей данных? Если да, то каковы предельно допустимые отклонения?

Какие структуры руководства, обеспечивающие поддержку повышения качества данных, су ществуют?

Какие дополнительные структуры руководства могут понадобиться?

Помимо вышеперечисленных вопросов, для получения исчерпывающей картины текущего со стояния качества данных в организации необходимо подойти к проблеме всесторонне и рассмо треть ее под различными углами. Для этого нужно:

понять стратегию и цели бизнеса;

уточнить у заинтересованных лиц все болевые точки, риски и бизнес-стимулы;

срежиссировать комплексную экспертизу данных методами профилирования и статистиче

ского анализа;

задокументировать зависимости между данными в бизнес-процессах;

задокументировать техническую архитектуру и системную поддержку бизнес-процессов.

Подобная экспертиза иногда позволяет выявить целый ряд возможностей для значительных улучшений, а приоритетные из их числа затем определяются по потенциальной пользе от их ре ализации с точки зрения организации. Используя вводные, полученные от заинтересованных лиц, включая распорядителей данных и экспертов в предметных областях бизнеса и ИТ, команда качества данных окончательно определяет смысл понятия «качество данных» и приоритетные направления программы.

2.2 Определение стратегии качества данных

Для повышения качества данных требуется стратегия, определяющая как работу, которую нужно проделать, так и способы ее практического выполнения. Приоритеты программы качества дан ных должны согласовываться с бизнес-стратегией. Принятие на вооружение готовой или разра ботка собственной рамочной структуры и методологии программы качества данных помогает согласованно планировать стратегию и тактику действий, обеспечивая при этом еще и средства объективного измерения достигнутого прогресса и результатов. Рамочная структура должна предусматривать методы, обеспечивающие:

понимание и приоритизацию бизнес-нужд;

выявление критически важных данных в привязке к бизнес-нуждам;

Качество данных

593

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

определение бизнес-правил и стандартов качества данных, соответствующих бизнес-требо ваниям;

определение и измерение показателей соответствия данных ожиданиям;

доведение полученных заключений до сведения заинтересованных лиц и сбор отзывов;

приоритизацию проблем и управление их разрешением;

выявление и приоритизацию возможностей для совершенствования;

измерение, мониторинг и учет показателей качества данных;

управление метаданными, получаемыми в рамках процессов управления качеством;

интеграцию механизмов программы качества данных в бизнес-процессы и технологические процессы.

Рамочная структура должна также описывать организационные аспекты программы качества данных и порядок использования инструментальных средств, обеспечивающий максимальную отдачу. Как уже упоминалось во вводной части настоящей главы, для повышения качества дан ных команда программы качества данных должна привлекать к деятельности по обеспечению качества данных сотрудников бизнес- и технологических подразделений с целью выявления кри тических проблем, выработки практических рекомендаций, разработки и внедрения операцион ных процессов, необходимых для реализации концепции непрерывного управления качеством данных. Часто такая команда входит в состав организационной системы управления данными (Data Management Organization). Аналитики качества данных должны тесно сотрудничать с рас порядителями данных на всех уровнях. Также у них должны иметься рычаги влияния на поли тику организации, в частности политику определения бизнес-процессов и развития информа ционных систем. Однако наличие такой команды само по себе не служит гарантией разрешения всех проблем с качеством данных, испытываемых организацией. Работа по обеспечению качества и приверженность высокому качеству данных должны стать неотъемлемой частью повседневных практик организации. Стратегия качества данных должна также предусматривать распростране ние передовых методов (см. главу 17).

2.3 Определение критически важных данных и бизнес-правил

Не все данные одинаково важны. Основные усилия по управлению качеством данных должны быть направлены на важнейшие для организации данные: те, повышение качества которых принесет мак симальную отдачу организации и ее клиентам. В качестве приоритетных могут выбираться различ ные критерии ценности данных — обязательность для соблюдения установленных внешних требо ваний, финансовая значимость, прямое влияние на потребителей и т. п. Часто усилия по повышению качества данных начинаются с проработки основных данных, которые по определению являются важнейшими для любой организации. Результатом анализа значимости становится упорядоченный список приоритетных данных, которым команда качества данных и руководствуется.

Определив критически важные данные, аналитики качества данных должны выявить биз нес-правила, описывающие или подразумевающие требования, предъявляемые к качественным

594

Г Л А В А 13

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

характеристикам этих данных. Важно помнить, что многие бизнес-правила явным образом ни где не документируются, поскольку их соблюдение считается само собой разумеющимся. Поэто му для того, чтобы добраться до бизнес-правил как таковых, может потребоваться проведение реверс-инжиниринга на основе анализа существующих бизнес-процессов, рабочих процедур, регламентов, политик, стандартов, системных настроек, триггеров и процедур присвоения ко дов статуса на уровне ПО, — и всё это должно дополняться простыми соображениями здраво го смысла. Например, если маркетинговая компания хочет ориентироваться на целевую группу, определяемую демографическими характеристиками, то потенциальные показатели качества данных могут определяться уровнем соответствия аудитории демографическим параметрам, та ким как пол, возраст, уровень доходов семьи и т. п.

Большинство бизнес-правил так или иначе относятся к порядку сбора или создания данных, в то время как показатели качества данных призваны оценивать степень их пригодности к ис пользованию по назначению. Однако оба эти понятия — создание и использование данных — также взаимосвязаны. Желание использовать данные обусловлено не только тем, что они отра жают, но и тем, как и откуда эти данные получены. Например, чтобы разобраться со статистикой продаж за указанный квартал, организации нужно знать не только сумму выручки, но и распола гать достоверными данными о структуре продаж (объемы проданных товаров по наименовани ям, каналам сбыта, доле постоянных/новых покупателей и т. п.).

Все возможные способы использования тех или иных данных выяснить, как правило, нереа листично, зато вполне можно понять процессы и правила сбора или создания данных. Измеримые характеристики годности данных должны разрабатываться в привязке к известным способам их использования и в проекции на оси параметров качества данных, то есть описывать их полноту, соответствие, допустимость, целостность и т. д. Параметры качества позволяют аналитикам как определять правила (например: «поле X обязательно для заполнения»), так и описывать получен ные результаты и выводы (например: «поле не заполнено в 3% записей; полнота данных = 97%»).

На уровне полей или столбцов правила могут определяться достаточно просто и прямоли нейно. Правила полноты определяют, является ли поле обязательным и, если не является, до полнительные условия, при которых требуется его заполнение. Правила допустимости задаются посредством определения множества или диапазона допустимых значений и в некоторых случаях дополняются условными ограничениями, определяемыми через связи между полями. Например, значение почтового индекса должно быть не только допустимым само по себе, но и не противоре чить коду региона. Следует также определять и правила, действующие на уровне набора данных. Например, каждому клиенту должен соответствовать допустимый почтовый адрес.

Определение правил качества данных — задача трудная по той причине, что большинство людей не приучено к осмыслению данных на языке правил. Поэтому, возможно, потребуется под бираться к формулировке правил окольными путями, задавая заинтересованным лицам вопросы не о самих правилах, а о требуемых характеристиках данных на входе и выходе того или иного бизнес-процесса. Полезно также расспросить сотрудников о болевых точках; о том, чем оборачи вается отсутствие или ошибочность какого-то элемента данных; как они выявляют проблемы, по

Качество данных

595