Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

планируемого к подключению источника, необходимую для получения полного понимания каче ственной картины и соответствующего определения измеримых показателей и критериев каче ства, по которым и будут оцениваться последующие экземпляры набора данных из этого источ ника. В процессе первичной экспертной оценки качества данных также определяются и ценные метаданные, которые потребуются для любых работ по интеграции этих данных.

Самые зрелые в плане использования больших данных организации сканируют потенциаль ные источники вводных данных с помощью специальных средств инструментальной диагности ки качества данных, которые позволяют понять, какая именно информация реально содержит ся в источнике. Самые передовые из таких инструментариев проверки качества поддерживают функциональность, которая дает организациям возможность проверять гипотезы и получать исчерпывающую информацию о том, что в действительности представляют собой предлагаемые источником данные. Примерами такой функциональности могут служить:

раскрытие фактической структуры первоисточников и мест хранения данных, представлен ных в наборе;

классификация представленных данных по стандартизованным типам и схемам;

профилирование: насколько полны и как именно структурированы данные;

сопоставление и соотнесение значений с данными из других источников/наборов.

Как и в случае DW/BI, в исследовании больших данных всегда есть место искушению отложить экспертизу качества до лучших времен. Однако без нее может оказаться затруднительным опре деление как содержания и смысла накапливающихся больших данных, так и определение связей и зависимостей между наборами данных. Интеграция так или иначе понадобится, а вероятность того, что данные из различных входящих потоков будут иметь идентичную структуру и состав элементов, близка к нулю. А это означает, что, например, коды и прочие связующие элементы данных в наборах от разных провайдеров почти наверняка совпадать не будут. Без выявления подобных рассогласованностей в рамках первичной экспертизы источников они так и останут ся незамеченными, пока у аналитиков не возникнет потребности в интеграции или обобщении данных от различных поставщиков, — вот тогда-то и обнаружится их несовместимость и, как следствие, непригодность для решения поставленных задач.

6.6 Метрики

Измеримые показатели качества жизненно необходимы в любом процессе управления. Они по зволяют не только выражать в цифрах качественные показатели проделанной работы, но и опре делять предельно допустимые отклонения наблюдаемых параметров от желаемых.

6.6.1 Технические метрики использования

Многие средства управления большими данными имеют продуманную функциональность ад министративной аналитической отчетности, которая позволяет учитывать спрос на данные

666

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

различного типа непосредственно по результатам обработки пользовательских запросов к кон тенту. Метрики технического использования позволяют анализировать «горячие точки» (чаще других запрашиваемые данные) с целью оптимизации распределения данных и поддержания вы сокой производительности. Темпы роста спроса могут использоваться также для планирования развития вычислительных мощностей.

6.6.2 Метрики загрузки и сканирования

Метрики загрузки и сканирования отражают темпы освоения данных и интенсивность взаимодей ствия с пользовательским сообществом. С приобретением каждого нового источника данных ме трики загрузки должны ожидаемо демонстрировать всплеск, а по завершении освоения данных из него — выравниваться. Оперативные данные, поступающие в потоковом режиме, могут обрабаты ваться в порядке очередности сетевыми службами, а могут накапливаться и обрабатываться партиями по расписанию; во втором случае ожидаемым эффектом будут цикличные всплески загрузки.

Слой или слои приложений, вероятно, служат оптимальным источником показателей исполь зования данных, которые можно считывать из журналов исполняемых процессов. Мониторинг по требления или доступа можно вести и посредством регистрации статистики обращений к метадан ным, тем более что такой подход позволяет анализировать еще и структуру и частотность запросов.

Метрики сканирования следует использовать в тех случаях, когда предусмотрена обработка внешних запросов, поступающих из-за пределов среды аналитической обработки данных. Сред ства администрирования должны обеспечивать учет таких взаимодействий в числе показателей здоровья служб управления большими данными.

6.6.3 Показатели эффективности и истории успешных внедрений

Для демонстрации ценности программы больших данных / науки о данных следует измерять по казатели материальной отдачи от вложений в разработку решений и управления изменениями процессов. Подобные метрики могут включать количественные оценки дополнительной прибы ли, стоимостного выражения полученных преимуществ, экономии за счет предотвращения или минимизации издержек, а также показатели сроков от инициации компонентов программы до их реализации и получения осязаемых результатов. Распространенные метрики включают:

число и точность разработанных моделей и схем;

дополнительные поступления и выгоды от реализации выявленных возможностей;

экономию за счет снижения издержек и устранения выявленных угроз.

Иногда результаты аналитических изысканий похожи на увлекательные истории о том, как ор ганизации удалось переориентироваться и обрести второе дыхание, ухватившись за открытые новые возможности. Поэтому важнейшим показателем эффективности анализа больших данных может стать число новых проектов и инициатив, взятых на вооружение отделом маркетинга или утвержденных высшим руководством.

Большие данные и наука о данных

667