Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

обеспечивающие вводными данными системы управления решениями, средства ретроспектив ного анализа данных или приборные панели мониторинга и управления рабочими показателями.

2.7.1 Представление результатов анализа

Доходчивое отображение найденных в данных закономерностей (как правило, средствами визуа лизации) — последний шаг научного исследования данных. Находки должны представляться в связке с действенными рекомендациями, чтобы организация могла оценить отдачу от вложе ний в исследования методами науки о данных.

Для изучения выявленных новых связей полезно использовать, опять же, средства визуали зации данных. По мере использования модели могут всплывать изменения в данных и связях между ними, тем самым раскрывая всё новую информацию о данных.

2.7.2 Итерации с добавлением источников

Презентация результатов и выводов часто приводит к инициированию нового цикла исследо ваний. Наука о данных по определению строится по итерационному принципу; соответственно, и разработка больших данных — процесс итерационный: уроки, извлеченные из анализа преды дущего набора данных, часто ставят вопрос о необходимости привлечения альтернативных или дополнительных источников с целью окончательного подтверждения предварительных заключе ний или доработки и углубления существующей модели или моделей.

3. ИНСТРУМЕНТЫ

Технологический прогресс (достаточно вспомнить закон Мура1 плюс экспоненциальный рост числа персональных мобильных устройств и техники с веб-интерфейсами), по сути, и привел к созданию индустрии больших данных и науки о данных. Для понимания того, что в этой отрасли происходит, нужно разобраться прежде всего с движущими факторами и направлениями ее развития. В настоящем разделе рассказано об основных инструментах и технологиях, сделавших возможным изучение больших данных.

Массово-параллельная обработка (Massive Parallel Processing, MPP2) стала одним из первых инструментов обработки больших данных, позволившим за кратчайшее время обрабатывать и анализировать колоссальные объемы информации. Сегодня мы только тем и занимаемся, что ищем иголки в стогах сена, и в будущем эта тенденция будет только усиливаться.

1 Закон Мура — сформулированное основателем Intel Гордоном Муром (англ. Gordon Earle Moore, р. 1929) эмпириче ское наблюдение об удвоении числа транзисторов в интегральных микросхемах процессоров и, как следствие, скоро сти обработки данных и производительности ЭВМ каждые два года. Эта закономерность вполне соблюдалась с момента ее формулировки в 1965 году и вплоть до середины 2000-х годов, когда был достигнут, по сути, физический предел возможностей повышения производительности одноядерных процессоров. — Примеч. пер.

2 сокр. от англ. Massively Parallel Processing. — Примеч. пер.

Большие данные и наука о данных

651

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Другие достижения, изменившие наши взгляды на данные и информацию, включают:

продвинутые аналитические средства, встроенные в базы данных;

аналитику неструктурированных данных (Hadoop, MapReduce и т. п.);

интеграцию результатов анализа в операционные системы;

универсальные средства визуализации данных в различных средах и на различных устрой

ствах;

семантическое связывание структурированной и неструктурированной информации;

новые источники данных, ставшие доступными благодаря интернету вещей;

продвинутую функциональность визуализации;

новые методы и технологии обогащения данных;

технологии и наборы инструментов для совместной работы.

Существующие архитектуры централизованных хранилищ данных с витринами и локальными хранилищами операционных данных (ODS) также всё чаще дополняются функциональностью, позволяющей нести дополнительную рабочую нагрузку по обработке больших данных. Техноло гии без реляционных связей (NoSQL) позволяют запрашивать, обрабатывать и сохранять слабо структурированные и вовсе неструктурированные данные.

Раньше доступ к неструктурированным данным обычно происходил посредством обработки пакетных запросов по расписанию, что снижало оперативность согласования данных в локаль ных хранилищах с источниками. Теперь некоторые СУБД класса NoSQL включают технологии, позволяющие обходить эту проблему и существенно ускорять получение данных из источников. Масштабируемые распределенные базы данных так и вовсе обеспечивают автоматическое сег ментирование (распределение потоков данных по серверам) с целью параллельного исполнения обработки запросов. Конечно, как и в любой другой базе данных, определение структуры данных и сопоставление структурированным элементам неструктурированных данных из анализируе мого набора остается процессом, который приходится выполнять по большей части вручную.

Функциональность немедленных запросов к данным, отчетов и анализа может на вполне удов летворительном уровне реализовываться с помощью технологий обращения к большим данным в оперативной или виртуальной памяти, которые позволяют конечным пользователям конструи ровать SQL-подобные запросы к неструктурированным данным. В некоторых инструментальных средах предусмотрены еще и адаптеры SQL/NoSQL, позволяющие отправлять стандартные для реляционных моделей запросы к неструктурированным данным и получать вполне совместимые с SQL-представлениями результаты (понятно, что с ограничениями и скрытыми подвохами). Не маловажно, что такие адаптеры нередко позволяют распространять привычные средства анализа данных на неструктурированные массивы.

Предлагаемые наборы технических средств определения критериев принятия решений, ре ализации процессов и формирования пакетов предложений профессиональных услуг также способствуют упрощению и ускорению процесса выбора исходного набора инструментов. Как

652

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

и в случае оснастки, необходимой для хранилища данных / бизнес-аналитики, тут критиче ски важно учесть все доступные варианты и сравнить их плюсы и минусы: строить/создавать собственные решения? покупать/арендовать готовые продукты и услуги (в частности, SaaS)? Как отмечалось в главе 11, следует взвешенно соизмерять затраты и выгоды от использования средств, доступных в облаке, по сравнению с издержками и выигрышами от проектирования с нуля собственного или приобретения и развертывания коммерческого программного обес печения. При этом должны учитываться и затраты на обновления, продление подписки или возможные замены неподходящих приложений. Согласование всех этих вопросов с действую щими соглашениями об уровнях обслуживания (SLA) или операционной поддержки (OLA) также будет не лишним, поскольку позволит хоть как-то спрогнозировать издержки реализа ции и согласовать между собой привлекательные ставки платы за обслуживание с суммами штрафов за нарушения.

3.1 Технологии и архитектуры MPP без разделения ресурсов

Технологии баз данных с массово-параллельной обработкой (MPP) без разделения ресурсов (shared-nothing) сделались стандартом вычислительных технологий, используемых для анализа и изучения наборов больших данных. В базах данных с MPP потоки обрабатываемых данных сегментируются (логически распределяются) по множеству серверов (вычислительных узлов), каждый из которых располагает достаточным объемом выделенной памяти для локальной об работки адресованного ему потока данных. Согласование же обработки осуществляется, как правило, с помощью головного сервера хост-системы, контролирующего все процессы на за действованных в распределенной сети обработки локальных серверах. Никаких совместно ис пользуемых вычислительных ресурсов, дисковых пространств или оперативной памяти при таких архитектурных решениях не предусмотрено, отсюда и уточнение — «полностью раздель ные» вычисления.

Появление MPP-архитектуры стало логичной реакцией на неспособность традиционных вы числительных схем (с индексацией, распределенными наборами данных и т. д.) обеспечивать до статочно высокую скорость обработки запросов, обращенных к огромным массивам табличных данных. Самые мощные классические вычислительные платформы (включая суперкомпьютеры Cray и им подобные) будут часами, если не сутками, обсчитывать сложную модель, примененную

ктаблице данных, содержащей триллион строк.

Атеперь представьте себе батарею из сотен серийных серверных компьютеров, работаю щих параллельно под управлением головной хост-машины. Каждый получает запрос на об работку своей доли вычислений. Скажем, если та же таблица с триллионом строк распреде ляется для обработки между тысячей параллельно подключенных серверов, то скорость об работки запроса, обращенного к триллиону записей, повышается на три порядка, поскольку каждому из 1000 компьютеров нужно обработать «всего лишь» миллиард строк. Причем MPPархитектура хороша еще и линейной масштабируемостью, что делает ее крайне привлекатель ной для исследователей и пользователей больших данных: перестало хватать вычислительных

Большие данные и наука о данных

653

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

мощностей — к платформе без каких-либо архитектурных изменений пристраиваются допол нительные серверы.

Технология MPP также позволила реализовать встроенные в СУБД на уровне процессоров исполняемые функции статистического анализа (кластеризацию методом k-средних, регрессион ный анализ и т. п.). Распределение рабочей нагрузки на процессорный уровень значительно уско ряет обработку аналитических запросов и тем самым стимулирует всё новые инновационные методы изучения больших данных.

Система, обеспечивающая автоматическое распределение данных и параллельную рабочую нагрузку на все доступные (локально) серверные процессоры, — оптимальное решение для ана лиза больших данных.

SQL

MapReduce

Головные

серверы

Шина

связи

Серверы

сегментов

Внешние

источники

Рисунок 102. Колоночная архитектура1

Объемы данных продолжают стремительно расти. Компании могут реагировать на это, на ращивая вычислительные мощности по мере надобности простым добавлением новых вычис лительных узлов, поскольку архитектура MPP предельно упрощает параллельное подключение десятков, сотен или тысяч ядер, выстраивающихся в ЭВМ. При этом в полностью раздельной по ресурсам МПП-архитектуре с поддержкой линейного масштабирования каждое ядро исполь зуется с максимальным КПД, и это дополнительно повышает производительность обработки огромных массивов данных.

1 Источник: «Greenplum Database 4.0: Critical Mass Innovation», White Paper, August 2010.

654

Г Л А В А 14