- •Оглавление
- •Список иллюстраций
- •Список таблиц
- •Вступительное слово компании «Юнидата»
- •Вступительное слово компании BSSG
- •Предисловие
- •Глава 1. Управление данными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели
- •2. ОСНОВНЫЕ ПОНЯТИЯ И КОНЦЕПЦИИ
- •2.1 Данные
- •2.2 Данные и информация
- •2.3 Данные как актив организации
- •2.4 Принципы управления данными
- •2.5 Проблемы управления данными
- •2.6 Стратегия управления данными
- •3. РАМОЧНЫЕ СТРУКТУРЫ УПРАВЛЕНИЯ ДАННЫМИ
- •3.1 Модель стратегического выравнивания
- •3.2 Амстердамская информационная модель
- •3.3 Рамочная структура DAMA-DMBOK
- •3.4 Пирамида DMBOK (Айкен)
- •3.5 Дальнейшая эволюция рамочной структуры управления данными DAMA
- •4. DAMA И DMBOK
- •5. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 2. Этика обращения с данными
- •1. ВВЕДЕНИЕ
- •2. БИЗНЕС-ДРАЙВЕРЫ
- •3. ОСНОВНЫЕ ПОНЯТИЯ И КОНЦЕПЦИИ
- •3.1 Этические принципы, связанные с данными
- •3.2 Основополагающие принципы законодательства о конфиденциальности данных
- •3.3 Этические аспекты работы с данными в режиме онлайн
- •3.4 Риски, обусловленные неэтичными практиками обращения с данными
- •3.5 Формирование культуры этичного обращения с данными
- •3.6 Этика обращения с данными и руководство данными
- •4. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 3. Руководство данными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Определение задач и функций руководства данными в организации
- •2.2 Проведение оценки готовности
- •2.3 Выявление возможностей / угроз и согласование с бизнесом
- •2.4 Создание точек взаимодействия внутри организации
- •2.5 Разработка стратегии руководства данными
- •2.6 Определение операционной рамочной структуры руководства данными
- •2.7 Выработка целей, принципов и политик
- •2.8 Поддержка проектов в области управления данными
- •2.9 Внедрение практики управления организационными изменениями
- •2.10 Внедрение практики управления проблемными вопросами
- •2.11 Оценка требований по нормативно-правовому соответствию
- •2.12 Внедрение руководства данными
- •2.13 Поддержка стандартов и процедур
- •2.14 Разработка бизнес-глоссария
- •2.15 Координация взаимодействия с архитектурными группами
- •2.16 Оказание содействия в финансовой оценке данных
- •2.17 Встраивание руководства данными в процессы
- •3. ИНСТРУМЕНТЫ И МЕТОДЫ
- •3.1 Присутствие в Сети / Веб-сайты
- •3.2 Бизнес-глоссарий
- •3.3 Инструменты для управления потоками работ
- •3.4 Инструменты для управления документами
- •3.5 Оценочная ведомость руководства данными
- •4. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •4.1 Организация и культура
- •4.2 Согласование действий и коммуникации
- •5. МЕТРИКИ
- •6. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 4. Архитектура данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Результаты и практики разработки архитектуры данных
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Внедрение практики разработки и сопровождения архитектуры данных
- •2.2 Интеграция с корпоративной архитектурой
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты моделирования данных
- •3.2 Программное обеспечение для управления ИТ-активами
- •3.3 Приложения для графического проектирования
- •4. МЕТОДЫ
- •4.1 Проекции на фазы жизненного цикла
- •4.2 Четкость и ясность графических представлений
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО АРХИТЕКТУРОЙ ДАННЫХ
- •6.1 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 5. Моделирование и проектирование данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 План проведения работ по моделированию данных
- •2.2 Построение модели данных
- •2.3 Проверка и оценка качества моделей данных
- •2.4 Сопровождение моделей данных
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты моделирования данных
- •3.2 Инструменты для отслеживания происхождения данных
- •3.3 Инструменты профилирования данных
- •3.4 Репозитории метаданных
- •3.5 Шаблоны моделей данных
- •3.6 Отраслевые модели данных
- •4. ЛУЧШИЕ ПРАКТИКИ
- •4.1 Лучшие практики в области соглашений об именовании
- •4.2 Лучшие практики проектирования баз данных
- •5. РУКОВОДСТВО МОДЕЛИРОВАНИЕМ И ПРОЕКТИРОВАНИЕМ ДАННЫХ
- •5.1 Управление качеством моделей и проектных решений
- •5.2 Метрики моделирования данных
- •6. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 6. Хранение и операции с данными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Управление технологиями баз данных
- •2.2 Управление базами данных
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты моделирования данных
- •3.2 Инструменты мониторинга баз данных
- •3.3 Инструменты управления конфигурацией баз данных
- •3.4 Инструменты разработки приложений
- •4. МЕТОДЫ
- •4.1 Тестирование в средах более низкого уровня
- •4.2 Стандарты именования для физической модели данных
- •4.3 Использование сценариев для внесения любых изменений
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО ХРАНЕНИЕМ И ОПЕРАЦИЯМИ С ДАННЫМИ
- •6.1 Метрики
- •6.2 Отслеживание и учет информационных активов
- •6.3 Аудит и проверка корректности данных
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 7. Безопасность данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Выявление требований по безопасности данных
- •2.2 Определение политики безопасности данных
- •2.3 Определение стандартов в области безопасности данных
- •3. ИНСТРУМЕНТЫ
- •3.1 Антивирусное программное обеспечение
- •3.2 Протокол HTTPS
- •3.3 Технологии управления идентификацией
- •3.4 Системы обнаружения и предотвращения вторжений
- •3.5 Межсетевые экраны
- •3.6 Отслеживание метаданных
- •3.7 Маскировка / Шифрование данных
- •4. МЕТОДЫ
- •4.1 Использование CRUD-матриц
- •4.2 Немедленное развертывание обновлений безопасности
- •4.3 Атрибуты безопасности в метаданных
- •4.4 Метрики
- •4.5 Учет потребностей в безопасности данных в проектных требованиях
- •4.6 Эффективный поиск в массиве зашифрованных данных
- •4.7 Санитизация документов
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •5.3 Доступность информации о наборах прав пользователей
- •5.4 Обеспечение безопасности данных в условиях аутсорсинга
- •5.5 Обеспечение безопасности данных в облачных средах
- •6. РУКОВОДСТВО БЕЗОПАСНОСТЬЮ ДАННЫХ
- •6.1 Безопасность данных и корпоративная архитектура
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 8. Интеграция и интероперабельность данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Планирование и анализ
- •2.2 Проектирование решений по интеграции данных
- •2.3 Разработка решений по интеграции данных
- •2.4 Внедрение и мониторинг
- •3. ИНСТРУМЕНТЫ
- •3.1 Программный комплекс для преобразования данных / ETL-инструмент
- •3.2 Сервер виртуализации данных
- •3.3 Корпоративная шина данных (ESB)
- •3.4 Программный комплекс для управления бизнес-правилами
- •3.5 Инструменты моделирования данных и процессов
- •3.6 Инструменты профилирования данных
- •3.7 Репозиторий метаданных
- •4. МЕТОДЫ
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО DII
- •6.1 Соглашения о совместном доступе к данным
- •6.2 DII и происхождение данных
- •6.3 Метрики для оценки эффективности интеграции данных
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 9. Управление документами и контентом
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Планирование управления жизненным циклом
- •2.2 Управление жизненным циклом документов и контента
- •2.3 Публикация и доставка контента
- •3. ИНСТРУМЕНТЫ
- •3.1 Системы управления корпоративным контентом
- •3.2 Инструменты поддержки совместной работы
- •3.3 Инструменты управления контролируемыми словарями и метаданными
- •3.4 Стандартные форматы разметки и обмена
- •3.5 Технологии e-discovery
- •4. МЕТОДЫ
- •4.1 Сценарий подготовки электронной доказательной базы
- •4.2 Карта данных, которые могут быть найдены и представлены
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО УПРАВЛЕНИЕМ ДОКУМЕНТАМИ И КОНТЕНТОМ
- •6.1 Рамочные структуры руководства информацией
- •6.2 Рост объемов информации
- •6.3 Управление качеством контента
- •6.4 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 10. Справочные и основные данные
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Работы по управлению основными данными
- •2.2 Работы по управлению справочными данными
- •3. ИНСТРУМЕНТЫ И МЕТОДЫ
- •4. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •4.1 Строгое следование архитектуре основных данных
- •4.2 Мониторинг движения данных
- •4.3 Управление изменениями справочных данных
- •4.4 Соглашения о совместном использовании данных
- •5. ОРГАНИЗАЦИОННЫЕ И КУЛЬТУРНЫЕ ИЗМЕНЕНИЯ
- •6. РУКОВОДСТВО СПРАВОЧНЫМИ И ОСНОВНЫМИ ДАННЫМИ
- •6.1 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 11. Ведение хранилищ данных и бизнес-аналитика
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Выработка понимания требований к DW
- •2.2 Определение и сопровождение архитектуры DW/BI
- •2.3 Проектирование и разработка хранилища и витрин данных
- •2.4 Заполнение хранилища данных
- •2.5 Внедрение портфеля инструментов BI
- •2.6 Сопровождение информационных продуктов
- •3. ИНСТРУМЕНТЫ
- •3.1 Репозиторий метаданных
- •3.2 Средства интеграции данных
- •3.3 Типы инструментов BI
- •4. МЕТОДЫ
- •4.1 Прототипирование с целью уточнения требований
- •4.2 BI по принципу самообслуживания
- •4.3 Открытые для пользователей данные аудита
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Дорожная карта выпуска релизов
- •5.3 Управление конфигурациями
- •5.4 Организационные и культурные изменения
- •6. РУКОВОДСТВО DW/BI
- •6.1 Обеспечение одобрения со стороны бизнеса
- •6.2 Удовлетворенность клиентов/пользователей
- •6.3 Соглашения об уровне обслуживания
- •6.4 Стратегия в области отчетности
- •6.5 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 12. Управление метаданными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Определение стратегии работы с метаданными
- •2.2 Выработка понимания требований к метаданным
- •2.3 Определение архитектуры метаданных
- •2.4 Создание и ведение метаданных
- •2.5 Применение метаданных в аналитике и при формировании запросов и отчетов
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты управления репозиторием метаданных
- •4. МЕТОДЫ
- •4.1 Отслеживание происхождения и анализ влияния
- •4.2 Метаданные для обработки больших данных
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО МЕТАДАННЫМИ
- •6.1 Механизмы контроля процессов
- •6.2 Документация, описывающая метаданные
- •6.3 Стандарты и руководства
- •6.4 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 13. Качество данных
- •1. ВВЕДЕНИЕ
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Определение данных высокого качества
- •2.2 Определение стратегии качества данных
- •2.3 Определение критически важных данных и бизнес-правил
- •2.4 Проведение первичной оценки качества данных
- •2.5 Выявление и приоритизация потенциальных улучшений
- •2.6 Определение целей повышения качества данных
- •2.7 Разработка и внедрение операционных процедур обеспечения качества данных
- •3. ИНСТРУМЕНТЫ
- •3.1 Инструменты профилирования данных
- •3.2 Инструменты формирования запросов к данным
- •3.3 Инструменты моделирования данных и средства ETL
- •3.4 Шаблоны правил качества данных
- •3.5 Репозитории метаданных
- •4. МЕТОДЫ
- •4.1 Превентивные меры
- •4.2 Корректирующие меры
- •4.3 Программные модули проверки и аудита качества
- •4.4 Эффективные метрики качества данных
- •4.5 Статистическое управление процессами
- •4.6 Выявление и анализ корневых причин
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО КАЧЕСТВОМ ДАННЫХ
- •6.1 Политика в области качества данных
- •6.2 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 14. Большие данные и наука о данных
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Стратегическое планирование потребностей бизнеса в больших данных
- •2.2 Выбор источников данных
- •2.3 Определение источников и загрузка данных
- •2.4 Выработка гипотез и выбор методов
- •2.5 Предварительная интеграция / Cогласование данных для анализа
- •2.6 Исследование данных с помощью моделей
- •2.7 Внедрение и мониторинг
- •3. ИНСТРУМЕНТЫ
- •3.1 Технологии и архитектуры MPP без разделения ресурсов
- •3.2 Базы данных на основе распределенных файловых систем
- •3.3 Алгоритмы «в базе данных»
- •3.4 Облачные хранилища больших данных
- •3.5 Языки статистических вычислений и графических представлений
- •3.6 Средства визуализации данных
- •4. МЕТОДЫ
- •4.1 Аналитическое моделирование
- •4.2 Моделирование больших данных
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ
- •5.1 Согласование со стратегией организации
- •5.2 Оценка готовности / Оценка рисков
- •5.3 Организационные и культурные изменения
- •6. РУКОВОДСТВО В ОБЛАСТИ БОЛЬШИХ ДАННЫХ И НАУКИ О ДАННЫХ
- •6.1 Управление каналами визуализации
- •6.2 Наука о данных и стандарты визуализации
- •6.3 Безопасность данных
- •6.4 Метаданные
- •6.5 Качество данных
- •6.6 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 15. Оценка зрелости управления данными
- •1. ВВЕДЕНИЕ
- •1.1 Бизнес-драйверы
- •1.2 Цели и принципы
- •1.3 Основные понятия и концепции
- •2. ПРОВОДИМЫЕ РАБОТЫ
- •2.1 Планирование работ по оценке
- •2.2 Проведение оценки зрелости
- •2.3 Интерпретация результатов
- •2.4 Создание целевой программы совершенствования управления данными
- •2.5 Проведение повторных оценок зрелости
- •3. ИНСТРУМЕНТЫ
- •4. МЕТОДЫ
- •4.1 Выбор рамочной структуры DMM
- •4.2 Возможность использования рамочной структуры DAMA-DMBOK
- •5. РЕКОМЕНДАЦИИ ПО ВНЕДРЕНИЮ DMMA
- •5.1 Оценка готовности / Оценка рисков
- •5.2 Организационные и культурные изменения
- •6. РУКОВОДСТВО УПРАВЛЕНИЕМ ЗРЕЛОСТЬЮ
- •6.1 Надзор за процессом DMMA
- •6.2 Метрики
- •7. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 16. Организация управления данными и ролевые ожидания
- •1. ВВЕДЕНИЕ
- •2. ВЫРАБОТКА ПОНИМАНИЯ СУЩЕСТВУЮЩЕЙ ОРГАНИЗАЦИОННОЙ СИСТЕМЫ И КУЛЬТУРНЫХ НОРМ
- •3. СТРУКТУРЫ ОРГАНИЗАЦИОННЫХ СИСТЕМ УПРАВЛЕНИЯ ДАННЫМИ
- •3.1 Децентрализованная операционная модель
- •3.2 Сетевая операционная модель
- •3.3 Централизованная операционная модель
- •3.4 Гибридная операционная модель
- •3.5 Федеративная операционная модель
- •3.6 Выбор оптимальной для организации операционной модели
- •3.7 Альтернативные варианты организационной системы и соображения проектирования
- •4. КРИТИЧЕСКИЕ ФАКТОРЫ УСПЕХА
- •4.1 Куратор в высшем руководстве
- •4.3 Упреждающее планирование изменений
- •4.4 Согласование позиций руководства
- •4.5 Прямая и обратная связь
- •4.6 Обеспечение заинтересованности и участия
- •4.7 Ориентировка, инструктаж и подготовка
- •4.8 Мониторинг восприятия и освоения новых методов
- •4.9 Соблюдение руководящих принципов
- •4.10 Эволюции — да! Революции — нет!
- •5. ПОСТРОЕНИЕ ОРГАНИЗАЦИОННОЙ СИСТЕМЫ УПРАВЛЕНИЯ ДАННЫМИ
- •5.1 Выявление действующих участников управления данными
- •5.2 Определение состава участников Координационного комитета
- •5.3 Выявление и анализ заинтересованных сторон
- •5.4 Привлечение заинтересованных сторон
- •6. ВЗАИМОДЕЙСТВИЕ DMO С ДРУГИМИ ОРГАНАМИ УПРАВЛЕНИЯ
- •6.1 Директор по данным
- •6.2 Руководство данными
- •6.3 Управление качеством данных
- •6.4 Корпоративная архитектура
- •6.5 Особенности управления данными, присущие глобальным организациям
- •7. РОЛИ В ОБЛАСТИ УПРАВЛЕНИЯ ДАННЫМИ
- •7.1 Организационные роли
- •7.2 Индивидуальные роли
- •8. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Глава 17. Управление данными и управление организационными изменениями
- •1. ВВЕДЕНИЕ
- •2. ЭМПИРИЧЕСКИЕ ЗАКОНЫ ПРАКТИКИ ИЗМЕНЕНИЙ
- •3. УПРАВЛЯТЬ НЕ ИЗМЕНЕНИЯМИ, А ПРОЦЕССОМ ПЕРЕХОДА
- •4. ВОСЕМЬ ОШИБОК УПРАВЛЕНИЯ ИЗМЕНЕНИЯМИ ПО КОТТЕРУ
- •4.1 Ошибка № 1: самонадеянность
- •4.2 Ошибка № 2: неспособность создать достаточно мощную поддержку сверху
- •4.6 Ошибка № 6: пренебрежение созиданием краткосрочных побед
- •4.7 Ошибка № 7: преждевременное объявление о победе
- •4.8 Ошибка № 8: Пренебрежение закреплением перемен в корпоративной культуре
- •5. ВОСЕМЬ СТАДИЙ ПРОВЕДЕНИЯ КРУПНОЙ РЕФОРМЫ ПО КОТТЕРУ
- •5.1 Выработка всеобщего понимания ситуации и безотлагательности перемен
- •5.2 Руководящая коалиция
- •6. ФОРМУЛА ИЗМЕНЕНИЙ
- •7. ДИФФУЗИЯ ИННОВАЦИЙ И ПОДДЕРЖАНИЕ ИЗМЕНЕНИЙ
- •7.1 Главные трудности на пути распространения инноваций
- •7.2 Ключевые элементы диффузии инноваций
- •7.3 Пять стадий восприятия инновации
- •7.4 Субъективные причины неприятия или отторжения инноваций и изменений
- •8. ОБЕСПЕЧЕНИЕ ПОДДЕРЖКИ ИЗМЕНЕНИЙ
- •8.1 Острота чувства неотложности или неудовлетворенности
- •8.3 Состав руководящей коалиции
- •8.4 Объективность и осязаемость улучшений
- •9. ДОНЕСЕНИЕ ЦЕННОСТИ УПРАВЛЕНИЯ ДАННЫМИ ДО ВСЕОБЩЕГО ПОНИМАНИЯ
- •9.1 Базовые принципы коммуникаций
- •9.2 Оценка информированности и подготовка целевой аудитории
- •9.3 Задействование элементов неформального общения
- •9.4 План коммуникаций
- •9.5 Продолжение осуществления коммуникаций по завершении внедрения программы управления данными
- •10. ЦИТИРУЕМАЯ И РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Выражение признательности
- •Предметный указатель
- •Именной указатель
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
обеспечивающие вводными данными системы управления решениями, средства ретроспектив ного анализа данных или приборные панели мониторинга и управления рабочими показателями.
2.7.1 Представление результатов анализа
Доходчивое отображение найденных в данных закономерностей (как правило, средствами визуа лизации) — последний шаг научного исследования данных. Находки должны представляться в связке с действенными рекомендациями, чтобы организация могла оценить отдачу от вложе ний в исследования методами науки о данных.
Для изучения выявленных новых связей полезно использовать, опять же, средства визуали зации данных. По мере использования модели могут всплывать изменения в данных и связях между ними, тем самым раскрывая всё новую информацию о данных.
2.7.2 Итерации с добавлением источников
Презентация результатов и выводов часто приводит к инициированию нового цикла исследо ваний. Наука о данных по определению строится по итерационному принципу; соответственно, и разработка больших данных — процесс итерационный: уроки, извлеченные из анализа преды дущего набора данных, часто ставят вопрос о необходимости привлечения альтернативных или дополнительных источников с целью окончательного подтверждения предварительных заключе ний или доработки и углубления существующей модели или моделей.
3. ИНСТРУМЕНТЫ
Технологический прогресс (достаточно вспомнить закон Мура1 плюс экспоненциальный рост числа персональных мобильных устройств и техники с веб-интерфейсами), по сути, и привел к созданию индустрии больших данных и науки о данных. Для понимания того, что в этой отрасли происходит, нужно разобраться прежде всего с движущими факторами и направлениями ее развития. В настоящем разделе рассказано об основных инструментах и технологиях, сделавших возможным изучение больших данных.
Массово-параллельная обработка (Massive Parallel Processing, MPP2) стала одним из первых инструментов обработки больших данных, позволившим за кратчайшее время обрабатывать и анализировать колоссальные объемы информации. Сегодня мы только тем и занимаемся, что ищем иголки в стогах сена, и в будущем эта тенденция будет только усиливаться.
1 Закон Мура — сформулированное основателем Intel Гордоном Муром (англ. Gordon Earle Moore, р. 1929) эмпириче ское наблюдение об удвоении числа транзисторов в интегральных микросхемах процессоров и, как следствие, скоро сти обработки данных и производительности ЭВМ каждые два года. Эта закономерность вполне соблюдалась с момента ее формулировки в 1965 году и вплоть до середины 2000-х годов, когда был достигнут, по сути, физический предел возможностей повышения производительности одноядерных процессоров. — Примеч. пер.
2 сокр. от англ. Massively Parallel Processing. — Примеч. пер.
Большие данные и наука о данных |
651 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
Другие достижения, изменившие наши взгляды на данные и информацию, включают:
продвинутые аналитические средства, встроенные в базы данных;
аналитику неструктурированных данных (Hadoop, MapReduce и т. п.);
интеграцию результатов анализа в операционные системы;
универсальные средства визуализации данных в различных средах и на различных устрой
ствах;
семантическое связывание структурированной и неструктурированной информации;
новые источники данных, ставшие доступными благодаря интернету вещей;
продвинутую функциональность визуализации;
новые методы и технологии обогащения данных;
технологии и наборы инструментов для совместной работы.
Существующие архитектуры централизованных хранилищ данных с витринами и локальными хранилищами операционных данных (ODS) также всё чаще дополняются функциональностью, позволяющей нести дополнительную рабочую нагрузку по обработке больших данных. Техноло гии без реляционных связей (NoSQL) позволяют запрашивать, обрабатывать и сохранять слабо структурированные и вовсе неструктурированные данные.
Раньше доступ к неструктурированным данным обычно происходил посредством обработки пакетных запросов по расписанию, что снижало оперативность согласования данных в локаль ных хранилищах с источниками. Теперь некоторые СУБД класса NoSQL включают технологии, позволяющие обходить эту проблему и существенно ускорять получение данных из источников. Масштабируемые распределенные базы данных так и вовсе обеспечивают автоматическое сег ментирование (распределение потоков данных по серверам) с целью параллельного исполнения обработки запросов. Конечно, как и в любой другой базе данных, определение структуры данных и сопоставление структурированным элементам неструктурированных данных из анализируе мого набора остается процессом, который приходится выполнять по большей части вручную.
Функциональность немедленных запросов к данным, отчетов и анализа может на вполне удов летворительном уровне реализовываться с помощью технологий обращения к большим данным в оперативной или виртуальной памяти, которые позволяют конечным пользователям конструи ровать SQL-подобные запросы к неструктурированным данным. В некоторых инструментальных средах предусмотрены еще и адаптеры SQL/NoSQL, позволяющие отправлять стандартные для реляционных моделей запросы к неструктурированным данным и получать вполне совместимые с SQL-представлениями результаты (понятно, что с ограничениями и скрытыми подвохами). Не маловажно, что такие адаптеры нередко позволяют распространять привычные средства анализа данных на неструктурированные массивы.
Предлагаемые наборы технических средств определения критериев принятия решений, ре ализации процессов и формирования пакетов предложений профессиональных услуг также способствуют упрощению и ускорению процесса выбора исходного набора инструментов. Как
652 |
Г Л А В А 14 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
и в случае оснастки, необходимой для хранилища данных / бизнес-аналитики, тут критиче ски важно учесть все доступные варианты и сравнить их плюсы и минусы: строить/создавать собственные решения? покупать/арендовать готовые продукты и услуги (в частности, SaaS)? Как отмечалось в главе 11, следует взвешенно соизмерять затраты и выгоды от использования средств, доступных в облаке, по сравнению с издержками и выигрышами от проектирования с нуля собственного или приобретения и развертывания коммерческого программного обес печения. При этом должны учитываться и затраты на обновления, продление подписки или возможные замены неподходящих приложений. Согласование всех этих вопросов с действую щими соглашениями об уровнях обслуживания (SLA) или операционной поддержки (OLA) также будет не лишним, поскольку позволит хоть как-то спрогнозировать издержки реализа ции и согласовать между собой привлекательные ставки платы за обслуживание с суммами штрафов за нарушения.
3.1 Технологии и архитектуры MPP без разделения ресурсов
Технологии баз данных с массово-параллельной обработкой (MPP) без разделения ресурсов (shared-nothing) сделались стандартом вычислительных технологий, используемых для анализа и изучения наборов больших данных. В базах данных с MPP потоки обрабатываемых данных сегментируются (логически распределяются) по множеству серверов (вычислительных узлов), каждый из которых располагает достаточным объемом выделенной памяти для локальной об работки адресованного ему потока данных. Согласование же обработки осуществляется, как правило, с помощью головного сервера хост-системы, контролирующего все процессы на за действованных в распределенной сети обработки локальных серверах. Никаких совместно ис пользуемых вычислительных ресурсов, дисковых пространств или оперативной памяти при таких архитектурных решениях не предусмотрено, отсюда и уточнение — «полностью раздель ные» вычисления.
Появление MPP-архитектуры стало логичной реакцией на неспособность традиционных вы числительных схем (с индексацией, распределенными наборами данных и т. д.) обеспечивать до статочно высокую скорость обработки запросов, обращенных к огромным массивам табличных данных. Самые мощные классические вычислительные платформы (включая суперкомпьютеры Cray и им подобные) будут часами, если не сутками, обсчитывать сложную модель, примененную
ктаблице данных, содержащей триллион строк.
Атеперь представьте себе батарею из сотен серийных серверных компьютеров, работаю щих параллельно под управлением головной хост-машины. Каждый получает запрос на об работку своей доли вычислений. Скажем, если та же таблица с триллионом строк распреде ляется для обработки между тысячей параллельно подключенных серверов, то скорость об работки запроса, обращенного к триллиону записей, повышается на три порядка, поскольку каждому из 1000 компьютеров нужно обработать «всего лишь» миллиард строк. Причем MPPархитектура хороша еще и линейной масштабируемостью, что делает ее крайне привлекатель ной для исследователей и пользователей больших данных: перестало хватать вычислительных
Большие данные и наука о данных |
653 |
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
X |
|
|
|
|
|
|||
|
- |
|
|
|
|
|
d |
|
||
|
F |
|
|
|
|
|
|
t |
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
r |
||
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
||||
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
to |
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
o |
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
C |
|
E |
|
|
|||
|
|
|
X |
|
|
|
|
|
|||
|
|
- |
|
|
|
|
|
d |
|
||
|
|
F |
|
|
|
|
|
|
t |
|
|
|
|
D |
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
r |
||
|
P |
|
|
|
|
|
NOW! |
o |
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
BUY |
|
|
|||
|
|
|
|
|
to |
|
|
|
|
|
|
|
w Click |
|
|
|
|
|
m |
||||
|
|
|
|
|
|
|
|||||
w |
|
|
|
|
|
|
|
|
|
||
|
|
w |
|
|
|
|
|
|
|
o |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
. |
|
|
|
|
|
.c |
|
||
|
|
|
p |
|
|
|
|
g |
|
|
|
|
|
|
|
df |
|
|
n |
e |
|
||
|
|
|
|
|
-x cha |
|
|
|
|
мощностей — к платформе без каких-либо архитектурных изменений пристраиваются допол нительные серверы.
Технология MPP также позволила реализовать встроенные в СУБД на уровне процессоров исполняемые функции статистического анализа (кластеризацию методом k-средних, регрессион ный анализ и т. п.). Распределение рабочей нагрузки на процессорный уровень значительно уско ряет обработку аналитических запросов и тем самым стимулирует всё новые инновационные методы изучения больших данных.
Система, обеспечивающая автоматическое распределение данных и параллельную рабочую нагрузку на все доступные (локально) серверные процессоры, — оптимальное решение для ана лиза больших данных.
SQL
MapReduce
Головные
серверы
Шина
связи
Серверы
сегментов
Внешние
источники
Рисунок 102. Колоночная архитектура1
Объемы данных продолжают стремительно расти. Компании могут реагировать на это, на ращивая вычислительные мощности по мере надобности простым добавлением новых вычис лительных узлов, поскольку архитектура MPP предельно упрощает параллельное подключение десятков, сотен или тысяч ядер, выстраивающихся в ЭВМ. При этом в полностью раздельной по ресурсам МПП-архитектуре с поддержкой линейного масштабирования каждое ядро исполь зуется с максимальным КПД, и это дополнительно повышает производительность обработки огромных массивов данных.
1 Источник: «Greenplum Database 4.0: Critical Mass Innovation», White Paper, August 2010.
654 |
Г Л А В А 14 |