Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9306

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
2.5 Mб
Скачать

70

Указание: нужно выделить это измерение, выбрать условие «последний» и значение «3 месяца от имеющихся данных».

Выбор срезов особенно важен при большом количестве значений измерения, так как позволяет загружать из ХД только интересующие пользователя значения и тем самым экономить время загрузки.

Рис. 2.27. Выбор среза из хранилища данных

Вокне мастера настройки срезов также необходимо указать тип фильтра:

Статический фильтр – каждый раз при выполнении узла данные будут импортироваться по предопределённой схеме, без участия пользователя;

Пользовательский фильтр – каждый раз при выполнении узла будет выведено диалоговое окно «Установить фильтр», в котором пользователю будет предложено задать параметры среза. Таким образом, этот флаг позволяет строить динамические отчеты, в которых при каждом просмотре будет отображаться только информация из нужных срезов, а фильтрация осуществляться на стороне сервера.

71

Для сброса всех фильтров доступна команда Очистить фильтры из контекстного меню, вызываемого правой кнопкой мыши.

5.В завершении операции импорта из ХД для результирующего набора данных определите способ его отображения (в виде таблицы).

Задание 2. Импортируйте информацию о загрязнителях водных объектов

из ХД «ВОДА», включая атрибуты водных объектов. Установите

следующие срезы:

«последний месяц от имеющихся данных»;

«кроме последнего периода 1 месяц от имеющихся данных»;

по какому-либо водному объекту (например, по озеру Спасское);

значения загрязнителя цинк по реке Беленькая по последний год от имеющихся данных;

значения всех загрязнителей по реке Беленькая за исключением загрязнителя «фенолы» за последние 10 недель от имеющихся данных;

скопируйте последний узел и настройте в нем динамический

фильтр на наименование объекта.

Указание: на 5 шаге импорта из ХД при определении среза выберите тип пользовательский фильтр и установите условие на

Объект.Наименование.

Чтобы увидеть, как работает пользовательский фильтр при импорте данных из хранилища, нужно сделать этот узел в сценарии

неактивным (снять флажок в контекстном меню, вызываемом правой кнопкой мыши) и перезапустить его еще раз или перечитать данные.

72

Рис. 2.28. Контекстное меню на вкладке Сценарии

Задание 3.

Повторите самостоятельно все действия, описанные в практических работах «Создание ХД в Deductor», «Загрузка информации в ХД», «Извлечение информации из ХД»:

1) Создайте пустое хранилище данных «РЕГИОН», спроектируйте его структуру и загрузите в него информацию из следующих текстовых файлов:

районы.txt и показатели.txt.

Результатом работы должен стать файл хранилища с данными

регион.gdb и сценарий загрузки load.ded.

В данном случае «снежинка» будет иметь следующий вид (рис.2.29).

Район

Промышленность

 

 

 

 

 

Дата

 

 

Сх

 

 

 

 

 

 

 

 

 

Инвестиции

 

 

 

 

 

 

 

 

Безработица

 

 

Код_района

 

Название

 

 

 

Зарплата

 

 

 

 

 

 

 

 

Доход

 

 

 

 

 

Расход

 

 

 

 

 

 

 

 

 

 

 

Процесс

 

Факты

 

Измерения

 

Атрибут

 

 

 

 

 

 

 

Рис.2.29. Проектирование структуры хранилища данных

73

Рис.2.30. Метаданные хранилища «РЕГИОН»

Рис.2.31. Сценарий загрузки данных в ХД «РЕГИОН»

2) Импортируйте информацию об экономических показателях из ХД. Установите статический фильтр на измерение Дата и пользовательский

фильтр на Название региона.

74

2.9.Вопросы для самопроверки

1.Какая схема реляционного ХД используется в Deductor Warehouse?

2.Каковы объекты хранилища Deductor Warehouse?

3.Какие типы данных могут быть у объектов хранилища Deductor Warehouse?

4.Чем отличается атрибут процесса от измерения?

5.Как должна выглядеть структура таблицы-справочника, если имеются иерархии?

6.Что такое Редактор ХД в Deductor Studio?

7.Как создать новое пустое ХД?

8.Как сделать иерархию измерений?

9.Что включает в себя очистка данных?

10.Что включает в себя трансформация данных?

11.Что такое парциальная обработка данных?

12.Что понимают под выявлением дубликатов и противоречий данных?

13.Какие срезы для измерений типа дата/время предусмотрены в Deductor Warehouse?

14.Что такое статический и пользовательский фильтр?

15.Кому пользовательский фильтр, вероятнее всего, чаще понадобится – аналитику Deductor Studio или пользователю Deductor Viewer?

16.Пусть при данной структуре ХД предполагается, что уникальность точки в пространстве определяется совокупностью измерений Дата + Код региона. Что можно предпринять в случае, когда уникальность точки в многомерном пространстве этими измерениями не обеспечивается, других измерений нет, и при этом в хранилище нужно сохранить исходную детализацию данных? Как это сделать в Deductor Studio?

75

3. Визуализация и аналитическая отчетность 3.1. Цели и методы визуализации данных

Одной из важнейших составляющих аналитических технологий является визуализация – представление данных в виде, который обеспечивает наиболее эффективную работу пользователя. Способ визуализации должен максимально полно отражать поведение данных, содержащуюся в них информацию, тенденции, закономерности и т. д. Цели и задачи визуализации на разных этапах аналитического процесса иллюстрируются на рис. 3.1.

Рис. 3.1. Цели и задачи визуализации данных В настоящее время в аналитических технологиях используются

несколько десятков методов визуализации и их разновидностей. Выбор используемого метода определяется особенностями и характером данных, спецификой решаемой задачи и, наконец, предпочтениями пользователя.

Основные методы визуализации:

Табличные и графические. Как правило, таблицы применяются в том случае, когда пользователю необходимо работать с отдельными значениями данных, вносить изменения, контролировать форматы данных, пропуски, противоречия и т. д. Графические методы позволяют лучше увидеть общий характер данных – закономерности, тенденции, периодические изменения. Кроме того, графические методы более

76

эффективно сопоставляют данные: достаточно построить графики двух исследуемых процессов на одной системе координат, чтобы оценить степень их сходства и различия.

Одномерные и многомерные. Одномерные визуализаторы представляют информацию только об одном измерении данных, в то время как многомерные – о двух или более. Если график показывает зависимость инфляции от даты, то он будет одномерным, поскольку на нем будет отображаться только одно измерение – «Дата», значениям которого будет соответствовать факт «Значение показателя инфляция». Если же информация об инфляции приводится по датам и регионам, то появляется еще одно измерение – «Название региона», и тогда для корректного представления данных используется многомерный визуализатор. Популярные многомерные визуализаторы: OLAP-куб, многомерная диаграмма, карта Кохонена и др.

Общего назначения и специализированные. Методы визуализации общего назначения не связаны с каким-либо определенным видом задач анализа или типом данных и могут использоваться на любом этапе аналитического процесса. Это своего рода типовые визуализаторы: графики и диаграммы, графы, гистограммы и их разновидности, статистические характеристики и др. В то же время существует ряд задач, специфика которых требует применения специализированных визуализаторов. Например, карты Кохонена специально разработаны для визуализации результатов кластеризации, матрицы классификации используются в основном для проверки состоятельности классификационных моделей, а с помощью диаграмм рассеяния оценивается корректность работы регрессионных моделей.

При изучении различных видов визуализации удобнее рассматривать их

не по отдельности, а в контексте задач, для которых они наиболее часто

применяются.

77

Можно выделить следующие группы методов визуализации:

1.Визуализаторы общего назначения – применяются для решения типовых задач анализа данных – визуальной оценки качества и характера данных, распределения значений признаков, статистических характеристик и т.д.

2.OLAP-анализ – комплекс методов для визуализации многомерных данных. Популярные многомерные визуализаторы: OLAP-куб, кроссдиаграмма, карты Кохонена и др.

3.Визуализаторы для оценки качества аналитических моделей позволяют оценивать различные характеристики, такие как точность, эффективность, достоверность результатов, интерпретируемость, устойчивость, корректность (регрессионных, классификационных, прогностических и т.д.) моделей, построенных в процессе анализа данных.

4.Визуализаторы для интерпретации результатов анализа служат для представления конечных результатов анализа в виде, наиболее удобном с точки зрения их интерпретации пользователем

Каждый из алгоритмов Data Mining использует определенный подход к визуализации:

1.Для деревьев решений это визуализатор дерева решений, список правил, таблица сопряженности.

2.Для нейронных сетей в зависимости от инструмента это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения.

3.Для карт Кохонена: карты входов, выходов, специфические карты.

4.Для линейной регрессии в качестве визуализатора выступает линия регрессии.

5.Для кластеризации: дендрограммы, диаграммы рассеивания. Диаграмма рассеяния представляет собой график, по одной оси которого

откладываются целевые значения выходной переменной (т.е. которые заданы в

78

качестве эталона обучения), а по другой – реальные значения, полученные на выходе. Смысл диаграммы рассеяния состоит в следующем: если все или хотя бы основная масса точек, представляющих реальные выходные значения модели, сосредоточены вблизи линии идеальных значений, то модель работает хорошо.

Таблица сопряженности позволяет наиболее наглядно оценить результаты классификации, полученные с помощью той или иной модели. Она показывает результаты сравнения категориальных значений выходного поля исходной (обучающей) выборки и категориальных значений выходного поля, рассчитанных с помощью модели.

Все эти способы визуального представления или отображения данных могут выполнять одну из функций:

являются иллюстрацией построения модели (например, представление структуры (графа) нейронной сети);

помогают интерпретировать полученный результат;

являются средством оценки качества построенной модели;

сочетают перечисленные выше функции.

Подсистемы визуализации данных содержатся не только в

специализированных аналитических платформах, но и практически во всех программных средствах, которые связаны с обработкой данных, – от офисных приложений до систем компьютерной математики. Однако в аналитических платформах визуализации данных уделяется особое внимание, поскольку она является одной из составляющих аналитического процесса, без которой невозможно эффективно решить поставленные задачи.

Даже если для построения качественной модели данных недостаточно, визуализация позволяет выдвигать гипотезы, делать выводы на основе экспертных оценок, разрабатывать способы повышения информативности данных.

79

3.2. Многомерный анализ данных и OLAP

OLAP (OnLine Analytical Processing, оперативная аналитическая обработка данных) является на сегодня одним из самых популярных методов анализа данных. Его основное назначение – поддержка аналитической деятельности, а также произвольных (нерегламентированных) запросов лиц, принимающих решения. На основе OLAP строятся многочисленные системы поддержки принятия решений и подготовки отчетов.

Эта технология позволяет осуществлять многомерный анализ данных. Она может применяться не только для подготовки отчетности, но и для первичной проверки гипотез об изучаемой предметной области. Такие гипотезы неизбежно возникают в процессе анализа; для выработки качественных решений они должны быть проверены на основе имеющейся информации.

Средства OLAP-системы должны обеспечить работу с данными в многомерном представлении данных – естественном на уровне ненормализованной ER-модели с полной поддержкой иерархий независимо от того, какие типы баз данных используются в качестве источников.

ВOLAP-системах предварительно подготовленная информация преобразуется в форму многомерного куба; такими данными гораздо легче манипулировать, используя необходимые для анализа срезы (рис. 3.4).

Многомерный куб можно рассматривать как систему координат, осями которой являются измерения, например, Дата, Товар, Покупатель. По осям будут откладываться значения измерений – даты, наименования товаров, названия фирм-покупателей, ФИО физических лиц и т. д.

Втакой системе каждому набору значений измерений (например, дата – товар – покупатель) будет соответствовать ячейка, в которой можно разместить числовые показатели (то есть факты), связанные с данным набором. Таким образом, между объектами бизнес-процесса и их числовыми характеристиками будет установлена однозначная связь.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]