5389
.pdfМИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение высшего образования
«Нижегородский государственный архитектурно-строительный университет»
Прокопенко Н.Ю.
МАШИННОЕ ОБУЧЕНИЕ
Учебно-методическое пособие
по подготовке к лекциям, лабораторным занятиям
(включая рекомендации по организации самостоятельной работы),
по выполнению расчетной работы
для обучающихся по дисциплине «Машинное обучение»
по направлению подготовки 09.03.04 Программная инженерия профиль Разработка программно-информационных систем
Нижний Новгород
2022
УДК 004.9
Прокопенко Н.Ю. / Машинное обучение: учебно-методическое пособие / Н.Ю. Прокопенко; Нижегородский государственный архитектурно-строительный университет – Нижний Новгород: ННГАСУ, 2022. – 17 с.– Текст: электронный.
В настоящем учебно-методическом пособии по дисциплине «Машинное обучение» даются конкретные рекомендации учащимся для освоения как основного, так и дополнительного материала дисциплины и тем самым способствующие достижению целей, обозначенных в учебной программе дисциплины. Цель учебно-методического пособия – это помощь в усвоении лекций, в подготовке к лабораторным занятиям, а также в написании расчетной работы.
Учебно-методическое пособие предназначено для обучающихся в ННГАСУ по дисциплине «Машинное обучение» по направлению подготовки 09.03.04 Программная инженерия, профиль Разработка программно-информационных систем.
© Н.Ю. Прокопенко, 2022
© ННГАСУ, 2022
2
Оглавление |
|
|
1. Общие положения .......................................................................................................................... |
4 |
|
. 1.1 Цели изучения дисциплины и результаты обучения ......................................................... |
4 |
|
. 1.2 Содержание дисциплины ..................................................................................................... |
4 |
|
. 1.3 Вспомогательная литература для изучения дисциплины ................................................. |
5 |
|
2. Методические указания по подготовке к лекциям ..................................................................... |
6 |
|
. 2.1 Общие рекомендации по работе на лекциях ...................................................................... |
6 |
|
. 2.2 Общие рекомендации при работе с конспектом лекций ................................................... |
7 |
|
. 2.3 Контрольные вопросы .......................................................................................................... |
7 |
|
3. Методические указания по подготовке к лабораторным занятиям .......................................... |
8 |
|
. 3.1 Общие рекомендации по подготовке к лабораторным занятиям ..................................... |
8 |
|
. 3.2 Примеры заданий для лабораторных занятий .................................................................... |
8 |
|
.4. Методические указания по организации самостоятельной работы....................................... |
11 |
|
. 4.1 |
Общие рекомендации для самостоятельной работы ....................................................... |
11 |
. 4.2 |
Темы для самостоятельного изучения .............................................................................. |
13 |
. 5.1 |
Общие требования к оформлению расчетной работы ..................................................... |
14 |
. 5.2 |
Примерные варианты расчетной работы .......................................................................... |
14 |
1. Общие положения
. 1.1 Цели изучения дисциплины и результаты обучения
Основной целью освоения учебной дисциплины «Машинное обучение» является достиже-
ние результатов обучения, предусмотренных установленным в ОПОП индикаторами достижения компетенций.
Целями освоения данной дисциплины являются формирование четкого представления о месте и роли современной технологии обработки данных – методах машинного обучения, изуче-
ние сложившейся в этой области терминологии, моделей и методов актуальных направлений
(нейронных сетей, моделей классификации и кластеризации), овладение современным программ-
ным инструментарием, позволяющим эффективно применять методы машинного обучения.
В процессе освоения дисциплины студент должен Знать:
основные модели Data mining (деревья решений, ассоциативные правила, кластеризация; ис-
кусственные нейронные сети), этапы, методы и инструментальные средства обработки данных.
Уметь:
самостоятельно провести необходимую работу с данными, определить тип задачи (класси-
фикация, кластеризация, прогнозирование, поиск зависимостей и т.п.), решить ее адекватно вы-
бранным методом.
Владеть:
практическими приёмами и методами реализации различных стратегий обработки данных и объяснения полученных результатов; навыками работы с аналитическими платформами Deductor
и Loginom.
Данная дисциплина позволит студентам не только систематизировать полученные теорети-
ческие знания, укрепить исследовательские навыки, но и даст возможность ориентироваться в но-
вом предметном поле информатики.
. 1.2 Содержание дисциплины
Материал дисциплины сгруппирован по следующим разделам:
1. Предмет и методы интеллектуального анализа данных.
Области применения методов машинного обучения. Методы обработки данных. Подготовка данных для анализа: выявление пропусков, дубликатов, противоречий, аномалий; восстановление пропущенных значений; редактирование аномальных значений; представление их в виде, пригод-
ном для дальнейшего анализа с помощью различных аналитических и интеллектуальных алгорит-
мов.
2. Оперативная аналитическая обработка данных OLAP.
Многомерное представление данных On-line Analytical Processing (OLAP). Визуализация данных и манипуляция с данными на основе графического изображения (диаграммы, гистограм-
мы, OLAP-кубы).
3. Data Mining: классификация и регрессия. Машинное обучение. Деревья решений.
Методы кластерного анализа (метод k-средних; дискриминантный анализ: Отнесение объек-
тов к тому или иному классу с помощью функций классификации, метода эталона, метода бли-
жайшего соседа. Деревья решений. Алгоритмы построения деревьев решений. Модифицирован-
ный алгоритм построения дерева решающих правил на основе алгоритма C4.5. Упрощение дере-
вьев решений. Визуализаторы (Правила, значимость атрибутов).
4. Data Mining: ассоциативные правила.
Ассоциативные правила. Алгоритм Apriori для поиска ассоциативных правил. Иерархиче-
ские ассоциативные правила.
5. Data Mining. Искусственные нейронные сети.
Основные понятия. Структура нейронной сети. Алгоритм обратного распространения ошиб-
ки. Процесс обучения. Параметры остановки. Многослойный персептрон. Выбор оптимальной структуры многослойной сети.
. 1.3 Вспомогательная литература для изучения дисциплины
Для освоения дисциплины обучающийся может использовать печатные и электронные из-
дания и методические материалы, имеющиеся в библиотеке ННГАСУ и/или размещённые в элек-
тронных библиотечных системах (ЭБС), предоставляющих право использования изданий на осно-
вании договорных отношений с университетом, а также иные общедоступные ресурсы сети «Ин-
тернет».
Печатные и электронные издания
1. Замятин, А. В.. Интеллектуальный анализ данных : учебное пособие. / Замятин, А. В. ; А. В. За-
мятин. – Томск : Издательский Дом Томского государственного университета, 2020. – 194 с. –
URL: URL: https://www.iprbookshop.ru/116889.html. – ISBN ISBN 978-5-94621-898-6.
2. Сараев П. В.. Методы машинного обучения : Методические указания и задания к лабораторным работам по курсу. / Сараев П. В. ; П. В. Сараев. – Липецк : Липецкий государственный техниче-
ский университет, ЭБС АСВ, 2017. – 48 с. – URL: URL: http://www.iprbookshop.ru/83183.html. –
ISBN ISBN 2227-8397.
5
3. Сопов, Е. А.. Многокритериальные нейроэволюционные системы в задачах машинного обуче-
ния и человеко-машинного взаимодействия : монография. / Сопов, Е. А., Иванов, И. А. ; Е. А. Со-
пов, И. А. Иванов. – Красноярск : Сибирский федеральный университет, 2019. – 160 с. – URL: URL: http://www.iprbookshop.ru/100054.html. – ISBN ISBN 978-5-7638-3969-2.
4. Теория и практика машинного обучения : учебное пособие. / Воронина, В. В., Михеев, А. В.,
Ярушкина, Н. Г., Святов, К. В. ; В. В. Воронина, А. В. Михеев, Н. Г. Ярушкина, К. В. Святов. –
Ульяновск : Ульяновский государственный технический университет, 2017. – 291 с. – URL: URL: http://www.iprbookshop.ru/106120.html. – ISBN ISBN 978-5-9795-1712-4.
Методические материалы по дисциплине
1. Прокопенко Наталья Юрьевна. Системы искусственного интеллекта : учеб.-метод. пособие по подгот. к лекциям, практ. занятиям (включая рекомендации по организации самостоят. работы)
для обучающихся по дисциплине "Системы искусств. интеллекта" по направлению подгот. 09.03.04 Программная инженерия, профиль 09.03.04 Разработка программно-информ. систем. /
Прокопенко Наталья Юрьевна ; Нижегор. гос. архит.-строит. ун-т. – Нижний Новгород : ННГАСУ,
2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.
2. Прокопенко Наталья Юрьевна. Анализ данных : учеб.-метод. пособие по подгот. к лекциям,
практ. занятиям (включая рекомендации по организации самостоят. работы) для обучающихся по дисциплине "Анализ данных" по направлению подгот. 09.03.04 Программная инженерия, профиль
09.03.04 Разработка программно-информ. систем. / Прокопенко Наталья Юрьевна ; Нижегор. гос.
архит.-строит. ун-т. – Нижний Новгород : ННГАСУ, 2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.
3. Прокопенко Наталья Юрьевна. Машинное обучение : учеб.-метод. пособие по подгот. к лекци-
ям, практ. занятиям (включая рекомендации по организации самостоят. работы) для обучающихся по дисциплине "Машинное обучение" по направлению подгот. 09.03.04 Программная инженерия,
профиль Разработка программно-информ. систем. / Прокопенко Наталья Юрьевна ; Нижегор. гос.
архит.-строит. ун-т. – Нижний Новгород : ННГАСУ, 2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.
2. Методические указания по подготовке к лекциям
. 2.1 Общие рекомендации по работе на лекциях
Лекция является главным звеном дидактического цикла обучения. Ее цель – формирование
основы для последующего усвоения учебного материала. В ходе лекции преподаватель в устной
6
форме, а также с помощью презентаций передает обучаемым знания по основным, фундаменталь-
ным вопросам изучаемой дисциплины.
Назначение лекции состоит в том, чтобы доходчиво изложить основные положения изуча-
емой дисциплины, ориентировать на наиболее важные вопросы учебной дисциплины и оказать помощь в овладении необходимых знаний и применения их на практике.
При подготовке к лекционным занятиям студенты должны ознакомиться с презентаций,
предлагаемой преподавателем, отметить непонятные термины и положения, подготовить вопросы с целью уточнения правильности понимания. Рекомендуется приходить на лекцию подготовлен-
ным, так как в этом случае лекция может быть проведена в интерактивном режиме, что способ-
ствует повышению эффективности лекционных занятий.
. 2.2 Общие рекомендации при работе с конспектом лекций
В ходе лекционных занятий необходимо вести конспектирование учебного материала. Кон-
спект помогает внимательно слушать, лучше запоминать в процессе осмысленного записывания,
обеспечивает наличие опорных материалов при подготовке к лабораторным занятиям, зачету, эк-
замену.
Полезно оставить в рабочих конспектах поля, на которых делать пометки из рекомендован-
ной литературы, дополняющие материал прослушанной лекции, а также подчеркивающие особую важность тех или иных теоретических положений.
В случае неясности по тем или иным вопросам необходимо задавать преподавателю уточ-
няющие вопросы. Следует ясно понимать, что отсутствие вопросов без обсуждения означает в большинстве случаев неусвоенность материала дисциплины.
. 2.3 Контрольные вопросы
1.Data Mining: классификация и регрессия. Машинное обучение.
2.Области применения методов машинного обучения
3.Способы машинного обучения: обучение с учителем и без учителя.
4.Data Mining: задача ассоциации.
5.Методы формирования тестовой и обучающей выборки.
6.Data Mining: задача кластеризации.
7.Искусственные нейронные сети. Многослойный персептрон и его обучение с помощью алгоритма обратного распространения ошибки.
8.Описание модели Карта Кохонена.
9.Алгоритмы ограниченного перебора.
7
10.Деревья решений. Алгоритм ID3.
11.Ассоциативные правила. Алгоритм a priorty.
12.Кластеризация. Алгоритм обучения сети Кохонена.
13.Описать метод k ближайших соседей.
14.Описать наивный байесовский классификатор.
15.Критерии оптимизации деревьев решений (упрощение деревьев решений).
16.Современные пакеты прикладных программ анализа, включающие методы машинного
обучения.
3.Методические указания по подготовке к лабораторным занятиям
. 3.1 Общие рекомендации по подготовке к лабораторным занятиям
В ходе подготовки к лабораторным занятиям необходимо изучать основную литературу, по-
знакомиться с дополнительной литературой. При этом необходимо учесть рекомендации препода-
вателя и требования учебной программы.
В соответствии с этими рекомендациями и подготовкой полезно дорабатывать свои конспек-
ты лекции, делая в нем соответствующие записи из литературы, рекомендованной преподавателем и предусмотренной учебной программой. Целесообразно также подготовить тезисы для возмож-
ных выступлений по всем учебным вопросам, выносимым на лабораторные занятия.
При подготовке к занятиям можно также подготовить краткие конспекты по вопросам темы.
Очень эффективным приемом является составление схем и презентаций.
Своевременное и качественное выполнение самостоятельной работы базируется на соблюде-
нии настоящих рекомендаций и изучении рекомендованной литературы.
. 3.2 Примеры заданий для лабораторных занятий Задание 1. Классификация на основе Дерева решений
Разделить все районы Нижегородского региона на различные классы по уровню дохода бюджета при помощи инструментов Квантование и Дерево решений (данные взять из файла
показатели.txt или из созданного ранее ХД Регион).
Для этого:
а) Нужно найти средние значения показателей по каждому району за весь исследуемый период;
б) Значения поля «доход бюджета» при помощи обработчика «Квантование» нужно разбить на три диапазона «низкий доход», «средний доход», «высокий доход».
в) С помощью обработчика «Дерево решений» получить правила, применяя которые можно
определить к какому их трех возможных уровней дохода будет относиться произвольный район.
8
г) Оценить качество построенной классификационной модели по таблице сопряженности и соответствующей ей диаграмме.
Задание 2. Классификация на основе Дерева решений
1) Построить классифицирующее Дерево решений для отнесения водных объектов на осно-
ве показателя ИЗВ (индекс загрязнения воды) к определенному классу вод, используя критерии,
описанные в таблице.
Таблица. Классы качества вод в зависимости от значения ИЗВ
Значение ИЗВ |
Воды |
|
до 0,2 |
Очень чистые |
|
0,2 |
– 1,0 |
Чистые |
|
|
|
1,0 |
– 2,0 |
Умеренно загрязненные |
2,0 |
– 4,0 |
Загрязненные |
4,0 |
– 6,0 |
Грязные |
6,0 |
– 10,0 |
Очень грязные |
2) Результаты классификации отобразить на диаграмме «Процентное соотношение качества вод региона». Ответить на вопрос: какой процент водных объектов Нижегородской области отно-
сится к классу Загрязненных вод.
Задание 3. Построение модели отклика получателей рассылки на активных и неактив-
ных при помощи алгоритма построения дерева решений.
Торговая компания, осуществляющая продажу товаров, располагает информацией о своих клиентах и их покупках. Компания провела рекламную рассылку 13 504 клиентам и получила от-
клик в 14,5 % случаев. Необходимо построить модели отклика и проанализировать результаты,
чтобы предложить способы минимизации издержек на новые почтовые рассылки.
Данные находятся в файлах responses1.txt (обучающее множество) и responses2.txt (тестовое множество). Они представлены таблицами со следующими полями:
Таблица 1 – Поля наборов данных «Отклики»
N |
Поле |
Описание |
Тип |
1 |
Код клиента |
Уникальный идентификатор |
целый |
2 |
Пол |
Пол клиента |
строко- |
|
|
|
вый |
3 |
Сколько лет клиенту |
Число лет с момента первой покупки. Если |
целый |
|
|
менее года, то в поле стоит 0 |
|
4 |
Кол-во позиций товаров |
Сколько уникальных товаров приобретал клиент |
целый |
5 |
Доход с клиента, тыс. ед. |
Суммарная стоимость всех заказов клиента |
вещест. |
6 |
Число покупок в тек. го- |
Сколько раз клиент делал заказ в текущем году |
целый |
|
ду |
|
|
7 |
Обращений в службу |
Сколько раз клиент обращался в службу поддержки |
целый |
|
поддержки |
|
|
8 |
Задержки платежей |
Задержки клиента фиксируются, когда длительное |
целый |
|
|
время после заказа оплата не поступает |
|
9
9 |
Дисконтная карта |
Является ли клиент участником дисконтных про- |
целый |
|
|
грамм, дающих право на скидки |
|
10 |
Возраст |
Возраст клиента |
целый |
11 |
Отклик |
Отклик клиента на последнюю рассылку. |
целый |
|
|
Значение «1» означает, что клиент совершил покуп- |
|
|
|
ку после прямой адресной рассылки. |
|
12 |
Дата отклика |
Информационное поле (пустое, если отклика не бы- |
дата |
|
|
ло) |
|
1. Построить и изучить Матрицу корреляции для оценки влияния входных переменных на выход-
ную.
2.Для получения правил классификации запустить обработчик Дерево решений.
3.Изучите визуализаторы «Дерево решения», «Правила», «Значимость атрибутов», «Матрица классификации».
4.Изменяя порог отсечения построить новые модели, выбрать модель, лучшую с точки зрения точности и интерпретации. Выписать наиболее значимые правила.
5.Построить дерево решений на сбалансированном обучающем множестве и посмотреть те же ви-
зуализаторы и сделать вывод о качестве моделей.
6. Построить интерактивное дерево решений на сбалансированной выборке, приняв во внимание
пожелания экспертов:
Первым атрибутом должен быть «Сколько лет клиент».
Вторым атрибутом – «Доход с клиента». Всех клиентов нужно разбить на 3 категории:
малоприбыльные (до 20 тыс. ед.), дающие умеренный (от 20 тыс. до 50 тыс. ед.) и высокий доход (свыше 50 тыс.ед.).
7. Изучить визуализаторы для интерактивного дерева. Выписать наиболее значимые и инте-
ресные правила.
8. Прогнать через лучшую модель тестовое множество и сделать выводы о качестве классифи-
кации.
9. Проведенное исследование оформить в виде отчета
Задание 4.
1.Загрузить данные transactions.txt
2.Настройки параметров построения ассоциативных правил:
Поддержка: 1%< S<20%, Достоверность: 40%< S<90%
3.Записать:
1)Количество популярных наборов =
2)Количество популярных наборов, удовлетворяющих поддержке >6% =
10