Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
40_алгоритмов_Python.pdf
Скачиваний:
13
Добавлен:
07.04.2024
Размер:
13.02 Mб
Скачать

184

Глава 6. Алгоритмы машинного обучения без учителя

ПРАКТИЧЕСКИЙ ПРИМЕР — ОБЪЕДИНЕНИЕ ПОХОЖИХ ТВИТОВ В КЛАСТЕРЫ

Алгоритмы машинного обучения без учителя могут применяться в режиме реального времени для объединения похожих твитов. Для этого выполняются следующие операции:

zz Шаг 1. Тематическое моделирование. Выделить различные темы в заданном наборе твитов.

zzШаг 2. Кластеризация. Связать каждый твит с одной из обнаруженных тем.

Такое использование обучения без учителя показано на следующей схеме (рис. 6.21).

 

 

#Ottawa

 

 

#BigData

 

 

#Toursim

 

 

 

 

#Basketball

 

 

#Accident

Рис. 6.21

Обратите внимание, что в этом примере требуется обработка входных данных в режиме реального времени.

Рассмотрим обозначенные шаги один за другим.

Тематическое моделирование

Тематическое моделирование — это процесс обнаружения концепций в наборе документов, которые могут быть использованы для их дифференциации. В слу­ чае с твитами речь идет о поиске наиболее подходящих тем, на которые можно разделить набор твитов. Латентное размещение Дирихле (latent Dirichlet allocation) — популярный алгоритм, который используется для выделения тем. Поскольку каждый твит представляет собой короткий текст из 144 символов, обычно посвященный определенной теме, для наших нужд мы можем написать более простой алгоритм. Алгоритм состоит из следующих операций.