Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Воган Ли - Python для хакеров (Библиотека программиста) - 2023.pdf
Скачиваний:
5
Добавлен:
07.04.2024
Размер:
14.76 Mб
Скачать

Проект #4. Суммаризация речи с помощью gensim      97

другой?». То же и со многими приложениями Python: зачастую, когда нужно написать скрипт, вы узнаете, что это уже кто-то сделал. Один из примеров — gensim, открытая библиотека для обработки естественного языка при помощи статистического машинного обучения.

Слово gensim означает «генерация подобного» (generate similar). В этой библио­ теке используется основанный на графах алгоритм ранжирования TextRank. Создан он был на базе PageRank, разработанного Ларри Пейджем (Larry Page) и применяемого для ранжирования веб-страниц в поиске Google. В случае PageRank важность веб-сайта определяется количеством ссылок на него с других страниц. Чтобы использовать этот подход в обработке текста, алгоритмы измеряют, насколько каждое предложение похоже на другие. Предложение, имеющее наибольшее сходство, считается наиболее важным.

В текущем проекте мы задействуем gensim для обобщения напутственной речи адмирала Уильяма Макрейвена «Заправляйте свою кровать» («Make Your Bed»), с которой он выступил в Университете Техаса в Остине в 2014 году. Эта мотивирующая 20-минутная речь собрала более 10 миллионов просмотров на YouTube; позже на ее основе была издана книга, ставшая в 2017 году бестселлером New York Times.

ЗАДАЧА

Написать программу Python, использующую модуль gensim для суммаризации речи.

Установка gensim

Модуль gensim работает на всех ведущих операционных системах, но зависит от NumPy и SciPy. Если эти библиотеки у вас не установлены, вернитесь к главе 1 и выполните инструкции из раздела «Установка библиотек Python» на с. 31.

Чтобы установить gensim в Windows, используйте pip install -U gensim . Для установки из терминала используйте pip install --upgrade gensim. Для окружения conda используйте conda -c conda-forge gensim. Подробнее о gensim вы можете узнать на странице https://radimrehurek.com/gensim/.

Код для суммаризации речи «Заправляйте свою кровать»

Проработав программу dream_summary.py в проекте 3, вы познакомились с основами извлечения текста. Поскольку кое-какие детали вы уже знаете, то можете использовать gensim в качестве упрощенной альтернативы dream_summary.py. Назовите эту новую программу bed_summary.py или скачайте ее с сайта книги.

98      Глава 3. Суммаризация текста с помощью обработки естественного языка

Импорт модулей, веб-скрапинг и подготовка строки речи

В листинге 3.6 повторяется код из dream_summary.py, использованный для подготовки речи в качестве строки. Описание этого кода находится на с. 88.

Листинг 3.6. Импорт модулей и скачивание речи как строки bed_summary.py, часть 1

import requests import bs4

from nltk.tokenize import sent_tokenize

from gensim.summarization import summarize

url = 'https://jamesclear.com/great-speeches/make-your-bed-by-admiral

-william-h-mcraven' page = requests.get(url) page.raise_for_status()

soup = bs4.BeautifulSoup(page.text, 'html.parser')

p_elems = [element.text for element in soup.find_all('p')]

speech = ' '.join(p_elems)

Мы будем тестировать gensim на необработанной речи, взятой из интернета, поэтому модули для ее очистки вам не понадобятся. Модуль gensim производит все подсчеты внутренне, то есть Counter не понадобится, но потребуется gensim- функция summarize(), которая будет делать суммаризацию текста . Еще одно отличие — это адрес url .

Суммаризация речи

Листинг 3.7 завершает программу, делает суммаризацию речи и выводит результаты.

Листинг 3.7. Выполнение gensim, удаление повторяющихся строк и вывод резюме

bed_summary.py, часть 2

print("\nSummary of Make Your Bed speech:") summary = summarize(speech, word_count=225) sentences = sent_tokenize(summary)

sents = set(sentences) print(' '.join(sents))

Начинаем с вывода заголовка резюме. Далее вызываем функцию summarize(), которая делает суммаризацию речи в 225 слов. Из этого количества слов получится примерно 15 предложений с учетом того, что средняя длина предложения составит 15 слов. Помимо подсчета слов можно передать в summarize()

Проект #4. Суммаризация речи с помощью gensim      99

отношение, например ratio=0.01. В этом случае длина обобщения составит 1 % от длины документа.

В идеале можно сделать суммаризацию речи и вывести результат за один шаг.

print(summarize(speech, word_count=225))

К сожалению, иногда gensim повторяет предложения в резюме, что мы наблюдаем в следующем примере:

Summary of Make Your Bed speech:

Basic SEAL training is six months of long torturous runs in the soft sand, midnight swims in the cold water off San Diego, obstacle courses, unending calisthenics, days without sleep and always being cold, wet and miserable. Basic SEAL training is six months of long torturous runs in the soft sand, midnight swims in the cold water off San Diego, obstacle courses, unending calisthenics, days without sleep and always being cold, wet and miserable.

--snip--

Чтобы избежать повторов текста, сначала нужно разделить предложения в переменной суммаризации с помощью функции NLTK sent_tokenize(). Далее создадим из этих предложений множество, в котором будут удалены повторы. В завершение выведем результат.

Поскольку множества не упорядочены, то при повторном выполнении программы последовательность предложений может изменяться.

Summary of Make Your Bed speech:

If you can't do the little things right, you will never do the big things right.And, if by chance you have a miserable day, you will come home to a bed that is made — that you made — and a made bed gives you encouragement that tomorrow will be better.If you want to change the world, start off by making your bed.During SEAL training the students are broken down into boat crews. It's just the way life is sometimes.If you want to change the

world get over being a sugar cookie and keep moving forward.Every day during training you were challenged with multiple physical events — long runs, long swims, obstacle courses, hours of calisthenics — something designed to test your mettle. Basic SEAL training is six months of long torturous runs in the soft sand, midnight swims in the cold water off San Diego, obstacle courses, unending calisthenics, days without sleep and always being cold, wet and miserable.

>>>

======= RESTART: C:\Python372\sequel\wordcloud\bed_summary.py =======

Summary of Make Your Bed speech:

It's just the way life is sometimes.If you want to change the world get over being a sugar cookie and keep moving forward.Every day during training you were challenged with multiple physical events — long runs, long swims, obstacle courses, hours of calisthenics — something designed to test your mettle. If you can't do the little things right, you will never do the big