Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шолле Ф. - Глубокое обучение на Python (Библиотека программиста) - 2023.pdf
Скачиваний:
6
Добавлен:
07.04.2024
Размер:
11.34 Mб
Скачать

11Глубокое обучение для текста

В этой главе

33 Подготовка текстовых данных для приложений машинного обучения.

33 Методики «мешок слов» и другие для обработки текста и последовательностей.

33 Архитектура Transformer.

33 Обучение типа «последовательность в последовательность».

11.1. ОБРАБОТКА ЕСТЕСТВЕННЫХ ЯЗЫКОВ

В.информатике.языки.человеческого.общения,.такие.как.английский.или.китай- ский,.называются.естественными.языками,.чтобы.отличить.их.от.машинных.—. например,.ассемблера,.LISP.или.XML..Все.машинные.языки.были.созданы искусственно:.у.истоков.каждого.стоял.человек.—.инженер,.определивший.на- бор.формальных.правил,.устанавливающих,.какие.утверждения.можно.делать. и.что.они.означают..Правила.были.первоосновой.—.соответственно,.начать. использовать.язык.можно.было.только.после.того,.как.набор.правил.был.окончательно.сформулирован..С.человеческим.языком.все.иначе:.сначала.в.обиходе. появился.язык,.и.лишь.потом.стали.формироваться.правила,.его.описывающие..

Естественные.языки.формировались.эволюционно,.как.и.биологические.орга- низмы,.—.именно.это.делает.их.естественными..Их.правила.и.грамматика.кри- сталлизовались.постфактум.и,.несмотря.на.свою.формальность,.сегодня.часто.

11.1. Обработка естественных языков    385

игнорируются.или.нарушаются.пользователями..В.результате.машинные.языки. хорошо.структурированы,.имеют.строгие.и.точные.синтаксические.правила. и.определяют.понятия.из.фиксированного.словаря;.естественные.же.языки.запутанны,.неоднозначны,.хаотичны.и.постоянно.меняются.

Создание.алгоритмов,.способных.понимать.естественный.язык,.—.сложная. задача..Язык.и,.в .частности,.текст .лежат.в.основе.нашего.общения .и.культурного.производства..Информационное.наполнение.интернета.по.большей. части.текстовое..Язык.—.наше.средство.хранения.знаний..Мы.даже.мыслим. на.определенном.языке..Однако.машинам.способность.понимать.естествен- ный.язык.долгое.время.была.не.под.силу..Когда-то.многие.наивно.полагали,. что.можно.просто.записать.«набор.правил.естественного.языка».подобным. образом,.как.записан.набор.правил.LISP..Поэтому.ранние.попытки.создания. систем.обработки.естественного.языка.(Natural.Language.Processing,.NLP). предпринимались.с.позиции.«прикладной.лингвистики»..Инженеры.и.лингвисты .вручную .создавали .комплексные .наборы .правил .для .реализации .ба- зового.машинного.перевода.или.простых.чат-ботов.—.например,.знаменитая. программа.ELIZA,.написанная.в.1960-х.годах,.для.поддержания.простейшей. беседы .использовала .прием .сопоставления .с .образцом. .Но .естественный. язык .— .сложная .штука: .он .с .большим .трудом .поддается .формализации..По- сле.нескольких.десятилетий.усилий.возможности.этих.систем.так.и.остались. на .низком .уровне.

Собственноручное .создание .правил .оставалось .доминирующим .подходом. вплоть.до.1990-х.годов..Но.начиная.с.конца.1980-х.появление.более.быстрых. компьютеров .и .доступность .больших .объемов .данных .сделали .возможной. более .удачную .альтернативу..Поймав .себя .на .попытке .построить .систему,. организованную.в.виде.огромной.груды.специальных.правил,.вы,.как.умный. инженер,.вероятно,.зададите.такие.вопросы:.«Можно.ли.автоматизировать. процесс .поиска .этих .правил, .используя .корпус .данных? .Можно .ли .искать. правила.в.некотором.их.пространстве,.вместо.того.чтобы.придумывать.их?». И.вот.так.мы.переходим.к.машинному.обучению..Подходы.к.обработке.естественного.языка.на.основе.машинного.обучения.начали.появляться.в.конце. 1980-х.годов..Самые.ранние.из.них.опирались.на.деревья.решений.—.их.целью. было.буквально.автоматизировать.разработку.правил.вида.«если/то/иначе».по. аналогии.с.предыдущими.системами..Затем,.начиная.с.логистической.регрессии,.стали.набирать.обороты.статистические.подходы..Со.временем.верх.взяли. модели.с.обучаемыми.параметрами.—.и.лингвистика.стала.рассматриваться. больше.как.помеха,.чем.как.полезный.инструмент..Фредерик.Елинек,.один.из. первых.исследователей.в.области.распознавания.речи,.в.1990-х.годах.пошутил:. «Каждый.раз,.когда.я.увольняю.лингвиста,.качество.модели.распознавания. речи.повышается».

Именно.в.этом.суть.современной.обработки.естественного.языка..Использование.машинного.обучения.и.больших.наборов.данных.дает.компьютерам.

386    Глава 11. Глубокое обучение для текста

возможность.не.понимать.язык,.что.является.более.высокой.целью,.а.прини- мать.фрагмент.данных.на.естественном.языке.и.возвращать.что-то.полезное..

Например,.определять:

. тему.текста.(задача.классификации.текста);

. наличие.в.тексте.оскорбительных.слов.(фильтрация.содержимого);

. эмоциональную.окраску.текста.(анализ.эмоциональной.окраски);

. следующее.слово.в.незаконченном.предложении.(моделирование.языка);

. то.же.самое.выражение.на.немецком.языке.(перевод);

. формулировку.основной.идеи.в.одном.абзаце.(обобщение).и.т..д.

Само.собой,.во.время.изучения.главы.держите.в.памяти.то,.что.обучаемые. нами.модели.не.будут.обладать.человеческим.пониманием.языка.—.они.будут. искать.статистические.закономерности.во.входных.данных,.чего.вполне.достаточно,.чтобы.хорошо.справиться.со.многими.простыми.задачами..По.сути,. как.компьютерное.зрение.распознает.образы,.применяемые.к.пикселям,.так. и.обработка.естественного.языка.—.это.распознавание.образов,.применяемое. к.словам,.предложениям.и.абзацам.

Инструменты.обработки.естественного.языка.(деревья.решений,.логистическая. регрессия).медленно.развивались.с.1990-х.до.начала.2010-х.годов..Основные.ис- следования.были.сосредоточены.на.проектировании.признаков..Когда.я.выиграл. свое.первое.состязание.по.обработке.естественного.языка.на.Kaggle.в.2013.году,. моя.модель,.как.вы.наверняка.догадались,.была.основана.на.деревьях.решений. и.логистической.регрессии..Однако.примерно.в.2014–2015.годах.ситуация.начала. меняться..Несколько.исследователей.стали.изучать.возможность.применения. для.обработки.естественного.языка.рекуррентных.нейронных.сетей,.в.частности. не.замеченного.до.того.времени.LSTM.—.алгоритма.обработки.последователь- ностей,.появившегося.в.конце.1990-х.годов.

В.начале.2015.года.компания.Keras.представила.первую.простую.реализацию. LSTM.с.открытым.исходным.кодом.—.как.раз.в.начале.новой.волны.интереса. к.рекуррентным.нейронным.сетям.(до.этого.существовал.только.«исследовательский.код»,.который.невозможно.было.использовать.повторно)..С.2015.по.2017.год. рекуррентные.нейронные.сети.заняли.доминирующие.позиции.в.бурно.развивающейся.области.обработки.естественного.языка..Двунаправленные.модели. LSTM,.в.частности,.задали.современный.уровень.во.многих.важных.задачах,.от. обобщения.до.ответов.на.вопросы.и.машинного.перевода.

Наконец,.примерно.в.2017–2018.годах.на.смену.рекуррентным.сетям.пришла. новая.архитектура.Transformer,.с.которой.вы.познакомитесь.во.второй.половине. этой.главы..Она.позволила.за.короткий.период.времени.добиться.значительного. прогресса.в.рассматриваемых.вопросах,.и.в.настоящее.время.большинство.систем. обработки.естественного.языка.основаны.на.ней.