Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
31
Добавлен:
03.04.2020
Размер:
4.57 Mб
Скачать

30. Автоматизированный анализ новостных и рекламных текстов.

Автоматический анализ является одним из важнейших этапов в различных видах автоматической обработки текстов:

- автоматического реферирования;

- автоматического перевода;

- информационного поиска

Методы автоматизированного анализа текстов можно условно разделить на три больших группы: Классификация, кластеризация и тематическое моделирование.

Основная цель – сообщить компьютеру, из каких элементов состоит обрабатываемый текст для того, чтобы его потом можно было автоматически анализировать.

Общей проблемой является вопрос выбора количества классов, кластеров или тем. Теоретически, его можно автоматизировать, задав параметры оптимизации, но вопросом остаются как раз эти параметры, и, в частности, критерии качества работы данных алгоритмов.

- Сентимент-анализ и извлечение мнений. Анализ тональности мнений. При словарном подходе алгоритм присваивает тексту оценку тональности на основании сравнения его словарного состава с тезаурусом, слова в котором вручную отнесены к позитивным или негативным.

- Другой подход – так же, как и в сентимент-анализе – машинное обучение, для которого, впрочем, требуются тексты, не просто маркированные одной меткой, но детально размеченные.

- И третий подход предполагает ручное составление правил.

Автоматизация реферирования текстов

В настоящее время известно большое количество систем автоматического реферирования текстов. Среди отечественных это TextAnalyst, Content Analyzer, технологии АОТ, RCO, редактор Microsoft Word, МедиаЛингва Аннотатор, система Яндекс Новостей, среди зарубежных - Extractor , QDA Miner, системы Inxight Summarizer (компонент поискового механизма AltaVista), Intelligent Text Miner (IBM).

Мало систем ориентированы непосредственно на реферирование новостных текстов. Как правило, таковыми являются компоненты поисковые механизмы различных систем (Яндекс Новости, Inxight Summarizer, разработка Newblaster). Но и их задача – автоматическое аннотирование новостных кластеров (групп текстов заданной тематики), а не отдельных текстов, выбранных пользователем

Новостные агрегаторы: автоматизированные поисковики.

NewsRobot

Новостной робот – это автоматизированная система сбора и анализа новостной информации. Задача робота: собрать информацию из Интернета, провести анализ, выделить главные новости в разных категориях, и сгруппировать их по темам.

Новостной робот не создает и не изменяет информацию. Все заголовки и цитаты представлены в том виде, в котором они были получены из источников.

Новостной робот не вводит модерацию или цензуру. Выбирать самое важное из потока новостей, роботу помогает искусственная нейронная сеть. Ранжирование новостей происходит в полностью автоматическом режиме. Без непосредственного участия людей.

Проект в первую очередь носит исследовательский характер и нацелен на развитие технологий обработки естественного языка.

Автоматизация подсчета упоминаний.

Программа TV INFO предназначена для аналитической обработки данных телевизионного эфира с целью выявления в них упоминаний отдельных персон, организаций, должностных лиц и географических объектов.

TV INFO может быть полезна как людям, занимающимся мониторингом СМИ на профессиональной основе, так и простым обывателям, стремящимся «держать руку на информационном пульсе.

Отличительной особенностью базы данных TV INFO является то, что текстовые распечатки выпусков новостей и аналитических передач центральных телеканалов помещаются в базу не позднее 2,5 часов с момента выхода в эфир, обновление же самой базы данных производится автоматически каждые 30 минут.

Программа позволяет просматривать сообщения, содержащие интересующую пользователя информацию, в круглосуточном режиме. Отображается контекст упоминания выбранной персоны, организации, должностного лица или географического объекта, а также выходные данные сообщения СМИ.

Программа предназначена для некоммерческого использования и может быть бесплатно скачана с нашего сайта. TV INFO позволяет анализировать информацию, вышедшую в эфир на ведущих федеральных телеканалах в течение последних 24 часов.

Автоматизация контент-анализа.

АКАТ – это информационно-аналитическая система, включающая в себя передовые технологии обработки текста, лингвистические и математические алгоритмы, которые могут быть использования для решения широкого ряда задач. Среди которых - оценка эффективности PR- и рекламной кампаний, действий в рамках этих кампаний; отслеживание отклика на проводимые мероприятия; вычленение из анализируемого корпуса текстов фактов, событий, персон, объектов, организаций, предметов, географических понятий и их связи между собой; контекст упоминаний и прочие задачи, для решения которых применяется контент-анализ.

Сфера применения АКАТ – количественный и качественный контент-анализ корпуса текстов за любой период времени и по любым параметрам исключительно с использованием искусственного интеллекта.

Система АКАТ – это существенная экономия времени и трудовых ресурсов при проведении анализа информационного поля. С помощью АКАТ анализ 1 000 текстов (в среднем размер одного текста составляет 4 000 знаков) возможно всего за 1 час!

САТОГ – это комплекс программного обеспечения, технологий, шаблонов обработки и регламентов, автоматизированных рабочих мест операторов и аналитика.

Область применения САТОГ:

- ведение базы данных текстов обращений граждан – ввод текстов в базу данных; классификация, параметризация и разбор текстов по рубрикам; хранение текстов; формирование структурированных текстовых массивов (лент, выборок, подборок);

- подготовка статистических отчетов по обращениям граждан;

- подготовка материалов для аналитических отчетов по обращениям граждан;

- поддержка принятия решений на основании анализа текстовых массивов

Система САТОГ особенно актуальна при анализе обращений граждан системы «обратной связи» - интернет-сайты, «горячие» телефонные линии и линии поддержки; при консультционно-разъяснительной работе; при проведении «прямых линий» через каналы СМИ.