ВВЕДЕНИЕ 3 1 ТЕОРЕТИЧЕСКИЕ ОСНОВЫ АНАЛИЗА ТЕКСТОВ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ 6 1.1 Основные теоретические понятия обработки естественных языков (NLP) 6 1.2 Суммаризация текстов: понятие, виды 9 1.3 Алгоритмы суммаризации текстов 11 2 ОПИСАНИЕ ДАННЫХ И ИХ СВОЙСТВА 16 2.1 Загрузка первичных данных 16 2.2 Краткая характеристика датасета 17 3 РАЗРАБОТКА АЛГОРИТМА СУММАРИЗАЦИИ КОРОТКИХ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ 23 3.1 Применение алгоритмов машинного обучения для анализа текстовых данных и получения суммаризации по ним 23 3.2 Проведение экспериментов на приведенных алгоритмах машинного обучения анализа текстовых данных 28 3.3 Проверка качества полученных моделей машинного обучения 29 ЗАКЛЮЧЕНИЕ 35 СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 37

Абстрактивная суммаризация коротких текстов на русском языке

дипломная работа
Программирование
40 страниц
90% уникальность
2023 год
36 просмотров
Черномаз А.
Эксперт по предмету «Программирование»
Узнать стоимость консультации
Это бесплатно и займет 1 минуту
Оглавление
Введение
Заключение
Список литературы
ВВЕДЕНИЕ 3 1 ТЕОРЕТИЧЕСКИЕ ОСНОВЫ АНАЛИЗА ТЕКСТОВ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ 6 1.1 Основные теоретические понятия обработки естественных языков (NLP) 6 1.2 Суммаризация текстов: понятие, виды 9 1.3 Алгоритмы суммаризации текстов 11 2 ОПИСАНИЕ ДАННЫХ И ИХ СВОЙСТВА 16 2.1 Загрузка первичных данных 16 2.2 Краткая характеристика датасета 17 3 РАЗРАБОТКА АЛГОРИТМА СУММАРИЗАЦИИ КОРОТКИХ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ 23 3.1 Применение алгоритмов машинного обучения для анализа текстовых данных и получения суммаризации по ним 23 3.2 Проведение экспериментов на приведенных алгоритмах машинного обучения анализа текстовых данных 28 3.3 Проверка качества полученных моделей машинного обучения 29 ЗАКЛЮЧЕНИЕ 35 СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 37
Читать дальше
Актуальность. За последние годы в области компьютерной лингвистики было совершено множество прорывов. Методы обработки естественного языка все глубже проникают в нашу жизнь и помогают сделать ее удобнее и проще. В список задач, решаемых компьютерной лингвистикой, входят: автоматическое извлечение фактов из текста, автореферирование, создание вопросно-ответных систем, машинный перевод, классификация документов, генерация текста и многое другое. Еще одним немаловажным направлением компьютерной лингвистики является автоматическое упрощение текста. Данная задача нацелена на преобразование текста в более доступную форму, которая легче читается и понимается, а также сохраняет основной смысл и содержание оригинального текста. Интерес и необходимость в этой области обусловлены резко увеличившимся объемом неструктурированных данных в связи с продолжающимся развитием Интернета. Симплификация успешно используется в качестве этапа предварительной обработки текста для повышения производительности различных задач естественной обработки языка, таких как синтаксический анализ, обобщение, маркировка семантических ролей и машинный перевод.


Ищете выполнение чертежей на заказ во Владивостоке ? Обратитесь в Work5.


Более того результаты использования этого метода оказываются наиболее ценными для повышения легкости восприятия в процессе чтения у детей, людей с расстройствами речи, такими как афазия и дислексия, людей с аутизмом, а также для изучающих иностранные языки и людей с низким уровнем грамотности. Изначально, системы, упрощающие текст, основывались на вручную написанных правилах с использованием словарей синонимов и парафразов для внесения синтаксических и лексических изменений в предложения. Однако упрощение текста стало наиболее популярным с появлением одноязычного машинного перевода, когда система учится переводить данное ей сложное предложение в простую форму. Исследователи стали применять методы статистического машинного перевода, основанного на фразах или синтаксических конструкциях нередко в комбинации с вручную созданными правилами или признаками. Начиная с недавнего времени начали появляться системы нейронного машинного перевода, которые сразу же показали перспективные результаты и сейчас успешно применяются в сочетании со статистическими подходами или в виде только нейронных моделей. Упрощение текста в настоящее время представляет собой генерацию нового осмысленного текста благодаря рекуррентным нейронным сетям (Recurrent Neural Networks или RNNs), сетям с долговременной и кратковременной памятью (Long Short-Term Memory или LSTM) и сверточным нейронным сетям (Convolutional Neural Networks или CNNs), позволяющие использовать sequence-to-sequence моделирование. Итак, суммаризацию можно определить, как автоматическое создание краткого содержания (заголовка, резюме, аннотации) исходного текста. Существует 2 существенно отличающихся подхода к этой задаче: экстрактивный и абстрактивный. В рамках текущего исследования будет рассмотрен подход абстрактивной суммаризации. Цель исследования – построить и оценить алгоритм абстрактивной суммаризации seq2seq. Задачи исследования: - Обобщить теоретические основы суммаризации текстов; - Провести анализ выбранных данных; - Реализовать эксперимент с построением алгоритма seq2seq. Объектом исследования выступают данные из новостных источников, по которым проводится суммаризация. Предмет исследования – абстрактивный метод суммаризации текстов – seq2seq. Методы исследования: анализ, синтез, машинное обучение, нейронные сети. Реализация выбранного в ходе исследования метода автоматического упрощения текста проводилась на языке программирования Python с использованием среды разработки JupyterNotebook. В качестве данных для обучения sequence-to-sequence моделей были использованы данные новостей Gazeta.ru за последние 10 лет. Оценка реализованных методов была проведена с использованием метрик Bleu, Rogue и Meteor. Работа состоит из введения, трех глав, заключения и списка использованных источников.

Читать дальше
Таким образом, в результате исследования было реализовано теоретическое обобщение модели и алгоритма суммаризации текстов Seq2Seq. Архитектура нейронной сети Seq2Seq. Также были реализованы на языке Python абстрактивная суммаризация коротких текстов текста с использованием модели последовательности кодирования-декодера. Для выполнения представленных в исследовании задач потребовалось: - Импорт набора данных (новости с ресурса Gazeta.ru); - Очистка и обработка данных (очищение от знаков препинания, предлогов и токенизация); - Определение максимально допустимой длины последовательности; - Выбор правдоподобных текстов и summary; - Маркировка текста; - Удаление пустого текста и сводок; Суммаризация текста — это проблема сокращения количества предложений и слов в документе без изменения его смысла. В рамках исследования была реализована модель seq2seq, данная модель относится к типу абстрактивной суммаризации. Абстрактные модели используют продвинутый NLP (т. е. встраивания слов), чтобы понять семантику текста и сгенерировать содержательное резюме. Следовательно, абстрактные методы гораздо сложнее обучить с нуля, поскольку для них требуется много параметров и данных. Построенная модель последовательности кодирования-декодирования (LSTM) генерировала приемлемые резюме из того, что было изучено в обучающих новостных текстах. Хотя по прошествии 10 эпох прогнозируемые результаты не совсем соответствуют ожидаемым результатам, статистическое качество, полученное моделью, определенно имеет значение, например, по показателю Blue, который довольно высок.. Чтобы получить более точные результаты с помощью этой модели, можно увеличить размер набора данных, более детально настроить гиперпараметры сети, попробовать увеличить его размер и увеличить количество эпох. Таким образом, суммаризация текста — это задача использования алгоритма для преобразования длинного текста в прозе в короткие, лаконичные и исчерпывающие резюме. Резюме являются всеобъемлющими и последовательными, что не меняет смысла или подтекстов первоначального текста.
Читать дальше
1. Азаренко Н. Ю. ЭКСТРАКТИВНАЯ СУММАРИЗАЦИЯ НАУЧНЫХ ТЕКСТОВ //Актуальные вопросы техники, науки, технологии. – 2022. – С. 150-152. 2. Алейникова Д. В. АННОТИРОВАНИЕ ДАННЫХ КАК ОБЪЕКТ ОБУЧЕНИЯ СТУДЕНТОВ СОЦИАЛЬНО-ГУМАНИТАРНОЙ НАПРАВЛЕННОСТИ //Вестник Московского государственного лингвистического университета. Образование и педагогические науки. – 2022. – №. 4 (845). – С. 15-19. 3. Андреева А. С. ИЗВЛЕЧЕНИЕ СОБЫТИЙ ИЗ НОВОСТНЫХ СТАТЕЙ НА РУССКОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ //Прикладная математика: современные проблемы математики, информатики и моделирования. – 2020. – С. 128-132. 4. Андреева Д., Митрофанова О. А. ЭКСПЕРИМЕНТЫ ПО КЛАСТЕРИЗАЦИИ РУССКОЯЗЫЧНЫХ НОВОСТНЫХ ТЕКСТОВ НА ОСНОВЕ СПИСКОВ ЛЕКСИЧЕСКИХ КОНСТРУКЦИЙ //Структурная и прикладная лингвистика. Выпуск 13. – 2022. – С. 141. 5. Батаев Д. В. Автоматизированная система извлечения и суммаризации текстовой информации из открытых источников //Новые информационные технологии в научных исследованиях. – 2020. – С. 196-197. 6. Батаев Д. В., Головнин О. К., Батаев ДВ Г. О. К. Система аннотирования на основе гибридной экстрактивно-абстрактивной архитектурной модели //XVI Королевские чтения: междунар. молодеж. науч. конф., посвящ. 60-летию полета в космос ЮА Гагарина: сб. материалов: 5-7 окт. 2021 г.: в 3 т. – 2021.
Читать дальше
Поможем с написанием такой-же работы от 500 р.
Лучшие эксперты сервиса ждут твоего задания

Похожие работы

дипломная работа
Причинение смерти по неосторожности
Количество страниц:
70
Оригинальность:
78%
Год сдачи:
2023
Предмет:
Уголовное право
дипломная работа
Влияние денежно-кредитной политики на состояние экономики: Российская и Казахстанская практика
Количество страниц:
70
Оригинальность:
71%
Год сдачи:
2023
Предмет:
Финансы
дипломная работа
"Радио России": история становления, редакционная политика, аудитория. (Имеется в виду радиостанция "Радио России")
Количество страниц:
70
Оригинальность:
61%
Год сдачи:
2015
Предмет:
История журналистики
курсовая работа
26. Центральное (всесоюзное) радиовещание: история создания и развития.
Количество страниц:
25
Оригинальность:
84%
Год сдачи:
2016
Предмет:
История журналистики

Поможем с работой
любого уровня сложности!

Это бесплатно и займет 1 минуту
image