Введение 3 1. Теоретические основы прикладной лингвистики 5 1.1. Информационная модель фактов 5 1.2. Единицы смысла языка и речи 5 1.3. Технологии и процедуры автоматической обработки текста 7 1.3.1 Морфологический анализ слов 7 1.3.2 Семантико-синтаксический анализ 8 1.3.3 Концептуальный анализ текстов 9 1.3.4 Технология составления частотных словарей по корпусу текстов 9 Выводы по главе 1 11 2. Автоматическое извлечение фактов в программной системе ИСИДА-Т 12 2.1. Способы извлечения фактов из неструктурированного текста. Постановка задачи 17 2.2. Пример реализации предлагаемого подхода в системе ИСИДА-Т 18 2.3. Исходные данные для анализа 19 Выводы по главе 2 24 Заключение 25 Список использованной литературы 26

Автоматическое извлечение фактов

курсовая работа

Культура

27 страниц

92% уникальность

2014 год

163 просмотров

Эксперт по предмету «Информационные ресурсы»

Узнать стоимость консультации

Это бесплатно и займет 1 минуту

Отправляя форму, вы соглашаетесь с офертой, политикой обработки персональных данных и даёте согласие на обработку данных

Оглавление

Введение

Заключение

Список литературы

Лавинообразный рост объемов текстовой информации в интернете и потребность в ее быстрой и качественной обработке привели к необходимости создания новых технологий автоматического анализа текстов. Успехи в решении этой задачи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, речевого общения между людьми и умения моделировать эти процессы на компьютере. Основной проблемой, возникающей при работе с текстами документов, является трудность формализации смыслового содержания документов и, как следствие этого, трудность установления смысловой связи между различными документами. Такая проблема возникает в процессе функционирования различных систем обработки текстовой информации: в поисковых системах – при установлении смысловой близости содержания запросов и документов; в системах классификации текстов при их распределении по классам на основе признаков сходства и различия, отражающих наиболее существенные черты смыслового содержания этих текстов; в аналитических системах – при установлении смыслового тождества или смысловой близости анализируемых документов. Сложность этой проблемы обусловлена еще и тем, что в разных текстах одни и те же ситуации могут описываться в терминах различной степени общности и с помощью различных языковых средств. И только человек, анализирующий документы, руководствуясь своими представлениями о содержании документов и средствах выражения этого содержания и опираясь на свои профессиональные знания и опыт, в состоянии установить степень смысловой близости анализируемых документов. В своей работе многие компании и организации сталкиваются с огромным количеством текстовых документов. Заключенная в них полезная информация не структурирована, а значит, ее невозможно обработать классическими вычислительными методами, например, построить на основании этой информации диаграмму или схему.

Если вас интересует производственная практика на заказ , переходите на сайт Work5 и заполняйте форму заказа.

. Все эти тексты понятны человеку, но недоступны машине. Структурировать текстовую информацию — значит выявить в документах представляющие интерес факты и преобразовать их в данные (классифицировать, привести к табличному виду и т.п.). Когда информация структурирована, ее можно обработать при помощи компьютера, и в частности, осуществлять статистический анализ, представлять в виде таблиц и диаграмм, использовать методы поиска закономерностей в данных. Структурирование делает возможным также интеллектуальный поиск в документах, то есть поиск объектов и фактов по их атрибутам или отношениям с другими объектами. Возникает необходимость в разработке методов автоматического анализа содержания документов. Цель работы – изучить автоматическое извлечение фактов из текстовых массивов. Теоретические основы прикладной лингвистики

Таким образом в данной работе нами рассмотрены теоретические моменты автоматического извлечения фактов из текстов и практический подход. Предлагаемый подход извлечения фактов из текстов основывается на частичном синтаксическом анализе выделенных фрагментов текста под контролем ресурса знаний. Тестирование предлагаемого алгоритма извлечения фактов из неструктурированного текста показало значительное ускорение работы программы по сравнению с подходом, где извлечение было основано на поиске фрагментов текста, удовлетворяющих записанным на языке правил шаблонным конструкциям. Кроме того, процесс разработки и отладки алгоритма демонстрирует большую гибкость нового подхода, легкость дополнения и настраивания под новые задачи. Результаты анализа сохраняются в удобной форме, их можно использовать как основу для дальнейшей обработки текста.

Александровский Д.А., Кормалев Д.А., КормалеваМ.С., КуршевЕ.П., Сулейманова Е.А., Трофимов И.В. Развитие средств аналитической обработки текста в системе ИСИДА-Т // Тр. Десятой нац. конф. по искусственному интеллекту с междунар. участием КИИ-2006, Обнинск, 25-28 сентября 2006 г.: В 3 т. — М.: Физматлит, 2006. — Т. 2. — С. 555—563. Белоногов Г.Г., ГиляревскийР.С. и др. Развитие систем автоматической обработки текстовой информации// Нейрокомпьютеры: разработка,применение. – 2010, № 8. Васильев В.Г., Кривенко М.П. Методы автоматизированной обработки текстов. – М.: ИПИРАН, 2008. – 301 с. Кормалев Д.А., КуршевЕ.П., Сулейманова Е.А., Трофимов И.В.. Технология извлеченияинформации, из текстов, основанная на знаниях. Программные продукты и системы, 2009, №2 Кузнецов И.П. Механизмы обработки семантической информации. – М.: Наука, 1978. – 175 с. Мельчук И.А. Опыт теории лингвистических моделей «Смысл ?Текст». – М., 1974 (2-е изд., 1999). Сайт Проект ИСИДА.[Электронный ресурс]. URL: http://isida-t.ru/index.php?option=com_content Соссюр Фердинанд де. Курс общей лингвистики. – М.: Прогресс, 1977. – 370 с.

Поможем с написанием такой-же работы от 500 р.

Лучшие эксперты сервиса ждут твоего задания

Поможем с работой
любого уровня сложности!

Это бесплатно и займет 1 минуту

Автоматическое извлечение фактов

Похожие работы

Поможем с работойлюбого уровня сложности!

Поможем с работой
любого уровня сложности!