📄Работа №196526

Тема: АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА (ПРОБЛЕМА ЛЕММАТИЗАЦИИ)

📝
Тип работы Дипломные работы, ВКР
📚
Предмет лингвистика
📄
Объем: 53 листов
📅
Год: 2018
👁️
Просмотров: 31
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Введение 3
Глава 1 Системы автоматической обработки текста 6
1.1 Компьютерная лингвистика, ее цели и задачи 6
1.2 Лингвистический автомат 12
1.3 Системы АОТ и их уровневое построение 14
1.4 Современные зарубежные методы АОТ 16
1.5 Анализ электронных текстов 17
Выводы по главе 1 27
Глава 2 Корпусная лингвистика. Проблема исходной формы слова 29
2.1 корпусы текстов: принципы построения 29
2.2 Текст. Общие положения 34
2.3 Электронный текст как основа корпуса 399
2.4 Лемматизация и нормализация. Проблема исходной (словарной)
формы слова 41
2.5 Правила приведения словоформ к исходной (словарной) форме слова ... 42
2.6 Программное обеспечение 44
Выводы по главе 2 47
Заключение 49
Библиографический список 51

📖 Введение

В настоящее время основными проблемами лингвистики являются изучение лексики и семантики, а также быстрый автоматизированный перевод. К середине XX века, беспрерывный рост объемов производимой информации сделал крайне актуальными задачи поиска информации в огромных объемах данных, ее выбора и упорядочения по тем или иным признакам. В данных исследованиях невозможно обойтись без работы со словарями, энциклопедиями, архивами. Но, к сожалению, у учёных не всегда существует возможность доступа к необходимым информационным ресурсам. Помочь в этом современным лингвистам может такая отрасль науки, как компьютерная, прикладная лингвистика, которая занимается созданием разнообразных систем по обработке естественного языка. Но эта обработка невозможна без наличия лингвистических информационных ресурсов.
Появление вычислительной техники способствовало в 1960-е гг. созданию различных теорий в области лингвистики и представления знаний (Ю.Д. Апресян, М. Мински, Д.А. Поспелов, Р. Шенк, И. Уилкс, В.А. Звягинцев, Т. Виноград, А.К. Жолковский, Ч. Филмор и др.), развитию методов автоматической обработки текста.
В последние десятилетия появилось множество систем автоматической обработки текста, предназначенных для решения отдельных или небольшого набора задач. В связи с вышеизложенным, наиболее актуальным вопросом в современной прикладной лингвистике являются методы и анализ автоматической обработки текстов.
Объектом исследования является процесс автоматической обработки корпуса текстов зарубежных научно-фантастических произведений.
Предметом нашего исследования являются автоматическая лемматизация текста и его автоматическая обработка, метод морфологического анализа словоформ. 

автоматизированного лемматизатора текста.
Достижение поставленной цели предполагает решение следующих задач:
1. Проанализировать современные зарубежные методы автоматической обработки текста (АОТ).
2. Рассмотреть понятия «электронный текст» и «корпус текстов».
3. Создать корпус текстов научно-фантастических зарубежных произведений на английском языке.
4. Выявить правила приведения словоформ к исходной (словарной) форме слова.
5. Создать автоматизированный лемматизатор и провести лемматизацию корпуса научно-фантастических зарубежных произведений.
Материалом исследования послужили научно-фантастические
произведения, а именно: роман английского писателя Герберта Уэллса «Машина времени»; роман «Грядущая раса» английского писателя Эдварда Бульвера-Литона.
Теоретико-методологической базой для дипломной работы послужили труды Е.И Большаковой, Э.С. Клышинского, Д.В. Ландэ, А.А. Носкова, О.В. Песковой, Е.В. Ягуновой, И.С. Николаева, О.В. Митрениной, Т.М. Ландо, А.В. Луканина, Р.Г. Пиотровского и других.
В работе использовались такие методы и приемы анализа как логический, дискурсивный, метод корпусной лингвистики .
Научная новизна работы определяется в том, что впервые создан лемматизатор, работу которого мы проверяли на основе корпуса текстов зарубежных научно-фантастических произведений.
Теоретическая значимость работы состоит в том, что полученные в ходе исследования выводы вносят определённый вклад в развитие компьютерной и корпусной лингвистики.
Практическая значимость данной работы состоит в том, то данную программу можно использовать для любого корпуса текстов на английском
языке. Также она состоит в возможности использования его результатов в вузовских курсах по новым информационным технологиям, компьютерной лингвистике, автоматической обработке текста, лексикологии,
лексикографии.
Цель и задачи исследования определили структуру и объем работы, которая состоит из 2 глав, заключения и списка литературы, состоящего из 31 источника.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Компьютерная лингвистика (КЛ) появилась на стыке таких наук, как лингвистика, математика, информатика и искусственный интеллект. В данном направлении разрабатывается множество программ, методов автоматической обработки текстов. Несмотря на достаточно длительное существование компьютерной лингвистики, на данном этапе её развития ещё многие идеи не нашли своё применение в программных продуктах. Сами же инструменты данной науки могут существенно помочь в решении многих проблем при создании программ.
В процессе написания данной дипломной работы были теоретически осмыслены такие понятия как корпус текста, текст, компьютерная лингвистика, лемматизатор, лемматизация и другие.
В данной дипломной работе мы создали автоматизированный лемматизатор, который может анализировать и приводить к начальной словоформе целый корпус текстов на английском языке.
Лемматизация широко используется в алгоритмах поисковых систем. Так, она позволяет найти большее количество результатов, а не только результаты по запросу слова только в той форме, в которой оно было введено. Так же лемматизация применяется при проверке уникальности текста, веб¬разработке, программировании и составлении семантического ядра.
Для более глубокого понимания проблемы лемматизации нами была написана программа, которая позволила провести анализ двух английских научно-фантастических произведений, которые были собраны в единый корпус. Для работы лемматизатора понадобилось создать базы данных, в которых прописаны правила словообразования в английском языке, благодаря им программа может лемматизировать весь корпус.
Как результат работы программы, мы можем увидеть частотный список лемм, которые употребляются в используемом корпусе. А также лемматизированный текст.
Данную программу можно использовать для любого корпуса текстов на английском языке. Чтобы провести лемматизацию корпуса, например, на русском языке, нужно создать базы данных с правилами словообразования в русском языке.
Важно отметить, что лемматизатор не работает идеально. Это происходит из-за неполноты баз данных с правилами словообразования. Для того, чтобы лемматизация корпуса выдавала верные результаты, нужно проделать очень трудоемкую работу, которая может занять не один месяц. Для этого нужно учесть все правила словообразования и все исключения. Например, при лемматизации на английском языке в базу данных нужно вносить все сведения о неправильных глаголах, для существительных, прилагательных и глаголов создать разные базы данных, в которых будут прописаны правила словообразования именно этих частей речи. Приводя слово к лемме иногда возникает проблема определения того, к какой части речи она относится, к существительному или же глаголу. Абсолютного решения данной проблемы пока не существует, так как для этого нужно учитывать все особенности словообразования.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Автоматическая обработка текстов на естественном языке и
компьютерная лингвистика: учеб. пособие / Е.И. Большакова,
Э.С. Клышинский, Д.В. Ландэ, А.А. Носков, О.В. Пескова, Е.В. Ягунова. - М.: МИЭМ, 2011. - 272 с.
2. Апресян, Ю.Д. Идеи и методы современной структурной лингвистики / Ю.Д. Апресян. - М.: Просвещение, 1966. - 301 с.
3. Баранов, А. Н. Введение в прикладную лингвистику: учебное пособие /
А.Н. Баранов. - М.: Эдиториал УРСС, 2001. - 360 с.
4. Белоногов, Г.Г. Компьютерная лингвистика и перспективные информационные технологии / Г.Г. Белоногов. - М.: Русский мир, 2004. - 248 с. - ISBN 5-85810-077-9.
5. Беляева, Л.Н. Лингвистические автоматы в современных гуманитарных технологиях: учеб. пособие / Л.Н. Беляева. - СПб.: Книжный Дом, 2007. - 192 с.
6. Беляева, Л.Н. Автоматический (машинный) перевод / Л.Н. Беляева, М.И. Откупщикова // Прикладное языкознание: учебник. - СПб.: Изд-во С. - Петербург. ун-та, 1996. - С. 360-388.
7. Захаров, В.П. Корпусная лингвистика: учебник для студентов гуманитарных вузов. / В.П. Захаров, С.Ю. Богданова. - Иркутск. ИГЛУ, 2011. - 161 с.
8. Захаров, В.П. Информационно-поисковые системы: учеб. - метод, пособие / В.П. Захаров. - СПб.: СПбГУ, 2005. - 48 с.
9. Зубов, А.В. Информационные технологии в лингвистике: учеб. пособие / А.В. Зубов, И.И. Зубова. - М.: Академия, 2004. - 208 с.
10. Козлова, Н. В. Лингвистические корпуса: определение основных понятий и типология / Н. В. Козлова // Вестник НГУ. Сер. Лингвистика. - Новосибирск, 2013. - 95 с.
11. Клышинский, Э.С. Начальные этапы анализа текста / Э.С. Клышинский // Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие. - М.: МИЭМ, 2011. - С. 106-140.
12. Луканин, А.В. Автоматическая обработка естественного языка: учебное пособие / А.В. Луканин. - Челябинск: Издательский центр ЮУрГУ, 2011. - 70 с.
13. Луканин, А.В. Инструментарий прикладного лингвиста / А.В. Луканин // Современные направления прикладной лингвистики: материалы I Студенческой научно-практической конференции. - Челябинск: Международный студенческий научный вестник, 2008. - 34 с.
14. Лукашевич, Н.В. Тезаурусы в задачах информационного поиска / Н.В. Лукашевич. - М.: Издательство МГУ, 2011. - 512 с.
15. Марчук, Ю.Н. Компьютерная лингвистика: учеб. пособие / Ю.Н. Марчук. - М.: ACT Восток - Запад, 2007. - 317 с...31

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ