Тема: АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА (ПРОБЛЕМА ЛЕММАТИЗАЦИИ)
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1 Системы автоматической обработки текста 6
1.1 Компьютерная лингвистика, ее цели и задачи 6
1.2 Лингвистический автомат 12
1.3 Системы АОТ и их уровневое построение 14
1.4 Современные зарубежные методы АОТ 16
1.5 Анализ электронных текстов 17
Выводы по главе 1 27
Глава 2 Корпусная лингвистика. Проблема исходной формы слова 29
2.1 корпусы текстов: принципы построения 29
2.2 Текст. Общие положения 34
2.3 Электронный текст как основа корпуса 399
2.4 Лемматизация и нормализация. Проблема исходной (словарной)
формы слова 41
2.5 Правила приведения словоформ к исходной (словарной) форме слова ... 42
2.6 Программное обеспечение 44
Выводы по главе 2 47
Заключение 49
Библиографический список 51
📖 Введение
Появление вычислительной техники способствовало в 1960-е гг. созданию различных теорий в области лингвистики и представления знаний (Ю.Д. Апресян, М. Мински, Д.А. Поспелов, Р. Шенк, И. Уилкс, В.А. Звягинцев, Т. Виноград, А.К. Жолковский, Ч. Филмор и др.), развитию методов автоматической обработки текста.
В последние десятилетия появилось множество систем автоматической обработки текста, предназначенных для решения отдельных или небольшого набора задач. В связи с вышеизложенным, наиболее актуальным вопросом в современной прикладной лингвистике являются методы и анализ автоматической обработки текстов.
Объектом исследования является процесс автоматической обработки корпуса текстов зарубежных научно-фантастических произведений.
Предметом нашего исследования являются автоматическая лемматизация текста и его автоматическая обработка, метод морфологического анализа словоформ.
автоматизированного лемматизатора текста.
Достижение поставленной цели предполагает решение следующих задач:
1. Проанализировать современные зарубежные методы автоматической обработки текста (АОТ).
2. Рассмотреть понятия «электронный текст» и «корпус текстов».
3. Создать корпус текстов научно-фантастических зарубежных произведений на английском языке.
4. Выявить правила приведения словоформ к исходной (словарной) форме слова.
5. Создать автоматизированный лемматизатор и провести лемматизацию корпуса научно-фантастических зарубежных произведений.
Материалом исследования послужили научно-фантастические
произведения, а именно: роман английского писателя Герберта Уэллса «Машина времени»; роман «Грядущая раса» английского писателя Эдварда Бульвера-Литона.
Теоретико-методологической базой для дипломной работы послужили труды Е.И Большаковой, Э.С. Клышинского, Д.В. Ландэ, А.А. Носкова, О.В. Песковой, Е.В. Ягуновой, И.С. Николаева, О.В. Митрениной, Т.М. Ландо, А.В. Луканина, Р.Г. Пиотровского и других.
В работе использовались такие методы и приемы анализа как логический, дискурсивный, метод корпусной лингвистики .
Научная новизна работы определяется в том, что впервые создан лемматизатор, работу которого мы проверяли на основе корпуса текстов зарубежных научно-фантастических произведений.
Теоретическая значимость работы состоит в том, что полученные в ходе исследования выводы вносят определённый вклад в развитие компьютерной и корпусной лингвистики.
Практическая значимость данной работы состоит в том, то данную программу можно использовать для любого корпуса текстов на английском
языке. Также она состоит в возможности использования его результатов в вузовских курсах по новым информационным технологиям, компьютерной лингвистике, автоматической обработке текста, лексикологии,
лексикографии.
Цель и задачи исследования определили структуру и объем работы, которая состоит из 2 глав, заключения и списка литературы, состоящего из 31 источника.
✅ Заключение
В процессе написания данной дипломной работы были теоретически осмыслены такие понятия как корпус текста, текст, компьютерная лингвистика, лемматизатор, лемматизация и другие.
В данной дипломной работе мы создали автоматизированный лемматизатор, который может анализировать и приводить к начальной словоформе целый корпус текстов на английском языке.
Лемматизация широко используется в алгоритмах поисковых систем. Так, она позволяет найти большее количество результатов, а не только результаты по запросу слова только в той форме, в которой оно было введено. Так же лемматизация применяется при проверке уникальности текста, веб¬разработке, программировании и составлении семантического ядра.
Для более глубокого понимания проблемы лемматизации нами была написана программа, которая позволила провести анализ двух английских научно-фантастических произведений, которые были собраны в единый корпус. Для работы лемматизатора понадобилось создать базы данных, в которых прописаны правила словообразования в английском языке, благодаря им программа может лемматизировать весь корпус.
Как результат работы программы, мы можем увидеть частотный список лемм, которые употребляются в используемом корпусе. А также лемматизированный текст.
Данную программу можно использовать для любого корпуса текстов на английском языке. Чтобы провести лемматизацию корпуса, например, на русском языке, нужно создать базы данных с правилами словообразования в русском языке.
Важно отметить, что лемматизатор не работает идеально. Это происходит из-за неполноты баз данных с правилами словообразования. Для того, чтобы лемматизация корпуса выдавала верные результаты, нужно проделать очень трудоемкую работу, которая может занять не один месяц. Для этого нужно учесть все правила словообразования и все исключения. Например, при лемматизации на английском языке в базу данных нужно вносить все сведения о неправильных глаголах, для существительных, прилагательных и глаголов создать разные базы данных, в которых будут прописаны правила словообразования именно этих частей речи. Приводя слово к лемме иногда возникает проблема определения того, к какой части речи она относится, к существительному или же глаголу. Абсолютного решения данной проблемы пока не существует, так как для этого нужно учитывать все особенности словообразования.





