Тип работы:
Предмет:
Язык работы:


ЭКСПЕРИМЕНТАЛЬНАЯ РЕАЛИЗАЦИЯ АЛГОРИТМА ИСПРАВЛЕНИЯ ГРАММАТИЧЕСКИХ ОШИБОК С ИСПОЛЬЗОВАНИЕМ МЕТОДА ОПОРНЫХ ВЕКТОРОВ

Работа №42412

Тип работы

Дипломные работы, ВКР

Предмет

информационные системы

Объем работы49
Год сдачи2019
Стоимость6500 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
164
Не подходит работа?

Узнай цену на написание


Введение 2
1. Анализ предметной области 4
1.1 Изучение предметной области машинного обучения и метода опорных
векторов 4
1.2 Анализ существующих подходов к автоматическому исправлению 8
2. Концептуальные основы машинного обучения методом опорных векторов 14
2.1 Линейный классификатор 14
2.2 Формальное описание метода 16
3. Экспериментальная реализация алгоритма 29
3.1 Технологии для реализации метода опорных векторов 29
3.2 Обучающее и тестовое множества 31
3.3 Этап машинного обучения 32
4. Тестирование по результатам обучения 35
4.1 Экспериментальная оценка результатов обучения 35
4.2 Целевой оценочный тест реализации алгоритма 36
Заключение 38
Список использованных источников


Речь является важным показателем культуры и мышления человека. Она представляет собой способ передачи информации путем коммуникации, а также возможность познания окружающего мира. В речи, как и в других видах человеческой деятельности, встречаются разного рода ошибки. Они появляются как в письменной, так и в устной речи. Из-за речевых ошибок в определённых случаях может исказиться смысл сказанного. С ростом объема информации растет и количество ошибок. Нахождение их вручную и редактирование занимает много времени и приводит к снижению эффективности совершаемых действий. Поэтому автоматизация данного процесса является достаточно актуальной задачей.
На сегодняшний день существует немало инструментов для проверки текста, такие как Grammarly [12], LanguageTool [16], Орфограммка [1]. Данные инструменты хорошо справляются с несловесными ошибками — ошибки в слове, ведущие к образованию несуществующих слов, либо слов, отсутствующих в базе данных. Такие ошибки легко обнаружить, однако их исправление не является тривиальной задачей. Сложнее справляться с ошибками в реальных словах, приводящих к их неправильному использованию в предложении. Большинство таких ошибок провоцируют синтаксические несоответствия в предложениях, поэтому могут быть надежно обнаружены средствами проверки грамматики [1, 12, 16]. Таким образом, исправление является более сложной задачей, чем обнаружение, как для ошибок в реальных словах, так и для несловарных ошибок.
Для решения описанной проблемы были рассмотрены два основных подхода для исправления ошибок в тексте. Первый — метод, основанный на правилах, где входной текст проверяется на соответствие определенному набору правил, которые вручную разрабатываются лингвистами [9]. Главным недостатком данного подходя является трудоёмкость процедуры составления правил. Второй метод — применение машинного обучения. В отличие от метода, основанных на правилах, здесь не требуются глубокие знания грамматики, поскольку зависят только от основного корпуса. Учитывая недостатки подхода, основанных на правилах, и факта, что коррекция ошибок методами машинного обучения еще недостаточно развита в существующем программном обеспечении, возникла идея применить данный подход для коррекции ошибок в текстах. В качестве инструмента для исправления была выбрана машина опорных векторов — мощная и универсальная модель машинного обучения, использующаяся в задачах линейной или нелинейной классификаций, задач регрессии.
Таким образом, предметом исследования данной работы являются грамматические ошибки и их исправление в тексте. Можно сформулировать цель работы как разработку модели, основанной на методе опорных векторов, предназначенной для решения задачи автоматического поиска и исправления грамматических ошибок. Работа имеет следующую структуру:
1. Анализ существующих методов для исправления грамматических ошибок.
2. Разработка экспериментальной модели для исправления грамматических ошибок с применением метода опорных векторов.
3. Разработка программы на основе экспериментальной модели.
4. Проведение анализа полученных результатов.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной выпускной квалификационной работы была разработана экспериментальная модель исправления грамматических ошибок с использованием метода опорных векторов. В ходе разработки решены следующие задачи:
• Проведен анализ существующих методов решения и существующих инструментов для исправления грамматических ошибок.
• Была создана модель на основе работы Johannes Schaback и Fang Li «Multi-Level Feature Extraction for Spelling Correction» [27].
• Был создан текстовый корпус для обучения созданной модели.
• На основе модели экспериментальной модели разработана программа на языке Python.
• Проведены анализы полученных результатов.
Исходя из полученных результатов можно сказать, что реализуемая модель может использоваться для исправления грамматических ошибок. Созданную модель можно улучшить путем:
• Увеличение учебного корпуса
• Применение n-грамм более высоких порядков для выявления признаков на уровне слов
• Создание дополнительных метод извлечения признаков



1. Библиотека Орфограммки [Электронный ресурс] / https://orfogrammka.ru — Орфограммка. — Режим доступа: https://orfogrammka . ru/%D0%B 1%D0 %B8%D0%B1%D0%BB %D0%B8%D0%BE%D1%82%D 0%B5%D0%BA %D0%B 0 . — Дата обращения: 5.06.2019.
2. Бенгфорт, Б. Прикладной анализ текстовых данных на Python / Б. Бенгфорт, Б. Ребекка, О. Тони. — Санкт-Петербург: ПИТЕР, 2019. — 368 с.
3. Вандер Дж. Python для сложных задач. Наука о данных и машинное обучение / Дж. Вандер. — Санкт-Петербург: ПИТЕР, 2018. — 576 с.
4. Выхованец В.С. Обзор алгоритмов фонетического кодирования / В.С. Выхованец, Ц. Ду, С. А. Сакулин. — Управление большими системами, №73. — Москва: Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А.Трапезникова Российской академии наук, 2018. — 67-94 с.
5. Левенштейн. В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов. / В. И. Левенштейн. — Доклады Академий Наук СССР, 163:4. — Москва: Издательство «Наука», 1965. — 845-848 с.
6. Руководство — Морфологический анализатор pymorphy2 [Электронный р есурс] / https://pymorphy2 .readthedocs . io/en/latest/ — Морфологический анализатор pymorphy2. — Режим доступа: https : //pymorphy2.readthedocs.io /en/0.2/user/index.html. — Дата обращения: 16.06.2019.
7. Шолле Ф. Глубокое обучение на Python / Ф. Шолле. — Санкт-Петербург: ПИТЕР, 2019. — 400 с.
8. Bishop. C. M. Pattern Recognition and Machine Learning / C.M. Bishop. — Luxembourg: Springer, 2006. — pp. 758.
9. Cabitza F. DJess-A Knowledge-Sharing Middleware to Deploy Distributed Inference Systems / F. Cabitza, B. Dal Seno. — International Journal of Computer and Information Engineering, Vol. 2. — Piscataway: Institute of Electrical and Electronics Engineers, 2005. — pp. 66-69.
10. Duan K. Evaluation of simple performance measures for tuning SVM hyperparameters / K. Duan, S. S. Keerthi, A. N. Poo. — Neurocomputing, 51.
— Amsterdam: Elsevier, 2003. — pp. 41-59.
11. Gensim Word2Vec Tutorial | Kaggle [Электронный ресурс] / https://www.kaggle.com/. — Kaggle: Your Home for Data Science. — Режим доступа: https://www.kaggle.com/pierremegret/gensim-word2vec-tutorial. — Дата обращения: 16.06.2019.
12. Grammarly Spotlight: How We Use AI to Enhance Your Writing [Электронный ресурс] / https://www.grammarly.com — Grammarly: Free Writing Assistant. — Режим доступа: https://www.grammarly.com/blog/how- grammarly-uses-ai.- Дата обращения: 6.06.2019.
13. Guihua, S. Detecting erroneous sentences using automatically mined sequential patterns / S. Guihua, X. Liu, G. Cong // The 45 th Association for Computational Linguistics. — Prague, 2007. — pp 81-87.
14. Kohavi R. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. / R. Kohavi. — The14th International Joint Conference on Artificial Intelligence. — Montreal: Morgan Kaufmann Publishers, 1995. — pp. 1137-1145.
15. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages. / M. Korobov. — Analysis of Images, Social Networks and Texts.
— Cham: Springer, 2015. — pp. 320-332.
16. LanguageTool HTTP API [Электронный ресурс] / https://languagetool.org — LanguageTool — Spell and Grammar Checker. — Режим доступа: https://languagetool.org/http-api/swagger-ui/#!/default/post_check . — Дата обращения: 6.06.2019.
17. Lee J. Correcting Misuse of Verb Forms. / J. Lee, S. Seneff. —The Human Language Technology Conference (HLT). — Columbus, Ohio, 2008. — pp. 174-182.
18. Liu, Y. Python Machine Learning By Example. — Birmingham: Packt, 2017.— pp. 250.
19. Macdonald N. Human factors and behavioral science / N. Macdonald. —Bell System Technical Journal, Volume 62, Issue 6. — New York: American Telephone and Telegraph Company, 1983. — pp 6.
20. Mikolov T. Distributed Representations of Words and Phrases and their Compositionality / T. Mikolov, I. Sutskever, K. Chen. — Advances in neural information processing systems. — London: The MIT Press, 2013. — pp. 9.
21. Mikolov T. Efficient estimation of word representations in vector space / T. Mikolov, K. Chen, G. Corrado, J. Dean. — International Conference on Learning Representations 2013. — Brookline: Microtome Publishing, 2013—
pp. 21.
22. Mozgovoy, M. Dependency-Based Rules for Grammar Checking with LanguageTool / М. Mozgovoy. — The Federated Conference on Computer Science and Information Systems. — Szczecin, 2011. — pp. 209-212.
23. Naber D. A rule-based style and grammar checker / D. Naber. — International Conference on Data and Software Engineering. — Beijing, 2017. — pp. 7.
24. Powers, D. M. W. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation / D. M. W. Powers. — Journal of Machine Learning Technologies. — Pune: Bioinfo Publications, 2011. — pp. 37-63.
25. Rabiner. L. R. A tutorial on hidden Markov models and selected applications in speech recognition / Rabiner. L. R. — The IEEE — Piscataway: Institute of Electrical and Electronics Engineers, 1989. — pp. 257-286.
26. RightWriter Grammar Correction and Writing Analysis Software - How It Works [Электронный ресурс] / http://www.right-writer.com — RightWriter Grammar Correction and Writing Analysis Software. — Режим доступа: http://www.right-writer.com/right-writer-grammar-analysis-software.htm. — Дата обращения: 16.06.2019
27.Schaback, J. Multi-Level Feature Extraction for Spelling Correction / J. Schaback, L. Fang. — IJCAI-2007 Workshop on Analytics for Noisy Unstructured Text Data. — Hyderabad, 2007. — pp.79-86.
28.Sidorov. G. Syntactic Dependency Based N-grams in Rule Based Automatic English as Second Language Grammar Correction. / G. Sidorov. — International Journal of Computational Linguistics and Applications, Vol. 4, No. 2. — Kalkaji: BAHRI PUBLICATIONS, 2013. — pp. 169—188.
29.Soni M. A Systematic Review of Automated Grammar Checking in English Language / M. Soni, J. S. Thakur. — CSCL. — Lyon, 2018. — pp. 23. 30.Subprocess — Subprocess management — Python 3.7.3 documentation [Элект ронный ресурс] / https://docs.python.org/3/ — 3.7.3 Documentation. — Режи м доступа: https://docs.python.org/3/library/subprocess.html 31.SVM-Light Support Vector Machine [Электронный ресурс] /
http://svmlight.joachims.org/. — SVM-Light Support Vector Machine. — Режим доступа: http://svmlight.joachims.org/. — Дата обращения: 16.06.2019.
32. The Python Tutorial — Python 3.7.3 documentation [Электронный ресурс] / https://docs.python.org/3/ — 3.7.3 Documentation. — Режим доступа: https://docs.python.org/3/tutorial/. — Дата обращения: 16.06.2019.
33. Wagner J. A comparative evaluation of deep and shallow approaches to the automatic detection of common grammatical errors / J. Wagner, J. Foster, J. Genabith. — The 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. — Prague, 2007. — pp. 112-121.
34. Yuan, Z. Grammatical error correction using hybrid systems and type filtering / Z. Yuan, M. Felice, 0. E. Andersen, H. Yannakoudakis, E. Kochmar. — The 18th Conference on Computational Natural Language Learning: Shared Task. — Baltimore, Maryland, USA, 2014. — pp. 15-24.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ