Реферат
ВВЕДЕНИЕ 4
Глава 1. Способы исправления опечаток 6
1.1 Опечатки 6
1.2 Методы исправления опечаток 7
1.4 Расстояние Дамерау-Левенштейна 8
1.5 Алгоритм Бойера-Мура 9
1.6 Метод N-грамм 11
Выводы по главе 1 12
Глава 2 13
2.1 Хранение словаря и языковой модели 13
2.2 Метод нахождения слова для исправления опечатки 13
2.3 Выбор языковой модели 14
2.4 Выбор языка для написания библиотеки 14
Выводы по второй главе 14
Глава 3 16
3.1 Создание словаря и языковой модели 16
2.2 Метод нахождения кандидатов для исправления опечатки 18
2.3 Выбор кандидата для замены слова с опечаткой с учетом контекста 20
2.5 Создание библиотеки 21
2.6 Создание текстового редактора для демонстрации работы библиотеки... 22
Выводы по 3 главе 24
ЗАКЛЮЧЕНИЕ 26
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 27
Опечатка — ошибка в тексте, обычно в результате невнимательности наборщика. Чаще всего, в результате опечатки нарушается порядок букв в слове (быът вместо быть), одна буква исчезает из слова (чловек вместо человек) или одна буква заменяется другой (чтатъя вместо статья).
Со времен создания первых машин для печатания текста люди допускают опечатки в тексте. Изначально опечатки исправлялись вручную в каждом экземпляре отпечатанного текста. По мере развития типографского дела по инициативе издателя Габриэля Пьерри стал применяться более простой метод внесения правок, заключающийся в перечислении опечаток в конце книги. В быстро развивающемся мире, где количество печатного текста неминуемо росло, росло и количество допускаемых опечаток.
В 1960-х годах в инженерной среде возникла потребность возникла потребность в автоматическом исправлении опечаток. Коррекция опечаток - одна из проблем в области обработки ЭВМ естественного языка. Универсального решения данной проблемы до сих пор не существует, однако на протяжении всей истории коррекция орфографии отражала актуальные задачи прикладной лингвистики и вбирала в себя самые новые вычислительные методы. Развитие этой дисциплины определяется двумя основными технологическими потребностями: удобством дальнейшей обработки текста (оптимизация поисковой выдачи) и удобством набора для пользователя (проверка и коррекция орфографии в текстовых редакторах). Так в 1980-х годах появляются первые коммерческие продукты для редакции текста включающие в себя модули для поиска и исправления опечаток.
В современном мире с распространением персональных компьютеров продукты по исправлению опечаток становятся все более популярными.
Большинство редакторов текста включают в себя модули исправления опечаток, а поисковые системы в веб-интерфейсах используют алгоритмы автоматического исправления опечаток с учетом контекста. Например, такие алгоритмы используются для функций наподобие «Возможно вы имели в виду ...» в тех же поисковых системах.
В выпускной квалификационной работе были рассмотрены алгоритмы для исправления опечаток тексте с учетом и без учета контекста. Описаны методы создания языковой модели. Была создана программа для создания языковой модели, библиотека для исправления опечаток с учетом контекста и простейший текстовый редактор для демонстрации работы библиотеки, а также показан принцип работы выше перечисленных программ и библиотеки.