Тип работы:
Предмет:
Язык работы:


Разработка и реализация алгоритма классификации документов

Работа №77766

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы32
Год сдачи2016
Стоимость4270 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
78
Не подходит работа?

Узнай цену на написание


Введение 3
2. Постановка задачи 5
3. Составление документальной базы 6
4. Извлечение признаков 7
4.1. Предварительная очистка текста 7
4.2. Лемматизация 7
4.2.1. Стеммер Поттера 8
4.2.2. Базы слов 9
5. ЛСА (Латентно-семантический анализ) 11
6. Реализация ЛСА 13
6.1. Алгоритм «с общей базой» 13
6.2. Алгоритм «с разделенной базой» 15
7. Эксперименты 17
7.1. Меры оценки 17
7.2. Результаты экспериментов 18
8. Выводы 23
9. Заключение 24
10. Список литературы 25
11. Приложение

Интеллектуальный анализ текста - одно из направлений в технологиях искусственного интеллекта, задачей которого является обработка текстов на естественном языке (далее - текст). По сравнению с информацией, хранящейся в базе данных, естественный язык отличается неструктурированностью, неупорядоченностью, аморфностью. Алгоритмически он мало пригоден. Тем не менее, текст является наиболее популярным средством обмена информацией. Возникающая необходимость автоматизации обработки текстов, а также применение методов машинного обучения, продвижение к цели создания искусственного интеллекта стимулируют развитие интеллектуального анализа текста.
Text mining (дословно «текстовая добыча», англ.) [2], разновидность Data mining - совокупность методов обнаружения неочевидных закономерностей и извлечения нетривиальной информации из текста. Цель - превратить неструктурированный текст в набор данных, которые могут быть интерпретированы компьютером. Далее, на основе структурированных данных, могут решаться задачи классификации и кластеризации документов, извлечение семантики текста, поиск в большом объеме данных. Примерами таких задач являются web-поиск, распознавание нежелательной почты (спама), определение темы и семантики документа, аннотирование документа, категоризация текстов, определение языка, статистическое прогнозирование и анализ социальной обстановки или рынков.
Методы text mining в данной работе основываются на латентно-семантическом анализе (ЛСА, либо латентно-семантическом индексировании - ЛСИ) [3]. ЛСА ищет и анализирует взаимосвязи между текстовыми документами.
Основная идея - понимание текстового документа как некоего семантического пространства. Вводится важное предположение: документ - это набор слов. Не имеет значения порядок слов, а только частота их упоминания.
После всех стадий очистки исходных текстов и извлечения признаков в данной работе будут сравнены методы классификации, основанные на методах машинного обучения «с учителем» и на ЛСА. Эти методы подразумевают построение моделей на признаках, принадлежность которых заранее известна. Данный подход называется обучением по прецедентам. Модели заключают в себя признаки, по которым происходит идентификация принадлежности документа к той или иной теме.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Алгоритмы, разработанные в данной работе, показали хорошие результаты классификации. Можно выделить два направления дальнейших исследований в области, связанной с ЛСА: совершенствование предварительной обработки текстов и извлечения индексируемых n-грамм в зависимости от конкретной области применения, а также адаптация других алгоритмов, основанных на методах машинного обучения, для решения задач связанных с классификацией документов.
Обработка текстов на естественном языке в совокупности с методами компьютерного распознавания речи и рукописных текстов только начали находить практическое применение и обладают огромным потенциалом для изучения и решения задач, которые казались фантазиями пару десятилетий назад.



[1] В.В. Стрижов: Информационное моделирование, конспект лекций, сингулярное разложение, 2007
[2] Ian H. Witten: Text mining, Computer Science, University of Waikato, Hamilton, New Zealand, 2003
[3] Scott Deerwester, Susan T. Dumais, Richard Harshman : Indexing by Latent Semantic Analysis, 1990
[4] http: //www.tfidf.com
[5] http://www.algorithmist.ru/2010/12/stop-symbols-in-russian.html
[6] http: //www. solarix.ru/for developers/api/lemmatizator-api. shtml
[7] http: //snowball. tartarus. org/al gorithms/russian/stemmer. html
[8] http://opencorpora.org


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ