Интеллектуальный анализ текста - одно из направлений в технологиях искусственного интеллекта, задачей которого является обработка текстов на естественном языке (далее - текст). По сравнению с информацией, хранящейся в базе данных, естественный язык отличается неструктурированностью, неупорядоченностью, аморфностью. Алгоритмически он мало пригоден. Тем не менее, текст является наиболее популярным средством обмена информацией. Возникающая необходимость автоматизации обработки текстов, а также применение методов машинного обучения, продвижение к цели создания искусственного интеллекта стимулируют развитие интеллектуального анализа текста.
Text mining (дословно «текстовая добыча», англ.) [2], разновидность Data mining - совокупность методов обнаружения неочевидных закономерностей и извлечения нетривиальной информации из текста. Цель - превратить неструктурированный текст в набор данных, которые могут быть интерпретированы компьютером. Далее, на основе структурированных данных, могут решаться задачи классификации и кластеризации документов, извлечение семантики текста, поиск в большом объеме данных. Примерами таких задач являются web-поиск, распознавание нежелательной почты (спама), определение темы и семантики документа, аннотирование документа, категоризация текстов, определение языка, статистическое прогнозирование и анализ социальной обстановки или рынков.
Методы text mining в данной работе основываются на латентно-семантическом анализе (ЛСА, либо латентно-семантическом индексировании - ЛСИ) [3]. ЛСА ищет и анализирует взаимосвязи между текстовыми документами.
Основная идея - понимание текстового документа как некоего семантического пространства. Вводится важное предположение: документ - это набор слов. Не имеет значения порядок слов, а только частота их упоминания.
После всех стадий очистки исходных текстов и извлечения признаков в данной работе будут сравнены методы классификации, основанные на методах машинного обучения «с учителем» и на ЛСА. Эти методы подразумевают построение моделей на признаках, принадлежность которых заранее известна. Данный подход называется обучением по прецедентам. Модели заключают в себя признаки, по которым происходит идентификация принадлежности документа к той или иной теме.
Алгоритмы, разработанные в данной работе, показали хорошие результаты классификации. Можно выделить два направления дальнейших исследований в области, связанной с ЛСА: совершенствование предварительной обработки текстов и извлечения индексируемых n-грамм в зависимости от конкретной области применения, а также адаптация других алгоритмов, основанных на методах машинного обучения, для решения задач связанных с классификацией документов.
Обработка текстов на естественном языке в совокупности с методами компьютерного распознавания речи и рукописных текстов только начали находить практическое применение и обладают огромным потенциалом для изучения и решения задач, которые казались фантазиями пару десятилетий назад.
[1] В.В. Стрижов: Информационное моделирование, конспект лекций, сингулярное разложение, 2007
[2] Ian H. Witten: Text mining, Computer Science, University of Waikato, Hamilton, New Zealand, 2003
[3] Scott Deerwester, Susan T. Dumais, Richard Harshman : Indexing by Latent Semantic Analysis, 1990
[4] http: //www.tfidf.com
[5] http://www.algorithmist.ru/2010/12/stop-symbols-in-russian.html
[6] http: //www. solarix.ru/for developers/api/lemmatizator-api. shtml
[7] http: //snowball. tartarus. org/al gorithms/russian/stemmer. html
[8] http://opencorpora.org