Введение 4
1. Постановка задачи 6
2. Обзор существующих аналогов 7
3. Описание используемого метода 9
4. Тестовые данные 11
5. Решение задачи классификации 14
6. Решение задачи кластеризации 21
7. Заключение 26
Список литературы
В связи с увеличением доступности и распространения текстовых документов в электронной форме увеличилась важность использования автоматических методов для анализа содержания документов. К задачам анализа текста можно отнести задачи классификации и кластеризации документов по различным критериям, например, жанру, эпохе написания, формату (роман, эссе, очерк), эмоциональной окраске, стилю речи, а также задачу определения автора текста.
С упрощением доступа к различным данным, расширением возможности поиска, копирования и распространения данных в сетях становится актуальной задача идентификации автора. Равным образом, вопросы, связанные с установлением авторства, являются важными в лингвистических, исторических и криминалистических исследованиях. Общедоступность электронных устройств позволяет отодвинуть распознавание автора с привлечением большого числа экспертов на второй план, ускорить и упростить этот процесс посредством его автоматизации.
Понятие идентификация автора определяется как процесс установления автора по множеству общих и частных признаков текста, составляющих авторский стиль.[6]
В существующих системах определения авторства текста пользуются популярностью статистические методы, основанные на поиске «авторского инварианта». «Авторский инвариант» характеризует языковую особенность (лексическую, грамматическую, фразеологическую и другую) текста. В качестве инварианта могут выступать: доля гласных или согласных, частота употребления определенной части речи, вероятность переходов от одной части речи к другой, «любимые» слова, информационная энтропия и так далее. В 2010 году, Ю.Н. Орловым и К.П. Осмининым был предложен статистический метод определения автора и жанра текста, основанный на распределении частот буквосочетаний (n-грамм)[7],[8]. Этот метод показал достойные результаты для произведений русской литературы. К сожалению, точность статистических методов определения авторства сильно зависит от специфики используемых данных: от языка, на котором написаны тексты, от стиля речи текста, и, прежде всего, от длин текстов, на которых проводят исследование. В силу этого затруднительно делать вывод о точности такого подхода на данных другой природы. По этой причине целью настоящей работы являлся анализ применимости такого математического аппарата, как распределение частот буквосочетаний для разных языков при решении задачи установления авторства текстов, имеющих различные длины и написанных в разном стиле речи.
Данное исследование не предполагает решение задачи идентификации автора в полном объеме по той причине, что отличие авторских черт носит субъективный характер и зависит от ограничений, накладываемых на творческий процесс автора. Однако в итоге программная система, реализующая подобные методы, способна давать рекомендации о возможном авторстве текста
В результате проделанной работы была создана программная реализация алгоритма для автоматической идентификации автора текста в электронной форме. Программа использовала алгоритм, в основе которого лежал метод, который в своей работе[7] описали Ю.Н. Орлов и К.П. Осминин.
Программа была реализована на языке программирования Python с использованием оптимизированных библиотек. Программа содержит следующие основные модули: модуль загрузки текстов, модуль обработки тексов, модуль классификации, 3 модуля кластризации, соответствующие выбранным алгоритмам, модуль сбора статистики по набору текстов (характеристики текстов, характеристики распределений расстояний между текстами и другие), модуль оценки кластеризации, тестировочный модуль и другие вспомогательные модули. Система имеет гибкую программную архитектуру, представляющую возможность
быстро подменять/добавлять алгоритмы классификации и кластеризации, изменять порядок n (n-грамм) и другие параметры. Была проведена настройка системы для работы с русскими, английскими, немецкими
текстами. В качестве данных для тестирования были взяты литературные произведения на соответствующих языках и публицистические англоязычные тексты. Было проведено порядка 200 экспериментов для
анализа работы алгоритма для решения задачи классификации.
Были выявлены зависимости точности классификации от длин используемых текстов, числа тренировочных (эталонных) данных, числа распознаваемых авторов.
Также была реализована функциональность кластеризации входного множества документов с использованием алгоритмов кластеризации K-Means, Global K-Means, PAM. Была произведена оценка результатов кластеризации с помощью метрик Rand Index, NMI, F-Measure, Purity measure.
Таким образом, проведенный анализ работы метода на основе распределения частот буквосочетаний для решения задачи установления авторства показал, что метод дает довольно хорошие результаты не только на длинных, но и на достаточно коротких текстах, что выгодно отличает его от большинства других методов. Ограничением этого метода при установлении авторства небольших текстов является низкая разделительная способность в случае большого числа авторов (высокая точность достигается не более чем на 10 авторах). К ограничениям также можно отнести требуемое количество тренировочных данных, которое является достаточно большим.
Для увеличения показателей точности алгоритма при решении задачи классификации можно предложить использование текстов приблизительно одинаковых длин. Таким образом, если тексты имеют большой
разброс в длинах, то сокращение длин текстов до приемлемой длины (10 000 - 20 000 символов) может улучшить качество классификации.
[1] A. Likasa N. Vlassisb J. J. Verbeekb. The global k-means clustering
algorithm. –– Pattern Recognition, Vol. 36(2), 2003.
[2] A. P. Reynolds G. Richards, Rayward-Smith V. J. The Application of
K-medoids and PAM to the Clustering of Rules. –– Lecture Notes in
Computer Science, Vol. 3177, 2004.
[3] Balani Naveen. Evaluation of clustering. ––
http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-ofclustering-1.html : Cambridge University Press, 2009.
[4] Reuter_50_50 Data Set. –– archive.ics.uci.edu/ml/datasets/Reuter_50_50,
2011.
[5] Teknomo K. K-Means Clustering Tutorials. –– people.revoledu.com
tutorial 2007.
[6] А.С. Романов. Методика и программный комплекс для идентификации автора неизвестного текста. –– 2010.
[7] Борисов Л.А. Орлов Ю.Н. Осминин К.П. Идентификация автора
текста по распределению частот буквосочетаний. –– Прикладная
информатика Т. 26. No 2. С. 95-108, 2013.
[8] Орлов Ю.Н. Осминин К.П. Определение жанра и автора литературного произведения статистическими методами. ––
http://library.keldysh.ru/preprint.asp?id=2013-27 : Препринты ИПМ
им.М.В.Келдыша No27. 26с, 2010.
[9] Орлов Ю.Н. Осминин К.П. Методы статистического анализа литературных текстов. –– ЭдиториалУРСС/Книжныйдом «ЛИБРОКОМ», 2012.
[10] Павлов В.А. Дюрдева П.С. Шалымов Д.С. Кластеризация русскоязычных рукописей на основе графа отношения особенностей. ––
Компьютерные инструменты в образовании № 1: 24–35, 2016.
28[11] Т.В. Батура. Формальные методы определения авторства текстов. –– SSN 1818-7900. Вестник НГУ. Серия Информационные технологии. Том 10, выпуск 4, 2012