📄Работа №131292

Тема: Автоматическое определение автора текста на основе распределения частот буквосочетаний

📝

Тип работы Бакалаврская работа

📚

Предмет Информатика и вычислительная техника

📄

Объем: 29 листов

📅

Год: 2016

👁️

4310 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 4
1. Постановка задачи 6
2. Обзор существующих аналогов 7
3. Описание используемого метода 9
4. Тестовые данные 11
5. Решение задачи классификации 14
6. Решение задачи кластеризации 21
7. Заключение 26
Список литературы

📖 Введение

В связи с увеличением доступности и распространения текстовых документов в электронной форме увеличилась важность использования автоматических методов для анализа содержания документов. К задачам анализа текста можно отнести задачи классификации и кластеризации документов по различным критериям, например, жанру, эпохе написания, формату (роман, эссе, очерк), эмоциональной окраске, стилю речи, а также задачу определения автора текста.
С упрощением доступа к различным данным, расширением возможности поиска, копирования и распространения данных в сетях становится актуальной задача идентификации автора. Равным образом, вопросы, связанные с установлением авторства, являются важными в лингвистических, исторических и криминалистических исследованиях. Общедоступность электронных устройств позволяет отодвинуть распознавание автора с привлечением большого числа экспертов на второй план, ускорить и упростить этот процесс посредством его автоматизации.
Понятие идентификация автора определяется как процесс установления автора по множеству общих и частных признаков текста, составляющих авторский стиль.[6]
В существующих системах определения авторства текста пользуются популярностью статистические методы, основанные на поиске «авторского инварианта». «Авторский инвариант» характеризует языковую особенность (лексическую, грамматическую, фразеологическую и другую) текста. В качестве инварианта могут выступать: доля гласных или согласных, частота употребления определенной части речи, вероятность переходов от одной части речи к другой, «любимые» слова, информационная энтропия и так далее. В 2010 году, Ю.Н. Орловым и К.П. Осмининым был предложен статистический метод определения автора и жанра текста, основанный на распределении частот буквосочетаний (n-грамм)[7],[8]. Этот метод показал достойные результаты для произведений русской литературы. К сожалению, точность статистических методов определения авторства сильно зависит от специфики используемых данных: от языка, на котором написаны тексты, от стиля речи текста, и, прежде всего, от длин текстов, на которых проводят исследование. В силу этого затруднительно делать вывод о точности такого подхода на данных другой природы. По этой причине целью настоящей работы являлся анализ применимости такого математического аппарата, как распределение частот буквосочетаний для разных языков при решении задачи установления авторства текстов, имеющих различные длины и написанных в разном стиле речи.
Данное исследование не предполагает решение задачи идентификации автора в полном объеме по той причине, что отличие авторских черт носит субъективный характер и зависит от ограничений, накладываемых на творческий процесс автора. Однако в итоге программная система, реализующая подобные методы, способна давать рекомендации о возможном авторстве текста

✅ Заключение

В результате проделанной работы была создана программная реализация алгоритма для автоматической идентификации автора текста в электронной форме. Программа использовала алгоритм, в основе которого лежал метод, который в своей работе[7] описали Ю.Н. Орлов и К.П. Осминин.
Программа была реализована на языке программирования Python с использованием оптимизированных библиотек. Программа содержит следующие основные модули: модуль загрузки текстов, модуль обработки тексов, модуль классификации, 3 модуля кластризации, соответствующие выбранным алгоритмам, модуль сбора статистики по набору текстов (характеристики текстов, характеристики распределений расстояний между текстами и другие), модуль оценки кластеризации, тестировочный модуль и другие вспомогательные модули. Система имеет гибкую программную архитектуру, представляющую возможность
быстро подменять/добавлять алгоритмы классификации и кластеризации, изменять порядок n (n-грамм) и другие параметры. Была проведена настройка системы для работы с русскими, английскими, немецкими
текстами. В качестве данных для тестирования были взяты литературные произведения на соответствующих языках и публицистические англоязычные тексты. Было проведено порядка 200 экспериментов для
анализа работы алгоритма для решения задачи классификации.
Были выявлены зависимости точности классификации от длин используемых текстов, числа тренировочных (эталонных) данных, числа распознаваемых авторов.
Также была реализована функциональность кластеризации входного множества документов с использованием алгоритмов кластеризации K-Means, Global K-Means, PAM. Была произведена оценка результатов кластеризации с помощью метрик Rand Index, NMI, F-Measure, Purity measure.
Таким образом, проведенный анализ работы метода на основе распределения частот буквосочетаний для решения задачи установления авторства показал, что метод дает довольно хорошие результаты не только на длинных, но и на достаточно коротких текстах, что выгодно отличает его от большинства других методов. Ограничением этого метода при установлении авторства небольших текстов является низкая разделительная способность в случае большого числа авторов (высокая точность достигается не более чем на 10 авторах). К ограничениям также можно отнести требуемое количество тренировочных данных, которое является достаточно большим.
Для увеличения показателей точности алгоритма при решении задачи классификации можно предложить использование текстов приблизительно одинаковых длин. Таким образом, если тексты имеют большой
разброс в длинах, то сокращение длин текстов до приемлемой длины (10 000 - 20 000 символов) может улучшить качество классификации.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

[1] A. Likasa N. Vlassisb J. J. Verbeekb. The global k-means clustering
algorithm. –– Pattern Recognition, Vol. 36(2), 2003.
[2] A. P. Reynolds G. Richards, Rayward-Smith V. J. The Application of
K-medoids and PAM to the Clustering of Rules. –– Lecture Notes in
Computer Science, Vol. 3177, 2004.
[3] Balani Naveen. Evaluation of clustering. ––
http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-ofclustering-1.html : Cambridge University Press, 2009.
[4] Reuter_50_50 Data Set. –– archive.ics.uci.edu/ml/datasets/Reuter_50_50,
2011.
[5] Teknomo K. K-Means Clustering Tutorials. –– people.revoledu.com
tutorial 2007.
[6] А.С. Романов. Методика и программный комплекс для идентификации автора неизвестного текста. –– 2010.
[7] Борисов Л.А. Орлов Ю.Н. Осминин К.П. Идентификация автора
текста по распределению частот буквосочетаний. –– Прикладная
информатика Т. 26. No 2. С. 95-108, 2013.
[8] Орлов Ю.Н. Осминин К.П. Определение жанра и автора литературного произведения статистическими методами. ––
http://library.keldysh.ru/preprint.asp?id=2013-27 : Препринты ИПМ
им.М.В.Келдыша No27. 26с, 2010.
[9] Орлов Ю.Н. Осминин К.П. Методы статистического анализа литературных текстов. –– ЭдиториалУРСС/Книжныйдом «ЛИБРОКОМ», 2012.
[10] Павлов В.А. Дюрдева П.С. Шалымов Д.С. Кластеризация русскоязычных рукописей на основе графа отношения особенностей. ––
Компьютерные инструменты в образовании № 1: 24–35, 2016.
28[11] Т.В. Батура. Формальные методы определения авторства текстов. –– SSN 1818-7900. Вестник НГУ. Серия Информационные технологии. Том 10, выпуск 4, 2012

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @disshelp_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210603)

Статьи

»» Все статьи

Вход в личный кабинет