Введение 4
Постановка задачи 6
Глава 1. Кластеризация 7
1.1. Постановка задачи кластеризации 7
1.2. Обзор существующих методов кластеризации 8
1.3. Иерархические алгоритмы кластеризации 8
1.4. Статические и вероятностные методы кластеризации (метод k-means) 11
1.5. Графовые методы кластеризации 13
1.5.1. Метод Walktrap 14
1.5.2. Метод Infomap 16
1.6. Метод главных компонент 17
Глава 2. Составление обзора событий 21
2.1. TextRank 21
2.2. Алгоритмы, основанные на деревьях принятия решений 22
2.2.1. Постановка задачи классификации 22
2.2.2. Общая схема работы методов, основанных на деревьях решений 23
2.2.3. Алгоритм ID3 24
2.2.4. Алгоритм C4.5 25
2.2.5. Алгоритм CART 26
Глава 3. Практическая часть 28
3.1. Кластеризация 28
3.2. Составление обзора 38
Выводы 57
Заключение 58
Список литературы 59
Приложение отсутствует
За последние десятилетие произошел стремительный рост
количества электронных новостных ресурсов. C каждым днём количество
информации только увеличивается. Крупнейшие социальные сети, СМИ,
исследовательские сообщества ежедневно пополняют интернет новой
информацией. Количество информации неуклонно растет и обрабатывать
её вручную невозможно, да и человеческих ресурсов потребовалось бы
слишком много. Это привело к тому, что человек уже не в состоянии
проанализировать множество имеющихся новостных потоков. Разработка
методов для автоматической обработки информации позволяет сократить
объём информационного потока до разумных размеров. С применением
автоматического анализа, человеку не требуется просматривать огромное
количество новостных материалов для того, чтобы оставаться в курсе
последних событий. Таким образом, задача автоматической обработки
новостных статей является востребованной и актуальной. Анализ текстов
на естественном языке представляет собой задачу обработки
неструктурированной информации. Обнаружением скрытых зависимостей
и извлечением полезных сведений из больших объёмов информации
занимаются специалисты области data mining. Одним из популярных
подразделов data mining является текстовый анализ (text mining).
Популярность текстового анализа обусловлена увеличивающимися
объемами информации на естественном языке и возможностью их
обработки. Text mining производит анализ текстовой информации с
помощью математических методов. Типичными задачами
интеллектуального анализа текстов являются:
● задачи классификации и кластеризации данных;
● нахождение шаблонов данных;
● построение иерархии объектов;
● определение тематики и тональности текстов;
● автоматическое автореферирование документов;
● извлечение фактов и понятий;
● и многие другие.
В результате выполнения данной работы была разработана
программа, которая составляет обзор событий для имеющейся коллекции
русскоязычных новостных документов. Кроме этого были размечены
тестовая выборка для оценки качества кластеризации и обучающая
выборка предложений для классификации, а также рассмотрены
популярные алгоритмы машинного обучения. Для достижения
поставленной цели дополнительно был изучен язык программирования
Python и некоторые его библиотеки.
В дальнейшем планируется составлять обзор событий для коллекции
новостных публикаций, полученной с различных новостных порталов, что
подразумевает дублирование ряда новостей.
С исходным кодом разработанной программы можно ознакомиться
по ссылке https://github.com/anastasia2145/vkr.git