Автоматическое составление обзора важнейших событий на основе анализа русскоязычных новостных лент

Содержание

Введение 4
Постановка задачи 6
Глава 1. Кластеризация 7
1.1. Постановка задачи кластеризации 7
1.2. Обзор существующих методов кластеризации 8
1.3. Иерархические алгоритмы кластеризации 8
1.4. Статические и вероятностные методы кластеризации (метод k-means) 11
1.5. Графовые методы кластеризации 13
1.5.1. Метод Walktrap 14
1.5.2. Метод Infomap 16
1.6. Метод главных компонент 17
Глава 2. Составление обзора событий 21
2.1. TextRank 21
2.2. Алгоритмы, основанные на деревьях принятия решений 22
2.2.1. Постановка задачи классификации 22
2.2.2. Общая схема работы методов, основанных на деревьях решений 23
2.2.3. Алгоритм ID3 24
2.2.4. Алгоритм C4.5 25
2.2.5. Алгоритм CART 26
Глава 3. Практическая часть 28
3.1. Кластеризация 28
3.2. Составление обзора 38
Выводы 57
Заключение 58
Список литературы 59
Приложение отсутствует

Введение

За последние десятилетие произошел стремительный рост
количества электронных новостных ресурсов. C каждым днём количество
информации только увеличивается. Крупнейшие социальные сети, СМИ,
исследовательские сообщества ежедневно пополняют интернет новой
информацией. Количество информации неуклонно растет и обрабатывать
её вручную невозможно, да и человеческих ресурсов потребовалось бы
слишком много. Это привело к тому, что человек уже не в состоянии
проанализировать множество имеющихся новостных потоков. Разработка
методов для автоматической обработки информации позволяет сократить
объём информационного потока до разумных размеров. С применением
автоматического анализа, человеку не требуется просматривать огромное
количество новостных материалов для того, чтобы оставаться в курсе
последних событий. Таким образом, задача автоматической обработки
новостных статей является востребованной и актуальной. Анализ текстов
на естественном языке представляет собой задачу обработки
неструктурированной информации. Обнаружением скрытых зависимостей
и извлечением полезных сведений из больших объёмов информации
занимаются специалисты области data mining. Одним из популярных
подразделов data mining является текстовый анализ (text mining).
Популярность текстового анализа обусловлена увеличивающимися
объемами информации на естественном языке и возможностью их
обработки. Text mining производит анализ текстовой информации с
помощью математических методов. Типичными задачами
интеллектуального анализа текстов являются:
● задачи классификации и кластеризации данных;
● нахождение шаблонов данных;
● построение иерархии объектов;
● определение тематики и тональности текстов;
● автоматическое автореферирование документов;
● извлечение фактов и понятий;
● и многие другие.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

В результате выполнения данной работы была разработана
программа, которая составляет обзор событий для имеющейся коллекции
русскоязычных новостных документов. Кроме этого были размечены
тестовая выборка для оценки качества кластеризации и обучающая
выборка предложений для классификации, а также рассмотрены
популярные алгоритмы машинного обучения. Для достижения
поставленной цели дополнительно был изучен язык программирования
Python и некоторые его библиотеки.
В дальнейшем планируется составлять обзор событий для коллекции
новостных публикаций, полученной с различных новостных порталов, что
подразумевает дублирование ряда новостей.
С исходным кодом разработанной программы можно ознакомиться
по ссылке https://github.com/anastasia2145/vkr.git

Литература

1) Мандель И. Д. Кластерный анализ. — М.: Финансы и Статистика, 1988
2) Воронцов К.В. Методы кластеризации: курс лекций. Режим доступа:
http://www.machinelearning.ru/wiki/ (дата обращения 31.03.17)
3) Segaran T. Programming Collective Intelligence. Sebastool: O’RELLY,
2008. 368 p.
4) Van Rijsbergen, C. J., ‘Information Retrieval’, London, 1979
5) Киселев М. В. Пивоваров В. С. Шмулевич М. М. Метод
кластеризации текстов, учитывающий совместную встречаемость
ключевых терминов, и его применение к анализу тематической
структуры новостного потока, а также ее динамики.
6) Stuart P. Lloyd Least Squares Quantization in PCM
7) Arthur D., Vassilvitskii S. K-means++: the advantages of careful seeding
/ SODA’07 Proceedings of the Eighteenth Annual ACM-SIAM
Symposium on Discrete Algorithms. — CityPhiladelphia, StatePA:
placecountry-regionSIAM Press. — 2007. — P. 1027–1035.
8) Pons P., Latapy M. Computing communities in large networks using
random walks // Computer and Information Sciences-ISCIS. 2005. P. 284–293.
9) Joe H. Ward Hierarchical grouping to optimize an objective function //
Journal of the American statistical association, 58(301):236–244, 1963.
10) Rosvall M., Axelsson D., Bergstrom C. T. The map equation // The
European Physical Journal Special Topics. 2009. Vol. 178, No 1. P. 13–23.
11) Левитин А. В. Жажные методы: Алгоритм Хаффмана //
Алгоритмы. Введение в разработку и анализ. М.: Вильямс, 2006 С. 392-398
12) Tipping M., Bishop C. Probabilistic Principal Component Analysis //
Journal of the Royal Statistical Society, Series B, 61, Part 3, P. 611-622
13) Гантмахер Ф. Р . Теория матриц. — М.: Наука, 1966. С. 576
14) Mihalcea R., Tarau P. TextRank: Bringing Order into Texts, 2004
15) Усталов Д. А. Извлечение терминов из русскоязычных текстов
при помощи графовых моделей , 2012
...