Тип работы:
Предмет:
Язык работы:


Автоматическая классификация новостей из коллекции Reuters в таксономию IPTC

Работа №92160

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы34
Год сдачи2016
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
59
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 6
1 Подготовка данных 9
1.1. Извлечение данных о таксономии и построение графа .... 9
1.2. Предварительная обработка 10
1.3. Векторная модель данных 11
1.4. Расширение описаний узлов 12
2 Классификация документов без учителя 14
2.1. Метод k-средних 16
2.2. Латентное размещение Дирихле 17
2.3. Построение отображения документов в таксономию 19
2.3.1. Косинусная мера 19
2.3.2. Дивергенция Дженсена-Шеннона 20
3 Реализация и эксперимент 21
3.1. Реализация автоматического классификатора 21
3.1.1. Алгоритм классификации на основе k-means 22
3.1.2. Алгоритм классификации на основе LDA 24
3.2. Эксперимент 26
3.3. Выводы из эксперимента 30
3.4. Дальнейшее направление исследования 31
Заключение 32
Список литературы 33

В настоящее время количество информации в свободном доступе уве­личивается колоссальными темпами. Для упрощения навигации среди этих данных используют информационно-поисковые системы, методы ранжи­рования, рекомендательные системы и многое другое. Одним из подходов для упорядочения данных является построение каталога тем, рубрикато­ра, предметного указателя — это всё синонимы в рассматриваемом контек­сте. В каждой книге для удобства поиска нужной информации существует оглавление. Подобная иерархическая структура часто используется и для навигации на сайтах.
В сфере новостей проблема автоматической классификации особенно актуальна. Для повышения удобства читателей новостные сайты встраива­ют разделение новостей на рубрики и регионы. Самым тривиальным спосо­бом присвоения темы документу является ручная разметка тем. При таком подходе появляется ряд проблем. Во-первых, такая разметка будет весьма субъективна даже в пределах одного новостного ресурса. Журналисты мо­гут по-разному воспринимать темы, к тому же могут допустить ошибку. Во-вторых, у каждого новостного агентства могут быть свои собственные наборы рубрик, что приведет к сложностям при создании рубрикатора но­востным агрегатором.
Для решения данной проблемы может применяться автоматическая классификация в единую систему классов. Одной из таких систем являет­ся таксономия IPTC — таксономия медиа-тематик, предназначенная для упрощения обмена новостными данными. Международный совет по прессе и телекоммуникациям (англ. International Press Telecommunications Council, IPTC) — консорциум крупнейших мировых новостных агентств и дру­гих поставщиков новостей. IPTC выступает в качестве глобального орга­на стандартизации СМИ. Структура таксономии новостных тем является иерархической. Более детальное описание структуры можно увидеть в раз­деле 1.1. Существует два основных подхода для категоризации текстовых документов. Первый основан на изучении связей слов в предложении, ис­пользовании тезариуса языка и онтологии предметных областей. Второй подход рассматривает каждое слово или N-грамму как независимую еди­ницу текста. В данной работе используется второй подход.
Новостные статьи и структуру таксономии сначала необходимо пред­ставить в пригодном для анализа виде. В работе используется модель век­торного представления данных (англ. Vector Space Model, VSM). Об этом и о другой предварительной обработке данных речь пойдет в Главе 1.
Особенностью данной работы является отсутствие обучающей выбор­ки. По этой причине становится невозможным использование классических классификаторов, таких как, наивный классификатор Байеса или метод k ближайших соседей. Для решения задачи используется кластеризация но­востной коллекции с дальнейшим сопоставлением каждого кластера бли­жайшему в семантическом смысле узлу иерархической структуры. Пере­численные задачи рассматриваются в Главе 2.
В Главе 3 формально описываются разработанные алгоритмы авто­матической классификации. Эксперимент и проверка качества проведен­ной работы также описываются в третьей главе. В качестве тестовой кол­лекции была выбрана широко известная коллекция Reuters-21578. Коллек­ция состоит из новостей, опубликованных агентством новостей Reuters в 1987 г. Reuters — британская организация, основанная в 1851 г., является одним из ведущих поставщиков финансовой информации, а также новостей на общественно-политические темы...

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В работе была поставлена задача разработать автоматический клас­сификатор для новостных статей. Эта задача актуальна в связи с большим ростом данных и информационной потребностью интернет-пользователей. Для решения задачи были рассмотрены и реализованы метод кластери­зации k-средних и латентное размещение Дирихле. Также были разрабо­таны алгоритмы для построения отображения документов в таксономию медиа-тематик IPTC. Алгоритм, основанный на методе k-средних, показал лучшие результаты. Дальнейшие модификации этого метода могут приве­сти к большей точности классификатора, а значит, могут быть включены в основной инструментарий новостных агентств и агрегаторов.


[1] Малахов Д. П. Методы автоматической рубрикации текстовых доку­ментов предметной области // Научный семинар Института системного программирования РАН, 2015
[2] Bacan H., Pandzic I., Gulija D. Automated News Item Categorization // Proceedings of JSAI 2005 Workshop on Conversational Informatics, in conjunction with the 19th Annual Conference of The Japanese Society for Artificial Intelligence JSAI 2005 Kitakyushu, Japan: Kyoto University, 2005. P. 57-62.
[3] Janik M., Kochut K. J. Wikipedia in action: Ontological knowledge in text categorization //Semantic Computing, 2008 IEEE International Conference on. - IEEE, 2008. P. 268-275.
[4] Wermter S., Hung C. Selforganizing classification on the Reuters news corpus // The 19th International Conference on Computational Linguistics (COLING2002), Taipei, Taiwan, 2002. P. 1086-1092.
[5] Загоруйко Н.Г., Барахнин В.Б., Борисова И.А., Ткачев Д.А. Класте­ризация текстовых документов из электронной базы публикаций алго­ритмом FRiS-Tax // Вычислительные технологии. 2013. Т. 18. № 6. С. 62-74.
[6] Media Topics. https://iptc.org/standards/media-topics/
[7] The Porter Stemming Algorithm. http://tartarus.org/martin/PorterStemmer/
[8] Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск // М: Вильямс, 2011. С. 353-359.
[9] Воронцов К. В., Потапенко А. А. Регуляризация вероятностных тема­тических моделей для повышения интерпретируемости и определения числа тем // Компьютерная лингвистика и интеллектуальные техноло­гии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4-8 июня 2014 г.). — Вып. 13 (20). М: Изд-во РГГУ, 2014. С. 676-687.
[10] Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter // Proceedings of Advances in Neural Information Processing Systems, 2009.
[11] Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Proceedings of Frontiers of Computer Science in China. 2010, P. 280-301.
[12] Де Гроот М. Оптимальные статистические решения. М.: Мир, 1974. С. 56-58.
[13] Вероятностные тематические модели коллекций текстовых до­кументов. http://www.machinelearning.ru/wiki/images/c/c2/Vorontsov- 2apr2012.pdf
[14] Louis A., Nenkova A. Automatic Summary Evaluation without Human Models // Notebook Papers and Results, Text Analysis Conference (TAC- 2008), Gaithersburg, Maryland (USA), 2008.
[15] Chang J., Boyd-Graber J., Gerrish S., Wang C., Blei D. Reading tea leaves: How humans interpret topic models. In Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, and A. Culotta, editors // Advances in Neural Information Processing Systems 22, 2009. P. 288-296...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ