📄Работа №134691

Тема: Автоматическая классификация новостей из коллекции Reuters в таксономию IPTC

📝

Тип работы Бакалаврская работа

📚

Предмет Информатика и вычислительная техника

📄

Объем: 34 листов

📅

Год: 2016

👁️

4300 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
Постановка задачи 5
Обзор литературы 6
1 Подготовка данных 9
1.1. Извлечение данных о таксономии и построение графа . . . . 9
1.2. Предварительная обработка . . . . . . . . . . . . . . . . . . . 10
1.3. Векторная модель данных . . . . . . . . . . . . . . . . . . . . 11
1.4. Расширение описаний узлов . . . . . . . . . . . . . . . . . . . 12
2 Классификация документов без учителя 14
2.1. Метод k-средних . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2. Латентное размещение Дирихле . . . . . . . . . . . . . . . . 17
2.3. Построение отображения документов в таксономию . . . . . 19
2.3.1. Косинусная мера . . . . . . . . . . . . . . . . . . . . . 19
2.3.2. Дивергенция Дженсена–Шеннона . . . . . . . . . . . 20
3 Реализация и эксперимент 21
3.1. Реализация автоматического классификатора . . . . . . . . . 21
3.1.1. Алгоритм классификации на основе k-means . . . . . 22
3.1.2. Алгоритм классификации на основе LDA
3.2. Эксперимент
3.3. Выводы из эксперимента
3.4. Дальнейшее направление исследования .
Заключение 32
Список литературы

📖 Введение

В настоящее время количество информации в свободном доступе увеличивается колоссальными темпами. Для упрощения навигации среди этих
данных используют информационно-поисковые системы, методы ранжирования, рекомендательные системы и многое другое. Одним из подходов
для упорядочения данных является построение каталога тем, рубрикатора, предметного указателя — это всё синонимы в рассматриваемом контексте. В каждой книге для удобства поиска нужной информации существует
оглавление. Подобная иерархическая структура часто используется и для
навигации на сайтах.
В сфере новостей проблема автоматической классификации особенно
актуальна. Для повышения удобства читателей новостные сайты встраивают разделение новостей на рубрики и регионы. Самым тривиальным способом присвоения темы документу является ручная разметка тем. При таком
подходе появляется ряд проблем. Во-первых, такая разметка будет весьма
субъективна даже в пределах одного новостного ресурса. Журналисты могут по-разному воспринимать темы, к тому же могут допустить ошибку.
Во-вторых, у каждого новостного агентства могут быть свои собственные
наборы рубрик, что приведет к сложностям при создании рубрикатора новостным агрегатором.
Для решения данной проблемы может применяться автоматическая
классификация в единую систему классов. Одной из таких систем является таксономия IPTC — таксономия медиа-тематик, предназначенная для
упрощения обмена новостными данными. Международный совет по прессе
и телекоммуникациям (англ. International Press Telecommunications Council,
IPTC) — консорциум крупнейших мировых новостных агентств и дру-
3гих поставщиков новостей. IPTC выступает в качестве глобального органа стандартизации СМИ. Структура таксономии новостных тем является
иерархической. Более детальное описание структуры можно увидеть в разделе 1.1. Существует два основных подхода для категоризации текстовых
документов. Первый основан на изучении связей слов в предложении, использовании тезариуса языка и онтологии предметных областей. Второй
подход рассматривает каждое слово или N-грамму как независимую единицу текста. В данной работе используется второй подход.
Новостные статьи и структуру таксономии сначала необходимо представить в пригодном для анализа виде. В работе используется модель векторного представления данных (англ. Vector Space Model, VSM). Об этом
и о другой предварительной обработке данных речь пойдет в Главе 1.
Особенностью данной работы является отсутствие обучающей выборки. По этой причине становится невозможным использование классических
классификаторов, таких как, наивный классификатор Байеса или метод k
ближайших соседей. Для решения задачи используется кластеризация новостной коллекции с дальнейшим сопоставлением каждого кластера ближайшему в семантическом смысле узлу иерархической структуры. Перечисленные задачи рассматриваются в Главе 2.
В Главе 3 формально описываются разработанные алгоритмы автоматической классификации. Эксперимент и проверка качества проведенной работы также описываются в третьей главе. В качестве тестовой коллекции была выбрана широко известная коллекция Reuters-21578. Коллекция состоит из новостей, опубликованных агентством новостей Reuters в 1987 г. Reuters — британская организация, основанная в 1851 г., является одним из ведущих поставщиков финансовой информации, а также новостей
на общественно-политические темы.

✅ Заключение

В работе была поставлена задача разработать автоматический классификатор для новостных статей. Эта задача актуальна в связи с большим
ростом данных и информационной потребностью интернет-пользователей.
Для решения задачи были рассмотрены и реализованы метод кластеризации k-средних и латентное размещение Дирихле. Также были разработаны алгоритмы для построения отображения документов в таксономию
медиа-тематик IPTC. Алгоритм, основанный на методе k-средних, показал
лучшие результаты. Дальнейшие модификации этого метода могут привести к большей точности классификатора, а значит, могут быть включены
в основной инструментарий новостных агентств и агрегаторов.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

[1] Малахов Д. П. Методы автоматической рубрикации текстовых документов предметной области // Научный семинар Института системного
программирования РАН, 2015
[2] Bacan H., Pandzic I., Gulija D. Automated News Item Categorization
// Proceedings of JSAI 2005 Workshop on Conversational Informatics, in
conjunction with the 19th Annual Conference of The Japanese Society for
Artifcial Intelligence JSAI 2005 Kitakyushu, Japan: Kyoto University, 2005.
P. 57–62.
[3] Janik M., Kochut K. J. Wikipedia in action: Ontological knowledge in text
categorization //Semantic Computing, 2008 IEEE International Conference
on. – IEEE, 2008. P. 268-275.
[4] Wermter S., Hung C. Selforganizing classifcation on the Reuters news
corpus // The 19th International Conference on Computational Linguistics
(COLING2002), Taipei, Taiwan, 2002. P. 1086-1092.
[5] Загоруйко Н.Г., Барахнин В.Б., Борисова И.А., Ткачев Д.А. Кластеризация текстовых документов из электронной базы публикаций алгоритмом FRiS-Tax // Вычислительные технологии. 2013. Т. 18. № 6. С.
62-74.
[6] Media Topics. https://iptc.org/standards/media-topics/
[7] The Porter Stemming Algorithm. http://tartarus.org/martin/PorterStemmer/
[8] Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный
поиск // М: Вильямс, 2011. С. 353-359.
33[9] Воронцов К. В., Потапенко А. А. Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения
числа тем // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог»
(Бекасово, 4–8 июня 2014 г.). — Вып. 13 (20). М: Изд-во РГГУ, 2014. С.
676–687.
[10] Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter
// Proceedings of Advances in Neural Information Processing Systems,
2009.
[11] Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through
directed probabilistic topic models: a survey // Proceedings of Frontiers of
Computer Science in China. 2010, P. 280-301.
[12] Де Гроот М. Оптимальные статистические решения. М.: Мир, 1974. С.
56-58.
[13] Вероятностные тематические модели коллекций текстовых документов. http://www.machinelearning.ru/wiki/images/c/c2/Vorontsov-
2apr2012.pdf
[14] Louis A., Nenkova A. Automatic Summary Evaluation without Human
Models // Notebook Papers and Results, Text Analysis Conference (TAC-
2008), Gaithersburg, Maryland (USA), 2008.
[15] Chang J., Boyd-Graber J., Gerrish S., Wang C., Blei D. Reading tea
leaves: How humans interpret topic models. In Y. Bengio, D. Schuurmans,
J. Laﬀerty, C. K. I. Williams, and A. Culotta, editors // Advances in Neural
Information Processing Systems 22, 2009. P. 288–296.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210037)

Статьи

»» Все статьи

Вход в личный кабинет