Тема: Автоматическая классификация новостей из коллекции Reuters в таксономию IPTC
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Обзор литературы 6
1 Подготовка данных 9
1.1. Извлечение данных о таксономии и построение графа .... 9
1.2. Предварительная обработка 10
1.3. Векторная модель данных 11
1.4. Расширение описаний узлов 12
2 Классификация документов без учителя 14
2.1. Метод k-средних 16
2.2. Латентное размещение Дирихле 17
2.3. Построение отображения документов в таксономию 19
2.3.1. Косинусная мера 19
2.3.2. Дивергенция Дженсена-Шеннона 20
3 Реализация и эксперимент 21
3.1. Реализация автоматического классификатора 21
3.1.1. Алгоритм классификации на основе k-means 22
3.1.2. Алгоритм классификации на основе LDA 24
3.2. Эксперимент 26
3.3. Выводы из эксперимента 30
3.4. Дальнейшее направление исследования 31
Заключение 32
Список литературы 33
📖 Введение
В сфере новостей проблема автоматической классификации особенно актуальна. Для повышения удобства читателей новостные сайты встраивают разделение новостей на рубрики и регионы. Самым тривиальным способом присвоения темы документу является ручная разметка тем. При таком подходе появляется ряд проблем. Во-первых, такая разметка будет весьма субъективна даже в пределах одного новостного ресурса. Журналисты могут по-разному воспринимать темы, к тому же могут допустить ошибку. Во-вторых, у каждого новостного агентства могут быть свои собственные наборы рубрик, что приведет к сложностям при создании рубрикатора новостным агрегатором.
Для решения данной проблемы может применяться автоматическая классификация в единую систему классов. Одной из таких систем является таксономия IPTC — таксономия медиа-тематик, предназначенная для упрощения обмена новостными данными. Международный совет по прессе и телекоммуникациям (англ. International Press Telecommunications Council, IPTC) — консорциум крупнейших мировых новостных агентств и других поставщиков новостей. IPTC выступает в качестве глобального органа стандартизации СМИ. Структура таксономии новостных тем является иерархической. Более детальное описание структуры можно увидеть в разделе 1.1. Существует два основных подхода для категоризации текстовых документов. Первый основан на изучении связей слов в предложении, использовании тезариуса языка и онтологии предметных областей. Второй подход рассматривает каждое слово или N-грамму как независимую единицу текста. В данной работе используется второй подход.
Новостные статьи и структуру таксономии сначала необходимо представить в пригодном для анализа виде. В работе используется модель векторного представления данных (англ. Vector Space Model, VSM). Об этом и о другой предварительной обработке данных речь пойдет в Главе 1.
Особенностью данной работы является отсутствие обучающей выборки. По этой причине становится невозможным использование классических классификаторов, таких как, наивный классификатор Байеса или метод k ближайших соседей. Для решения задачи используется кластеризация новостной коллекции с дальнейшим сопоставлением каждого кластера ближайшему в семантическом смысле узлу иерархической структуры. Перечисленные задачи рассматриваются в Главе 2.
В Главе 3 формально описываются разработанные алгоритмы автоматической классификации. Эксперимент и проверка качества проведенной работы также описываются в третьей главе. В качестве тестовой коллекции была выбрана широко известная коллекция Reuters-21578. Коллекция состоит из новостей, опубликованных агентством новостей Reuters в 1987 г. Reuters — британская организация, основанная в 1851 г., является одним из ведущих поставщиков финансовой информации, а также новостей на общественно-политические темы...





