Тема: КЛАСТЕРИЗАЦИЯ ЯЗЫКОВЫХ ВЫРАЖЕНИЙ В КОРПУСЕ ТЕКСТОВ НА ОСНОВЕ СТОХАСТИЧЕСКОГО РАНЖИРОВАНИЯ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ГЛАВА 1. ОСНОВНЫЕ ИДЕИ И МЕТОДЫ КЛАСТЕРНОГО АНАЛИЗА
1.1. История кластерного анализа
1.2. Кластеризация как нечеткая классификация
1.3. Алгоритмы кластерного анализа
1.4. Оценка качества кластеризации
1.5. Кластеризация в лингвистике
ГЛАВА 2. ЛИНГВИСТИЧЕСКИЕ ОСНОВАНИЯ АВТОМАТИЧЕСКОЙ КЛАСТЕРИЗАЦИИ ТЕКСТОВ ПО КЛЮЧЕВЫМ СЛОВАМ И КОНСТРУКЦИЯМ
2.1. Лингвистика конструкций и оценка связей в конструкциях
2.2. Автоматическое выделение ключевых слов в документах
ГЛАВА 3. АВТОМАТИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ ТЕКСТОВ В НОВОСТНОМ КОРПУСЕ С НАЗНАЧЕНИЕМ КЛЮЧЕВЫХ СЛОВ - МЕТОК КЛАСТЕРОВ
3.1. Общие положения
3.2. Кластеризация
3.3. Выделение ключевых слов
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
📖 Введение
Цель данной работы - решение задачи автоматической кластеризации новостных документов и расстановка списка тематических меток для каждого класса. В качестве тематических меток выделяются не только ключевые слова, но и биграммные конструкции, при этом учитывается степень связи элементов каждой биграммы.
Традиционные методы выделения тематических меток словам, отвечающим сразу нескольким классам ставят меньший вес, чем словам, характерным исключительно для данного класса. Для новостных документов это не вполне отвечает интуитивному представлению иерархии ключевых слов: такие темы, как война в Сирии, должны, как нам кажется, иметь больший вес, поскольку задают контекст всего документа или кластера. Поэтому в работе предлагается новый, двухэтапный подход к составлению списка тематических меток.
Работа состоит из трех глав в соответствии с решаемыми задачами.
Первая глава посвящена кластеризации. В ней определяются понятия классификации и кластеризации, описываются наиболее используемые методы кластерного анализа и предлагаются различные метрики для оценки качества кластеризации. В последнем разделе дается общий обзор применения методов кластеризации в лингвистических задачах.
Вторая глава описывает лингвистический контекст нашего исследования - грамматику конструкций. Это молодая отрасль науки, изучающая сложным образом организованные объекты языка, функционирующие как единое целое, и возникающие в ходе взаимодействия и взаимопроникновения явлений морфологического, синтаксического, семантического и других уровней языка. Теория, развитая в работах А. Стефановича и Ст. Гриса, используется в данной работе при извлечении осмысленных биграммых меток. В следующих разделах главы обозреваются научные работы в области проставления тематических меток и выделения ключевых слов.
Третья глава содержит эксперимент, соответствующий поставленной цели. Эксперимент проводится в несколько этапов. На первом этапе производится разделение документов на два кластера. На втором этапе выделяются ключевые слова, характерные для каждого кластера. На третьем этапе полученные списки ключевых слов расширяются биграммными конструкциями, и полученные конструкции оцениваются по степени тематической направленности. На четвертом этапе после повторной кластеризации небольшим группам документов проставляются тематические метки.
Для кластеризации документов используются методы, реализованные в библиотеке Scikit-learn языка Python. В ходе работы была написана программа, реализующая описанные эксперименты. Мы использовали наиболее популярные статистические критерии, необходимые для выделения ключевых слов и конструкций, описанные в монографии А.И. Кобзаря «Прикладная и математическая статистика».
Результаты, полученные в ходе выполнения данной работы, могут найти свое применение при разработке новостных порталов. Главная идея и отличительная особенность данной работы - двухэтапная кластеризация для выделения ключевых слов - основывается на идее условного разделения документов на два класса: «серьезные» и «несерьезные», лексика которых существенно отличается. Такое условие характерно именно для новостных корпусов.
Приступая к решению поставленных задач, отметим неоценимую помощь, оказанную доцентом кафедры математической лингвистики О.А. Митрофановой, при подготовке данной работы.
✅ Заключение
Мы считаем, что поставленная цель достигнута - документы кластеризованы, конструкции выделены, тематические метки расставлены. Развивая идеи Стефановича, мы смогли извлечь достаточно неплохие тематические конструкции, которые почти не требуют постобработки. Но это не значит, что на этом следует остановиться.
Полученные результаты можно назвать промежуточными и, в зависимости от дальнейшего направления работы, их можно адаптировать в ту или иную сторону, поэтому в программу уже заложена возможность тонкой настройки на всех уровнях работы.
В дальнейшем мы планируем приступить к разработке рекомендательных систем для сайта Рупостерс. После проведения дополнительных экспериментов и подготовки черновой версии алгоритма мы планируем связаться с руководителем портала и предложить внедрить алгоритм на сайт, но это потребует дополнительные ресурсы.
А данную работу можно считать оконченной.



