Исследование методов машинного обучения для автоматического реферирования документов
|
Введение .................................3
Постановка задачи ..................6
Обзор литературы ...................8
Глава 1. Взаимная информация 11
Глава 2. Кластеризация ..........13
2.1. K - средних...................13
2.2. Information Bottleneck ...14
2.2.1 Алгоритм................................................15
2.2.2 Дивергенция Кульбака-Лейблера...........15
2.2.3 Дивергенция Дженсена-Шеннона...........16
Глава 3. Эксперименты и оценки результатов ...........17
3.1. Описание данных...........................................17
3.2. Предобработка данных...................................17
3.3. Выбор параметра в для Information Bottleneck 19
3.4. Тесты, направленные на оценку качества
кластеризации.............................................21
3.5. Тесты, направлены на проверку работы
взаимной информации в качестве
меры для вычисления важности слов..........22
3.6. Подходы к построению рефератов.......24
3.7. Алгоритм.............................................27.
3.8. Примеры построения рефератов..........29
3.9. Сравнение результатов реферирования 32
Заключение 36
Список литературы 37
Постановка задачи ..................6
Обзор литературы ...................8
Глава 1. Взаимная информация 11
Глава 2. Кластеризация ..........13
2.1. K - средних...................13
2.2. Information Bottleneck ...14
2.2.1 Алгоритм................................................15
2.2.2 Дивергенция Кульбака-Лейблера...........15
2.2.3 Дивергенция Дженсена-Шеннона...........16
Глава 3. Эксперименты и оценки результатов ...........17
3.1. Описание данных...........................................17
3.2. Предобработка данных...................................17
3.3. Выбор параметра в для Information Bottleneck 19
3.4. Тесты, направленные на оценку качества
кластеризации.............................................21
3.5. Тесты, направлены на проверку работы
взаимной информации в качестве
меры для вычисления важности слов..........22
3.6. Подходы к построению рефератов.......24
3.7. Алгоритм.............................................27.
3.8. Примеры построения рефератов..........29
3.9. Сравнение результатов реферирования 32
Заключение 36
Список литературы 37
Под рефератом или аннотацией будем понимать краткое изложение
текстового документа, передающее его основное содержание [17].
Выделение из огромных текстов основных мыслей и идей волновало
людей со времен возникновения книгопечатания. Но особенно задача
автоматического реферирования приобрела актуальность в наши дни,
в эпоху развития современных цифровых технологий, когда объемы
данных безостановочно растут. В частности, это касается новостных
сообщений, когда в многочисленных интернет- источниках ежедневно
появляются миллионы новых статей.
Существует несколько классификаций рефератов. По полноте
выделяются изложения информативные и индикативные [17]. Информативные
рефераты должны сжимать исходный текст, в них полно отражается
информация, излагаемая в оригинале, тем самым информативный
реферат заменяет исходный текст. Индикативные рефераты более
кратки, они должны предоставлять достаточно информации для
принятия решения, стоит ли обращаться первоисточнику, примерами
индикативных рефератов являются веб-
Для реферирования новостных сообщений часто применяется
многодокументное реферирование [8,17], когда реферат формируется
не по одному документу, а по группе документов, посвященных одной
теме или описывающих одно событие. В рамках такой задачи из
разных новостных сообщений выбираются важные фрагменты и
формируется один реферат, полно описывающий событие.
Существуют два основных подхода для решения задачи
автоматического реферирования [8]. Первый из них представляет из
себя извлечение из текстов наиболее важных предложений без
изменения самих предложений. А второй подход, в отличие от
простого извлечения, подразумевает под собой перефразирование
основных моментов, базируясь на более глубоком лингвистическом
семантическом анализе. Он лучше сокращает первоначальный текст,
но подобные системы намного сложнее разрабатывать, поэтому в ходе
исследований был рассмотрен первый вид автоматического реферирования,
основанный на выделении самых важных информативных частей текста.
Таким образом, все предложения одного документа делятся на
два класса: на важные и информативные, которые войдут в реферат, и
на те, чья важность незначительна. Такая задача решается с помощью
бинарного классификатора. Для реализации необходима обучающая
выборка с уже размеченными предложениями (метка «1», если
предложение подходит для реферата, метка «0» — если не подходит).
В виду отсутствия обучающей выборки и того, что на практике довольно
затруднительно получить уже размеченные данные для русскоязычных
статей, данная концепция не не подошла для решения задачи
автоматического реферирования в рамках данной исследовательской работы.
В основу работы легла идея о том, что важность предложения
напрямую зависит от важности входящих в него слов [9]. И прежде чем
составлять реферат, необходимо выделить наиболее важные,
полезные слова. В качестве меры полезности слова нередко
рассматривают частотные характеристики слов частота встречаемости слова и
обратная документная частота (TF-IDF) [3]. Но в ходе данной работы
полезность слов определялась с помощью такой меры как взаимная
информация, которой посвящена Глава 1.
Если рассмотреть две новостные статьи, принадлежащие разным
темам, то и важные слова для статей будут различаться, так как
каждая тематически ориентированная группа документов имеет
специализированные термины, которые в документах, относящихся к
другой группе, встречаются крайне редко или вовсе не встречаются.
Для выявления специализированных терминов необходимо сначала
разбить все документы на более узкие тематические группы -
кластеры, а затем, используя взаимную информацию между кластером
и словом в качестве меры полезности слова, извлекать наиболее
важные слова уже не для всей коллекции, а для группы документов,
объединенных в один кластер. Методам кластеризации посвящена
Глава 2, а сравнительный анализ результатов их работы на имеющихся
данных представлен в Главе 3.
текстового документа, передающее его основное содержание [17].
Выделение из огромных текстов основных мыслей и идей волновало
людей со времен возникновения книгопечатания. Но особенно задача
автоматического реферирования приобрела актуальность в наши дни,
в эпоху развития современных цифровых технологий, когда объемы
данных безостановочно растут. В частности, это касается новостных
сообщений, когда в многочисленных интернет- источниках ежедневно
появляются миллионы новых статей.
Существует несколько классификаций рефератов. По полноте
выделяются изложения информативные и индикативные [17]. Информативные
рефераты должны сжимать исходный текст, в них полно отражается
информация, излагаемая в оригинале, тем самым информативный
реферат заменяет исходный текст. Индикативные рефераты более
кратки, они должны предоставлять достаточно информации для
принятия решения, стоит ли обращаться первоисточнику, примерами
индикативных рефератов являются веб-
Для реферирования новостных сообщений часто применяется
многодокументное реферирование [8,17], когда реферат формируется
не по одному документу, а по группе документов, посвященных одной
теме или описывающих одно событие. В рамках такой задачи из
разных новостных сообщений выбираются важные фрагменты и
формируется один реферат, полно описывающий событие.
Существуют два основных подхода для решения задачи
автоматического реферирования [8]. Первый из них представляет из
себя извлечение из текстов наиболее важных предложений без
изменения самих предложений. А второй подход, в отличие от
простого извлечения, подразумевает под собой перефразирование
основных моментов, базируясь на более глубоком лингвистическом
семантическом анализе. Он лучше сокращает первоначальный текст,
но подобные системы намного сложнее разрабатывать, поэтому в ходе
исследований был рассмотрен первый вид автоматического реферирования,
основанный на выделении самых важных информативных частей текста.
Таким образом, все предложения одного документа делятся на
два класса: на важные и информативные, которые войдут в реферат, и
на те, чья важность незначительна. Такая задача решается с помощью
бинарного классификатора. Для реализации необходима обучающая
выборка с уже размеченными предложениями (метка «1», если
предложение подходит для реферата, метка «0» — если не подходит).
В виду отсутствия обучающей выборки и того, что на практике довольно
затруднительно получить уже размеченные данные для русскоязычных
статей, данная концепция не не подошла для решения задачи
автоматического реферирования в рамках данной исследовательской работы.
В основу работы легла идея о том, что важность предложения
напрямую зависит от важности входящих в него слов [9]. И прежде чем
составлять реферат, необходимо выделить наиболее важные,
полезные слова. В качестве меры полезности слова нередко
рассматривают частотные характеристики слов частота встречаемости слова и
обратная документная частота (TF-IDF) [3]. Но в ходе данной работы
полезность слов определялась с помощью такой меры как взаимная
информация, которой посвящена Глава 1.
Если рассмотреть две новостные статьи, принадлежащие разным
темам, то и важные слова для статей будут различаться, так как
каждая тематически ориентированная группа документов имеет
специализированные термины, которые в документах, относящихся к
другой группе, встречаются крайне редко или вовсе не встречаются.
Для выявления специализированных терминов необходимо сначала
разбить все документы на более узкие тематические группы -
кластеры, а затем, используя взаимную информацию между кластером
и словом в качестве меры полезности слова, извлекать наиболее
важные слова уже не для всей коллекции, а для группы документов,
объединенных в один кластер. Методам кластеризации посвящена
Глава 2, а сравнительный анализ результатов их работы на имеющихся
данных представлен в Главе 3.
В рамках данной выпускной квалификационной работы был
разработан алгоритм для построения рефератов к текстовым
документам. Также для решения задачи реферирования был
реализован метод кластеризации Information Bottleneck, который
справлялся с задачей кластеризации лучше метода К-средних.
Рефераты, построенные на основе данного алгоритма, имели
больший процент совпадений с «идеальными» рефератами, нежели
рефераты, полученные в ходе работы системы Рефератор-Visual World
(58% против 50%). Такие результаты открывают хорошую перспективу
на будущее. Имеет местоместо предположение, что дальнейшие
модификации алгоритма могут улучшить качество реферирования и
данный алгоритм найдет свое практическое применение в жизни и
будет весьма востребован и полезен.
разработан алгоритм для построения рефератов к текстовым
документам. Также для решения задачи реферирования был
реализован метод кластеризации Information Bottleneck, который
справлялся с задачей кластеризации лучше метода К-средних.
Рефераты, построенные на основе данного алгоритма, имели
больший процент совпадений с «идеальными» рефератами, нежели
рефераты, полученные в ходе работы системы Рефератор-Visual World
(58% против 50%). Такие результаты открывают хорошую перспективу
на будущее. Имеет местоместо предположение, что дальнейшие
модификации алгоритма могут улучшить качество реферирования и
данный алгоритм найдет свое практическое применение в жизни и
будет весьма востребован и полезен.
Подобные работы
- ДИСКУРСИВНЫЕ МАРКЕРЫ КАК СРЕДСТВО КЛАССИФИКАЦИИ
НОВОСТНЫХ ТЕКСТОВ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2020 - РАЗРАБОТКА СИСТЕМЫ ДЛЯ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ НОВОСТНЫХ ТЕКСТОВ
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4660 р. Год сдачи: 2021 - Методы автоматического реферирования текстов на русском языке
Магистерская диссертация, нейронные сети . Язык работы: Русский. Цена: 5450 р. Год сдачи: 2022 - Методы автоматического реферирования текстов на русском языке
Магистерская диссертация, филология. Язык работы: Русский. Цена: 4750 р. Год сдачи: 2022 - АВТОМАТИЧЕСКАЯ ГЕНЕРАЦИЯ НОВОСТНЫХ ЗАГОЛОВКОВ ПРИ ПОМОЩИ НЕЙРОННОЙ СЕТИ RuGPT-3
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 4770 р. Год сдачи: 2023 - Мультимодальное тематическое моделирование многоязычного корпуса общественно-политических текстов
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 4200 р. Год сдачи: 2022 - Автоматическое упрощение русскоязычных юридических текстов на основе извлечения фактической информации
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 4270 р. Год сдачи: 2023 - АВТОМАТИЗИРОВАННАЯ СИСТЕМА
СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ
ПРИ СОЗДАНИИ ЭЛЕКТРОННЫХ ФОНДОВ БИБЛИОТЕКИ
Диссертация , информационные системы. Язык работы: Русский. Цена: 5700 р. Год сдачи: 2003 - КЛАСТЕРИЗАЦИЯ ЯЗЫКОВЫХ ВЫРАЖЕНИЙ В КОРПУСЕ ТЕКСТОВ НА ОСНОВЕ СТОХАСТИЧЕСКОГО РАНЖИРОВАНИЯ
Магистерская диссертация, филология. Язык работы: Русский. Цена: 4840 р. Год сдачи: 2016





