Введение .................................3
Постановка задачи ..................6
Обзор литературы ...................8
Глава 1. Взаимная информация 11
Глава 2. Кластеризация ..........13
2.1. K - средних...................13
2.2. Information Bottleneck ...14
2.2.1 Алгоритм................................................15
2.2.2 Дивергенция Кульбака-Лейблера...........15
2.2.3 Дивергенция Дженсена-Шеннона...........16
Глава 3. Эксперименты и оценки результатов ...........17
3.1. Описание данных...........................................17
3.2. Предобработка данных...................................17
3.3. Выбор параметра в для Information Bottleneck 19
3.4. Тесты, направленные на оценку качества
кластеризации.............................................21
3.5. Тесты, направлены на проверку работы
взаимной информации в качестве
меры для вычисления важности слов..........22
3.6. Подходы к построению рефератов.......24
3.7. Алгоритм.............................................27.
3.8. Примеры построения рефератов..........29
3.9. Сравнение результатов реферирования 32
Заключение 36
Список литературы 37
Под рефератом или аннотацией будем понимать краткое изложение
текстового документа, передающее его основное содержание [17].
Выделение из огромных текстов основных мыслей и идей волновало
людей со времен возникновения книгопечатания. Но особенно задача
автоматического реферирования приобрела актуальность в наши дни,
в эпоху развития современных цифровых технологий, когда объемы
данных безостановочно растут. В частности, это касается новостных
сообщений, когда в многочисленных интернет- источниках ежедневно
появляются миллионы новых статей.
Существует несколько классификаций рефератов. По полноте
выделяются изложения информативные и индикативные [17]. Информативные
рефераты должны сжимать исходный текст, в них полно отражается
информация, излагаемая в оригинале, тем самым информативный
реферат заменяет исходный текст. Индикативные рефераты более
кратки, они должны предоставлять достаточно информации для
принятия решения, стоит ли обращаться первоисточнику, примерами
индикативных рефератов являются веб-
Для реферирования новостных сообщений часто применяется
многодокументное реферирование [8,17], когда реферат формируется
не по одному документу, а по группе документов, посвященных одной
теме или описывающих одно событие. В рамках такой задачи из
разных новостных сообщений выбираются важные фрагменты и
формируется один реферат, полно описывающий событие.
Существуют два основных подхода для решения задачи
автоматического реферирования [8]. Первый из них представляет из
себя извлечение из текстов наиболее важных предложений без
изменения самих предложений. А второй подход, в отличие от
простого извлечения, подразумевает под собой перефразирование
основных моментов, базируясь на более глубоком лингвистическом
семантическом анализе. Он лучше сокращает первоначальный текст,
но подобные системы намного сложнее разрабатывать, поэтому в ходе
исследований был рассмотрен первый вид автоматического реферирования,
основанный на выделении самых важных информативных частей текста.
Таким образом, все предложения одного документа делятся на
два класса: на важные и информативные, которые войдут в реферат, и
на те, чья важность незначительна. Такая задача решается с помощью
бинарного классификатора. Для реализации необходима обучающая
выборка с уже размеченными предложениями (метка «1», если
предложение подходит для реферата, метка «0» — если не подходит).
В виду отсутствия обучающей выборки и того, что на практике довольно
затруднительно получить уже размеченные данные для русскоязычных
статей, данная концепция не не подошла для решения задачи
автоматического реферирования в рамках данной исследовательской работы.
В основу работы легла идея о том, что важность предложения
напрямую зависит от важности входящих в него слов [9]. И прежде чем
составлять реферат, необходимо выделить наиболее важные,
полезные слова. В качестве меры полезности слова нередко
рассматривают частотные характеристики слов частота встречаемости слова и
обратная документная частота (TF-IDF) [3]. Но в ходе данной работы
полезность слов определялась с помощью такой меры как взаимная
информация, которой посвящена Глава 1.
Если рассмотреть две новостные статьи, принадлежащие разным
темам, то и важные слова для статей будут различаться, так как
каждая тематически ориентированная группа документов имеет
специализированные термины, которые в документах, относящихся к
другой группе, встречаются крайне редко или вовсе не встречаются.
Для выявления специализированных терминов необходимо сначала
разбить все документы на более узкие тематические группы -
кластеры, а затем, используя взаимную информацию между кластером
и словом в качестве меры полезности слова, извлекать наиболее
важные слова уже не для всей коллекции, а для группы документов,
объединенных в один кластер. Методам кластеризации посвящена
Глава 2, а сравнительный анализ результатов их работы на имеющихся
данных представлен в Главе 3.
В рамках данной выпускной квалификационной работы был
разработан алгоритм для построения рефератов к текстовым
документам. Также для решения задачи реферирования был
реализован метод кластеризации Information Bottleneck, который
справлялся с задачей кластеризации лучше метода К-средних.
Рефераты, построенные на основе данного алгоритма, имели
больший процент совпадений с «идеальными» рефератами, нежели
рефераты, полученные в ходе работы системы Рефератор-Visual World
(58% против 50%). Такие результаты открывают хорошую перспективу
на будущее. Имеет местоместо предположение, что дальнейшие
модификации алгоритма могут улучшить качество реферирования и
данный алгоритм найдет свое практическое применение в жизни и
будет весьма востребован и полезен.