Введение .................................3
Постановка задачи ..................6
Обзор литературы ...................8
Глава 1. Взаимная информация 11
Глава 2. Кластеризация ..........13
2.1. K - средних...................13
2.2. Information Bottleneck ...14
2.2.1 Алгоритм................................................15
2.2.2 Дивергенция Кульбака-Лейблера...........15
2.2.3 Дивергенция Дженсена-Шеннона...........16
Глава 3. Эксперименты и оценки результатов ...........17
3.1. Описание данных...........................................17
3.2. Предобработка данных...................................17
3.3. Выбор параметра в для Information Bottleneck 19
3.4. Тесты, направленные на оценку качества
кластеризации.............................................21
3.5. Тесты, направлены на проверку работы
взаимной информации в качестве
меры для вычисления важности слов..........22
3.6. Подходы к построению рефератов.......24
3.7. Алгоритм.............................................27.
3.8. Примеры построения рефератов..........29
3.9. Сравнение результатов реферирования 32
Заключение 36
Список литературы 37
Под рефератом или аннотацией будем понимать краткое изложение
текстового документа, передающее его основное содержание [17].
Выделение из огромных текстов основных мыслей и идей волновало
людей со времен возникновения книгопечатания. Но особенно задача
автоматического реферирования приобрела актуальность в наши дни,
в эпоху развития современных цифровых технологий, когда объемы
данных безостановочно растут. В частности, это касается новостных
сообщений, когда в многочисленных интернет- источниках ежедневно
появляются миллионы новых статей.
Существует несколько классификаций рефератов. По полноте
выделяются изложения информативные и индикативные [17]. Информативные
рефераты должны сжимать исходный текст, в них полно отражается
информация, излагаемая в оригинале, тем самым информативный
реферат заменяет исходный текст. Индикативные рефераты более
кратки, они должны предоставлять достаточно информации для
принятия решения, стоит ли обращаться первоисточнику, примерами
индикативных рефератов являются веб-
Для реферирования новостных сообщений часто применяется
многодокументное реферирование [8,17], когда реферат формируется
не по одному документу, а по группе документов, посвященных одной
теме или описывающих одно событие. В рамках такой задачи из
разных новостных сообщений выбираются важные фрагменты и
формируется один реферат, полно описывающий событие.
Существуют два основных подхода для решения задачи
автоматического реферирования [8]. Первый из них представляет из
себя извлечение из текстов наиболее важных предложений без
изменения самих предложений. А второй подход, в отличие от
простого извлечения, подразумевает под собой перефразирование
основных моментов, базируясь на более глубоком лингвистическом
семантическом анализе. Он лучше сокращает первоначальный текст,
но подобные системы намного сложнее разрабатывать, поэтому в ходе
исследований был рассмотрен первый вид автоматического реферирования,
основанный на выделении самых важных информативных частей текста.
Таким образом, все предложения одного документа делятся на
два класса: на важные и информативные, которые войдут в реферат, и
на те, чья важность незначительна. Такая задача решается с помощью
бинарного классификатора. Для реализации необходима обучающая
выборка с уже размеченными предложениями (метка «1», если
предложение подходит для реферата, метка «0» — если не подходит).
В виду отсутствия обучающей выборки и того, что на практике довольно
затруднительно получить уже размеченные данные для русскоязычных
статей, данная концепция не не подошла для решения задачи
автоматического реферирования в рамках данной исследовательской работы.
В основу работы легла идея о том, что важность предложения
напрямую зависит от важности входящих в него слов [9]. И прежде чем
составлять реферат, необходимо выделить наиболее важные,
полезные слова. В качестве меры полезности слова нередко
рассматривают частотные характеристики слов частота встречаемости слова и
обратная документная частота (TF-IDF) [3]. Но в ходе данной работы
полезность слов определялась с помощью такой меры как взаимная
информация, которой посвящена Глава 1.
Если рассмотреть две новостные статьи, принадлежащие разным
темам, то и важные слова для статей будут различаться, так как
каждая тематически ориентированная группа документов имеет
специализированные термины, которые в документах, относящихся к
другой группе, встречаются крайне редко или вовсе не встречаются.
Для выявления специализированных терминов необходимо сначала
разбить все документы на более узкие тематические группы -
кластеры, а затем, используя взаимную информацию между кластером
и словом в качестве меры полезности слова, извлекать наиболее
важные слова уже не для всей коллекции, а для группы документов,
объединенных в один кластер. Методам кластеризации посвящена
Глава 2, а сравнительный анализ результатов их работы на имеющихся
данных представлен в Главе 3.
В рамках данной выпускной квалификационной работы был
разработан алгоритм для построения рефератов к текстовым
документам. Также для решения задачи реферирования был
реализован метод кластеризации Information Bottleneck, который
справлялся с задачей кластеризации лучше метода К-средних.
Рефераты, построенные на основе данного алгоритма, имели
больший процент совпадений с «идеальными» рефератами, нежели
рефераты, полученные в ходе работы системы Рефератор-Visual World
(58% против 50%). Такие результаты открывают хорошую перспективу
на будущее. Имеет местоместо предположение, что дальнейшие
модификации алгоритма могут улучшить качество реферирования и
данный алгоритм найдет свое практическое применение в жизни и
будет весьма востребован и полезен.
1. Браславский П., Густелев В. Система автоматического реферирования
новостных сообщений на основе машинного обучения.
URL: http://rcdl.ru/doc/2007/paper_54_v1. (дата обращения: 24.03.2018).
2. Кудряшов Б. Д. Теория информации. СПб:Питер, 2009. 320 с.
3. Маннинг К. Д., Рагхван П., Шютце Х. Введение в информационный
поиск. М.: Вильямс, 2011. 528 с.
4. Морфологический анализатор pymorphy2. URL:
http://pymorphy2.readthedocs.io (дата обращения: 10.04.2018).
5. Allahyari M., Pouriyeh S., Assefi M., Safaei S., Trippe E. D., Gutierrez
J.B., Kochut K. Text Summarization Techniques: A brief survey//
International Journal of Advanced Computer Science and Applications,
Vol. 8, No. 10. 2017. P. 397-405.
6. Edmundson H. New methods in automatic abstracting // Journal of the
ACM. Vol. 16, No 2. 1969. P. 264-285.
7. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning:
Data Mining, Inference, and Prediction. Second edition. New York:
Springer. 2017. 745 p.
8. Kumar Y. J., Goh O. S., Basiron H., Choon N. H., Suppiah P. C. A Review
on Automatic Text Summarization Approaches // Journal of Computer
Science. Vol. 12, No. 4. 2016. P. 178-190.
9. Luhn H. The automatic creation of literature abstracts // In IBM Journal
of Research and Development. Vol. 2, No 2. 1958. P. 159-165.
10. MirShojaee S. H., Masoumi B., Zeinali E. Biogeography-Based
Optimization Algorithm for Automatic Extractive Text Summarization. //
International Journal of Industrial Engineering & Production Research.
Vol. 28, No. 1. 2017. P. 75-84.
11. Neto J. L., Freitas A. A., Kaestner C. A. A. Automatic Text
Summarization using a Machine Learning Approach. 2002. URL:
https://www.cs.kent.ac.uk/people/staff/aaf/pub_papers.dir/SBIA-2002-
Joel.pdf (дата обращения: 24.02.2018).
12. NLTK. URL:https://www.nltk.org/ (дата обращения: 10.04.2018).
13. Sinha A., Yadav A., Gahlot A. Extractive Text Summarization using
Neural Networks// arxiv.org. 2018. Дата обновления: 27.02.2018. URL:
https://arxiv.org/ftp/arxiv/papers/1802/1802.10137.pdf (дата
обращения: 20.03.2018).
14. Slonim N. The Information Bottleneck: theory and applications. Doctor
of Philosophy thesis. The Hebrew University. 2002. 157 p.
15. scikit-learn. URL: http://scikit-learn.org (дата
обращения: 10.04.2018).
...