Тип работы:
Предмет:
Язык работы:


Исследование методов машинного обучения для автоматического реферирования документов

Работа №133450

Тип работы

Бакалаврская работа

Предмет

математика и информатика

Объем работы38
Год сдачи2018
Стоимость4650 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
76
Не подходит работа?

Узнай цену на написание


Введение .................................3
Постановка задачи ..................6
Обзор литературы ...................8
Глава 1. Взаимная информация 11
Глава 2. Кластеризация ..........13
2.1. K - средних...................13
2.2. Information Bottleneck ...14
2.2.1 Алгоритм................................................15
2.2.2 Дивергенция Кульбака-Лейблера...........15
2.2.3 Дивергенция Дженсена-Шеннона...........16
Глава 3. Эксперименты и оценки результатов ...........17
3.1. Описание данных...........................................17
3.2. Предобработка данных...................................17
3.3. Выбор параметра в для Information Bottleneck 19
3.4. Тесты, направленные на оценку качества
кластеризации.............................................21
3.5. Тесты, направлены на проверку работы
взаимной информации в качестве
меры для вычисления важности слов..........22
3.6. Подходы к построению рефератов.......24
3.7. Алгоритм.............................................27.
3.8. Примеры построения рефератов..........29
3.9. Сравнение результатов реферирования 32
Заключение 36
Список литературы 37

Под рефератом или аннотацией будем понимать краткое изложение
текстового документа, передающее его основное содержание [17].
Выделение из огромных текстов основных мыслей и идей волновало
людей со времен возникновения книгопечатания. Но особенно задача
автоматического реферирования приобрела актуальность в наши дни,
в эпоху развития современных цифровых технологий, когда объемы
данных безостановочно растут. В частности, это касается новостных
сообщений, когда в многочисленных интернет- источниках ежедневно
появляются миллионы новых статей.
Существует несколько классификаций рефератов. По полноте
выделяются изложения информативные и индикативные [17]. Информативные
рефераты должны сжимать исходный текст, в них полно отражается
информация, излагаемая в оригинале, тем самым информативный
реферат заменяет исходный текст. Индикативные рефераты более
кратки, они должны предоставлять достаточно информации для
принятия решения, стоит ли обращаться первоисточнику, примерами
индикативных рефератов являются веб-
Для реферирования новостных сообщений часто применяется
многодокументное реферирование [8,17], когда реферат формируется
не по одному документу, а по группе документов, посвященных одной
теме или описывающих одно событие. В рамках такой задачи из
разных новостных сообщений выбираются важные фрагменты и
формируется один реферат, полно описывающий событие.
Существуют два основных подхода для решения задачи
автоматического реферирования [8]. Первый из них представляет из
себя извлечение из текстов наиболее важных предложений без
изменения самих предложений. А второй подход, в отличие от
простого извлечения, подразумевает под собой перефразирование
основных моментов, базируясь на более глубоком лингвистическом
семантическом анализе. Он лучше сокращает первоначальный текст,
но подобные системы намного сложнее разрабатывать, поэтому в ходе
исследований был рассмотрен первый вид автоматического реферирования,
основанный на выделении самых важных информативных частей текста.
Таким образом, все предложения одного документа делятся на
два класса: на важные и информативные, которые войдут в реферат, и
на те, чья важность незначительна. Такая задача решается с помощью
бинарного классификатора. Для реализации необходима обучающая
выборка с уже размеченными предложениями (метка «1», если
предложение подходит для реферата, метка «0» — если не подходит).
В виду отсутствия обучающей выборки и того, что на практике довольно
затруднительно получить уже размеченные данные для русскоязычных
статей, данная концепция не не подошла для решения задачи
автоматического реферирования в рамках данной исследовательской работы.
В основу работы легла идея о том, что важность предложения
напрямую зависит от важности входящих в него слов [9]. И прежде чем
составлять реферат, необходимо выделить наиболее важные,
полезные слова. В качестве меры полезности слова нередко
рассматривают частотные характеристики слов частота встречаемости слова и
обратная документная частота (TF-IDF) [3]. Но в ходе данной работы
полезность слов определялась с помощью такой меры как взаимная
информация, которой посвящена Глава 1.
Если рассмотреть две новостные статьи, принадлежащие разным
темам, то и важные слова для статей будут различаться, так как
каждая тематически ориентированная группа документов имеет
специализированные термины, которые в документах, относящихся к
другой группе, встречаются крайне редко или вовсе не встречаются.
Для выявления специализированных терминов необходимо сначала
разбить все документы на более узкие тематические группы -
кластеры, а затем, используя взаимную информацию между кластером
и словом в качестве меры полезности слова, извлекать наиболее
важные слова уже не для всей коллекции, а для группы документов,
объединенных в один кластер. Методам кластеризации посвящена
Глава 2, а сравнительный анализ результатов их работы на имеющихся
данных представлен в Главе 3.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной выпускной квалификационной работы был
разработан алгоритм для построения рефератов к текстовым
документам. Также для решения задачи реферирования был
реализован метод кластеризации Information Bottleneck, который
справлялся с задачей кластеризации лучше метода К-средних.
Рефераты, построенные на основе данного алгоритма, имели
больший процент совпадений с «идеальными» рефератами, нежели
рефераты, полученные в ходе работы системы Рефератор-Visual World
(58% против 50%). Такие результаты открывают хорошую перспективу
на будущее. Имеет местоместо предположение, что дальнейшие
модификации алгоритма могут улучшить качество реферирования и
данный алгоритм найдет свое практическое применение в жизни и
будет весьма востребован и полезен.


1. Браславский П., Густелев В. Система автоматического реферирования
новостных сообщений на основе машинного обучения.
URL: http://rcdl.ru/doc/2007/paper_54_v1. (дата обращения: 24.03.2018).
2. Кудряшов Б. Д. Теория информации. СПб:Питер, 2009. 320 с.
3. Маннинг К. Д., Рагхван П., Шютце Х. Введение в информационный
поиск. М.: Вильямс, 2011. 528 с.
4. Морфологический анализатор pymorphy2. URL:
http://pymorphy2.readthedocs.io (дата обращения: 10.04.2018).
5. Allahyari M., Pouriyeh S., Assefi M., Safaei S., Trippe E. D., Gutierrez
J.B., Kochut K. Text Summarization Techniques: A brief survey//
International Journal of Advanced Computer Science and Applications,
Vol. 8, No. 10. 2017. P. 397-405.
6. Edmundson H. New methods in automatic abstracting // Journal of the
ACM. Vol. 16, No 2. 1969. P. 264-285.
7. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning:
Data Mining, Inference, and Prediction. Second edition. New York:
Springer. 2017. 745 p.
8. Kumar Y. J., Goh O. S., Basiron H., Choon N. H., Suppiah P. C. A Review
on Automatic Text Summarization Approaches // Journal of Computer
Science. Vol. 12, No. 4. 2016. P. 178-190.
9. Luhn H. The automatic creation of literature abstracts // In IBM Journal
of Research and Development. Vol. 2, No 2. 1958. P. 159-165.
10. MirShojaee S. H., Masoumi B., Zeinali E. Biogeography-Based
Optimization Algorithm for Automatic Extractive Text Summarization. //
International Journal of Industrial Engineering & Production Research.
Vol. 28, No. 1. 2017. P. 75-84.
11. Neto J. L., Freitas A. A., Kaestner C. A. A. Automatic Text
Summarization using a Machine Learning Approach. 2002. URL:
https://www.cs.kent.ac.uk/people/staff/aaf/pub_papers.dir/SBIA-2002-
Joel.pdf (дата обращения: 24.02.2018).
12. NLTK. URL:https://www.nltk.org/ (дата обращения: 10.04.2018).
13. Sinha A., Yadav A., Gahlot A. Extractive Text Summarization using
Neural Networks// arxiv.org. 2018. Дата обновления: 27.02.2018. URL:
https://arxiv.org/ftp/arxiv/papers/1802/1802.10137.pdf (дата
обращения: 20.03.2018).
14. Slonim N. The Information Bottleneck: theory and applications. Doctor
of Philosophy thesis. The Hebrew University. 2002. 157 p.
15. scikit-learn. URL: http://scikit-learn.org (дата
обращения: 10.04.2018).
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ