Тип работы:
Предмет:
Язык работы:


Автоматическое выявление и расшифровка аббревиатур и сокращений в тексте

Работа №76730

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы32
Год сдачи2016
Стоимость4310 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
26
Не подходит работа?

Узнай цену на написание


Принятые сокращения и обозначения 4
Введение 5
1 О задаче 6
1.1. Постановка задачи 6
1.2. Сокращения 6
1.3. Корпус документов 7
1.4. Анализ задачи 7
1.5. Обзор литературы 10
2 Подготовка данных для решения задачи 12
2.1. Чтение корпуса документов 12
2.2. Создание матрицы соседства 12
2.3. Bag-of-words 13
2.4. Представление текста для word2vec 13
3 Поиск сокращений 14
3.1. Понятие энтропии 14
3.2. Матрица соседства 15
4 Word2vec 16
4.1. Семантическая близость 16
4.2. Принцип работы 17
4.3. Архитектуры 18
5 LDA 19
5.1. Алгоритм генерации 19
5.2. Сэмплирование по Гиббсу 20
6 LDA и word2vec 22
6.1 Отличия 22
6.2 Совместное использование 23
7 Программная реализация 24
7.1 Используемые инструменты 24
7.2 Описание обработанных данных 24
7.3 Описание процесса работы 25
8 Эксперименты 26
8.1. Поиск сокращений 26
8.2. Поиск полной формы сокращения 27
8.3. Оценка качеств моделей 28
Выводы 29
Заключение 30
Список литературы 31
Приложение

В современном мире, возникает все больше документации в электронном виде. Отчеты, договоры и другие виды документов стало гораздо проще и удобнее хранить. Все это представляет интерес для анализа. Объемы данных не позволяют проводить этот анализ вручную, поэтому разрабатываются алгоритмы и методы для машинного решения этой задачи.
Однако многогранность и сложность естественных языков, делает извлечение информации из текстов нетривиальной и трудоемкой работой, требующей предварительной обработки. Возникает целый спектр задач по предобработке документов. Например, удаление знаков препинания, изменение форм слов, приведение их к определенному виду. В частности, одной из таких проблем является раскрытие сокращений. В тексте возможны ситуации, когда слово встречается некоторое количество раз в своей полной форме, а далее применяется в сокращенной, подразумевая, что читатель сможет по контексту определить каждое слово. Для корректного анализа текстов требуется научиться раскрывать сокращения. Также решение этой задачи может быть полезно при чтении текста пользователем, в случае, если ему понадобиться помощь в понимании сокращений.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В работе была рассмотрена задача нахождения и раскрытия сокращений в корпусе документов РОМИП. Был построен словарь уникальных слов в начальной форме с их частотами встречаемости в корпусе. Рассмотрен способ нахождения сокращений с помощью выделения орфографических и семантических особенностей. При этом орфографические особенности были получены с помощью регулярных выражений на основе классификации сокращений. Для нахождения семантических особенностей была выдвинута гипотеза об информации содержащейся в частотных векторах соседей. В качестве меры информации принята энтропия. Изучен подход word2vec для анализа текста. Также исследована гетерогенная модель тематического моделирования LDA. Рассмотрен гибридный алгоритм для совместного использования моделей word2vec и LDA. Разработана программа-прототип для нахождения и раскрытия сокращений, успешно решающий первую задачу и дающий контекстную информацию для решения второй задачи.


[1] Blei D. Latent Dirichlet Alloacation
[2] Blei D., Chang J., Gerrish S., Wang C., Boyd-Graber J. L., Reading Tea Leaves: How Humans Interpret Topic Models // Advances in Neural Information Processing Systems 22,2009.P.288-296
[3] Heinrich G. Parameter estimation for text analysis
[4] Jenkins K. Deciphering Journal Abbreviations with JAbbr
[5] Manning C. Introduction to information retrieval
[6] Mikolov, T. Efficient Estimation of Word Representations in Vector Space [Electronic resourse]/ T. Mikolov, K.Chen, G. Corrado, J. Dean // arXiv.org
- 2013 - URL: http://arxiv.org/pdf/1301.3781v3.pdf (date of access: 09.05.2016)
[7] Mikolov, T. Distributed Representations of Words and Phrases and their Compositionality / T. Mikolov, I. Sutskever, K.Chen, G. S Corrado, J. Dean // Advances in Neural Information Processing Systems. - 2013 - P. 3111¬3119
[8] Moody C. http://www.slideshare.net/ChristopherMoody3/word2vec-lda- and-introducing-a-new-hybrid-algorithm-lda2vec-57135994
[9] Shannon C. A Mathematical Theory of Communication//Bell System Technical Journal 27. - 1948. 379-423
[10] Воронцов К.В. Вероятностное тематическое моделирование. http://www.machinelearning.ru/wiki/images/f/fb/Voron-ML-
TopicModels.pdf
[11] Мильчин Ф.Э. Справочник издателя и автора. // М.:ОЛМА-Пресс,2003
— 800с. ISBN 5-224-04565-7
[12] Словарь сокращений. www.sokr.ru/

Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ