Тип работы:
Предмет:
Язык работы:


Автоматическое выявление и расшифровка аббревиатур и сокращений в тексте

Работа №138598

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы32
Год сдачи2016
Стоимость4270 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
10
Не подходит работа?

Узнай цену на написание


Принятые сокращения и обозначения 4
Введение 5
1 О задаче 6
1.1. Постановка задачи
1.2. Сокращения
1.3. Корпус документов
1.4. Анализ задачи
1.5. Обзор литературы
2 Подготовка данных для решения задачи 12.
2.2. Создание матрицы соседства
2.3. Bag-of-words
2.4. Представление текста для word2vec
3 Поиск сокращений 14
3.1. Понятие энтропии
3.2. Матрица соседства
4 Word2vec 16
4.1. Семантическая близость
4.2. Принцип работы
4.3. Архитектуры
5 LDA 19
5.1. Алгоритм генерации
5.2. Сэмплирование по Гиббсу
6 LDA и word2vec 22
6.1 Отличия
6.2 Совместное использование
7 Программная реализация 24
7.1 Используемые инструменты
7.2 Описание обработанных данных
27.3 Описание процесса работы
8 Эксперименты 26
8.1. Поиск сокращений
8.2. Поиск полной формы сокращения
8.3. Оценка качеств моделей
Выводы 29
Заключение 30
Список литературы 31
Приложение

В современном мире, возникает все больше документации в электронном виде. Отчеты, договоры и другие виды документов стало гораздо проще и удобнее хранить. Все это представляет интерес для анализа. Объемы данных не позволяют проводить этот анализ вручную, поэтому разрабатываются алгоритмы и методы для машинного решения этой задачи.
Однако многогранность и сложность естественных языков, делает извлечение информации из текстов нетривиальной и трудоемкой работой,
требующей предварительной обработки. Возникает целый спектр задач по
предобработке документов. Например, удаление знаков препинания, изменение форм слов, приведение их к определенному виду. В частности, одной
из таких проблем является раскрытие сокращений. В тексте возможны ситуации, когда слово встречается некоторое количество раз в своей полной
форме, а далее применяется в сокращенной, подразумевая, что читатель
сможет по контексту определить каждое слово. Для корректного анализа
текстов требуется научиться раскрывать сокращения. Также решение этой
задачи может быть полезно при чтении текста пользователем, в случае,
если ему понадобиться помощь в понимании сокращений

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В работе была рассмотрена задача нахождения и раскрытия сокращений в корпусе документов РОМИП. Был построен словарь уникальных слов в начальной форме с их частотами встречаемости в корпусе.
Рассмотрен способ нахождения сокращений с помощью выделения орфографических и семантических особенностей. При этом орфографические
особенности были получены с помощью регулярных выражений на основе классификации сокращений. Для нахождения семантических особенностей была выдвинута гипотеза об информации содержащейся в частотных
векторах соседей. В качестве меры информации принята энтропия. Изучен подход word2vec для анализа текста. Также исследована гетерогенная
модель тематического моделирования LDA. Рассмотрен гибридный алгоритм для совместного использования моделей word2vec и LDA. Разработана программа-прототип для нахождения и раскрытия сокращений, успешно решающий первую задачу и дающий контекстную информацию для решения второй задачи.


1] Blei D. Latent Dirichlet Alloacation
[2] Blei D., Chang J., Gerrish S., Wang C., Boyd-Graber J. L., Reading
Tea Leaves: How Humans Interpret Topic Models // Advances in Neural
Information Processing Systems 22,2009.P.288-296
[3] Heinrich G. Parameter estimation for text analysis
[4] Jenkins K. Deciphering Journal Abbreviations with JAbbr
[5] Manning C. Introduction to information retrieval
[6] Mikolov, T. Efficient Estimation of Word Representations in Vector Space
[Electronic resourse]/ T. Mikolov, K.Chen, G. Corrado, J. Dean // arXiv.org
– 2013 – URL: http://arxiv.org/pdf/1301.3781v3.pdf (date of access:
09.05.2016)
[7] Mikolov, T. Distributed Representations of Words and Phrases and their
Compositionality / T. Mikolov, I. Sutskever, K.Chen, G. S Corrado, J. Dean
// Advances in Neural Information Processing Systems. – 2013 – P. 31113119
[8] Moody C. http://www.slideshare.net/ChristopherMoody3/word2vec-ldaand-introducing-a-new-hybrid-algorithm-lda2vec-57135994
[9] Shannon C. A Mathematical Theory of Communication//Bell System
Technical Journal 27. - 1948. 379-423
[10] Воронцов К.В. Вероятностное тематическое моделирование. http://www.machinelearning.ru/wiki/images/f/fb/Voron-MLTopicModels.pdf
[11] Мильчин Ф.Э. Справочник издателя и автора. // М.:ОЛМА-Пресс,2003
— 800с. ISBN 5-224-04565-7
[12] Словарь сокращений. www.sokr.ru/

Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ