Введение
ГЛАВА 1. ФОРМАЛЬНЫЕ МОДЕЛИ И МЕТОДЫ ИЗВЛЕЧЕНИЯ ТЕРМИНОВ В ПРЕДМЕТНЫХ ОБЛАСТЯХ 4
1.1 Существующие подходы извлечения ключевых слов 4
1.2 Выбор подхода 4
1.3 Rake 5
1.4 RuT ermExtract 6
1.4 Оценки точности 6
ГЛАВА 2. РЕАЛИЗАЦИЯ ИНСТРУМЕНТАЛЬНОЙ СИСТЕМЫ ... 8
2.1 Архитектура инструментальной системы 8
2.2 Создание тематических словарей 9
2.3 Коллекция медицинских документов 12
2.4 Предварительная обработка текста 12
2.5 Выделение кандидатов 14
2.6 Выделение ключевых слов 17
2.7 Семантический классификатор 19
2.8 Имплементация других алгоритмов 21
2.9 Разработка интерфейса пользователя 24
ГЛАВА 3. ЭКСПЕРИМЕНТЫ 28
3.1 Точность 28
3.2 Семантические классы 28
ЗАКЛЮЧЕНИЕ 30
СПИСОК ЛИТЕРАТУРЫ 31
Приложение А 32
Приложение Б 34
Приложение В
Извлечение ключевых слов чаще всего определяется как задача выделения набора терминов, которая лучше всего описывает содержание документа.
Это важная проблема, которая затрагивает такие области знания как интеллектуальный анализ текста (Text Mining, TM), информационный поиск (Information Retrieval, IR) и обработка естественного языка (Natural Language Processing, NLP) [1]. На данный момент существует большое количество методов выделения ключевых слов, разработано множество алгоритмов и систем, которые работают с текстами и решают точно поставленные задачи.
Актуальность данной работы заключается в том, что выделение терминологии в медицинских документах является очень сложной и трудоемкой задачей. Для упрощения данной деятельности следует использовать специально разработанное программное обеспечение. Но систем выделяющих медицинскую терминологию для русского языка не существует.
Целью данной дипломной работы является создание инструментальной системы для анализа и тестирования алгоритмов извлечения ключевых слов из текстовых документов. Для достижения этой цели были поставлены следующие задачи:
1. Анализ существующих алгоритмов извлечения терминологии
2. Анализ существующих метрик для оценивания алгоритмов извлечения
3. Семантическая классификация выделенных терминов предметной области
4. Тестирование на подготовленных коллекциях
Объектом исследования является методы обработки естественного языка и извлечения ключевых слов.
Предметом исследования является создание инструментальной системы для анализа и тестирования алгоритмов извлечения ключевых слов.
В настоящей работе была создана инструментальная система для анализа и тестирования алгоритмов извлечения ключевых слов из текстовых документов, выявлены подходы и методы извлечения ключевых слов, которые были бы продуктивны в решения поставленной задачи.
Разработан улучшенный алгоритм извлечения ключевых слов TPE, основанный на подходе, который выделяет в качестве ключевых слов именные группы, содержащие медицинскую терминологию.
Проведены эксперименты, которые показали большую продуктивность разработанного алгоритма по сравнению с другими изученными алгоритмами.
Инструментальная система, разработанная в ходе выполнения работы, при реализации большего числа алгоритмов может стать полезным и эффективным инструментом для тестирования и сравнения продуктивности алгоритмов. Компонент классификации представляет большую помощь в семантическом анализе коллекции и при должной доработке может использоваться для построения медицинской онтологии.
1. Beliga, S., Keyword Extraction: A Review of Methods and Approaches // University of Rijeka, Rijeka. - 2014.
2. Luthra S., Arora D., Mittal K., Chhabra A. A Statistical Approach of Keyword Extraction for Efficient Retrieval // International Journal of Computer Applications. - 2017. - 168(7). С. 31-36.
3. Rose S., Engel D., Cramer N., Cowley W. Automatic Keyword Extraction from Individual Documents // Text Mining: Applications and Theory. - Wiley, 2010. - C. 1-20.
4. Siddiqi S. Keyword and Keyphrase Extraction Techniques: A Literature Review // International Journal of Computer Applications. - 2015. - 109(2). 18-23.
5. Litvak M., Last M., Aizenman H., Gobits I., Kandel A. DegExt - A Language-Independent Graph-Based Keyphrase Extractor // Advances in Intelligent Web Mastering - 3. - Berlin, Heidelberg: Springer, 2011. - C. 121-130.
6. Sasaki Y. The truth of the F-measure. // University of Manchester, Manchester. - 2007.
7. Медицинский словарь [Электронный ресурс] - Электрон. текст. дан. - Режим доступа: http://www.medslv.ru/ (дата обращения: 14.06.2019).