Тема: Инструментальная система для анализа и тестирования алгоритмов извлечения ключевых слов из текстовых документов
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ГЛАВА 1. ФОРМАЛЬНЫЕ МОДЕЛИ И МЕТОДЫ ИЗВЛЕЧЕНИЯ ТЕРМИНОВ В ПРЕДМЕТНЫХ ОБЛАСТЯХ 4
1.1 Существующие подходы извлечения ключевых слов 4
1.2 Выбор подхода 4
1.3 Rake 5
1.4 RuT ermExtract 6
1.4 Оценки точности 6
ГЛАВА 2. РЕАЛИЗАЦИЯ ИНСТРУМЕНТАЛЬНОЙ СИСТЕМЫ ... 8
2.1 Архитектура инструментальной системы 8
2.2 Создание тематических словарей 9
2.3 Коллекция медицинских документов 12
2.4 Предварительная обработка текста 12
2.5 Выделение кандидатов 14
2.6 Выделение ключевых слов 17
2.7 Семантический классификатор 19
2.8 Имплементация других алгоритмов 21
2.9 Разработка интерфейса пользователя 24
ГЛАВА 3. ЭКСПЕРИМЕНТЫ 28
3.1 Точность 28
3.2 Семантические классы 28
ЗАКЛЮЧЕНИЕ 30
СПИСОК ЛИТЕРАТУРЫ 31
Приложение А 32
Приложение Б 34
Приложение В
📖 Введение
Это важная проблема, которая затрагивает такие области знания как интеллектуальный анализ текста (Text Mining, TM), информационный поиск (Information Retrieval, IR) и обработка естественного языка (Natural Language Processing, NLP) [1]. На данный момент существует большое количество методов выделения ключевых слов, разработано множество алгоритмов и систем, которые работают с текстами и решают точно поставленные задачи.
Актуальность данной работы заключается в том, что выделение терминологии в медицинских документах является очень сложной и трудоемкой задачей. Для упрощения данной деятельности следует использовать специально разработанное программное обеспечение. Но систем выделяющих медицинскую терминологию для русского языка не существует.
Целью данной дипломной работы является создание инструментальной системы для анализа и тестирования алгоритмов извлечения ключевых слов из текстовых документов. Для достижения этой цели были поставлены следующие задачи:
1. Анализ существующих алгоритмов извлечения терминологии
2. Анализ существующих метрик для оценивания алгоритмов извлечения
3. Семантическая классификация выделенных терминов предметной области
4. Тестирование на подготовленных коллекциях
Объектом исследования является методы обработки естественного языка и извлечения ключевых слов.
Предметом исследования является создание инструментальной системы для анализа и тестирования алгоритмов извлечения ключевых слов.
✅ Заключение
Разработан улучшенный алгоритм извлечения ключевых слов TPE, основанный на подходе, который выделяет в качестве ключевых слов именные группы, содержащие медицинскую терминологию.
Проведены эксперименты, которые показали большую продуктивность разработанного алгоритма по сравнению с другими изученными алгоритмами.
Инструментальная система, разработанная в ходе выполнения работы, при реализации большего числа алгоритмов может стать полезным и эффективным инструментом для тестирования и сравнения продуктивности алгоритмов. Компонент классификации представляет большую помощь в семантическом анализе коллекции и при должной доработке может использоваться для построения медицинской онтологии.



