Тема: Выделение именованных сущностей в текстовых документах
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Глава 1. Теоретический обзор 6
1.1. Классификация. Формальная постановка задачи обучения 7
1.2. Методы выделения именованных сущностей 8
1.3. Признаковое пространство 9
1.4. Методы оценки систем распознавания 10
1.5. Википедия 11
1.6 Методы классификации Википедии 13
Глава 2. Разработка метода 15
2.1. Метод опорных векторов 15
2.2. Объединение методов 16
Глава 3. Реализация метода 19
3.1. Stanford NER 19
3.2. Обучение модели 19
3.3. Результаты эксперимента 20
Заключение 22
Список литературы 23
📖 Введение
Письменность давным-давно зарекомендовала себя как надёжный источник сохранения и передачи информации. Ещё совсем недавно, несколько сотен лет назад, объемы текстовой информации весьма эффективно регулировались по крайне прозаичной причине: дороговизна и сложность производства материала для записи. С изобретением и поразительно стремительным развитием цифровых запоминающих устройств и интернета, увеличение объемов информации приобретает лавинообразный характер. Уже сейчас для нормальной работы в Интернете жизненно необходимы методы поиска и извлечения информации.
Существует множество различных задач обработки естественного языка, вот несколько наиболее часто исследуемых задач:
1) Автоматическое реферирование(АШошайс summarization) - создание читаемого краткого изложения текста.
2) Машинный перевод(Масйте translation) - автоматический перевод с одного естественного языка на другой. Одна из наиболее сложных задач, считается, что она принадлежит к классу так называемых «AI- полных задач».
3) Морфологическая сегментация(Morphological segmentation) - разделение слов на морфемы. Сложность задачи целиком зависит от сложности морфологии рассматриваемого языка.
4) Частеречная pa3MeTKa(Part-of-speech tagging) - задача определения части речи для поданного на вход предложения. Многие слова могут служить различными частями речи в зависимости от контекста.
5) Синтаксический анализ(Рагапд) - создание синтаксического дерева, синтаксическую структуру входной последовательности и хорошо подходит для дальнейшей обработки.
6) Информационный поиск(1п&гшайоп retrieval) - процесс выявления в некотором множестве документов всех тех, которые удовлетворяют заранее определенному запросу.
7) Анализ тональности тeкстa(Sentiшent analysis) - определение и извлечение субъективной информации, обычно из множества документов. Часто используется для определения «полярности» отзывов. Особенно эффективно для распознания общественного мнения в социальных медиа.
8) Извлечение инфоpмaции(Inforшation extraction, IE) - извлечение структурированной семантической информации из текста.
Так же, помимо упомянутых выше, существует ещё множество задач и подзадач так или иначе связанных с обработкой естественных языков.
Термин «Named entity»(Имeновaннaя сущность, NE), который сейчас широко используется, впервые был введён в употребление на шестой Message Understanding Conference (MUC-6) в 1996 году. В то время конференция фокусировалась на задаче извлечения информации. В процессе определения задачи заметили, что необходимо уметь распознавать в тексте такие вещи как имена, организации, местоположения и числовые выражения, включая время, дату, деньги, etc. Идентификация ссылок на подобные сущности в тексте была определена как одна из важных подзадач IE и названа «Распознание именованных сущностей».
Решению данной задачи посвящено наше исследование.
✅ Заключение
Были исследованы существующие методы извлечения именованных сущностей и получения списков именованных сущностей из Википедии.
В рамках работы был предложен и реализован метод классификации Википедии по пяти классам, объединяющий классические подходы извлечения информации из Википедии.
Проведено тестирование качества разработанных методов с использованием набора данных и способа оценки качества, предложенных на конференции CoNLL’03.В результате, тестирование показало, что на данный момент он неконкурентоспособен по сравнению с уже реализованными моделями.
На данный момент вопрос улучшения качества предложенного метода остаётся открытым для дальнейшей работы.



