Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
ℹ️Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.
Введение
1. Особенности предметной области
2. Основные методы извлечения ИС
2.1 Подходы к извлечению именованных сущностей
2.2 Современные реализации инструментов извлечения именованных сущностей
3. Материал исследования - корпусы текстов
3.1 Корпус текстов микроблогов
3.2. Корпус новостных текстов
4. Практическое применение инструментов выделения именованных сущностей
4.1. Система GATE
4.2. Томита-парсер
5. Методика оценки результатов
6. Количественные результаты исследования
7. Выводы, направления дальнейшей работы
Библиография
📖 Введение
Целью данного исследования является разработка системы для извлечения именованных сущностей из текстов микроблогов (Твиттер) на русском языке на основе анализа существующих методов и инструментов извлечения именованных сущностей.
Для решения заявленной цели были поставлены следующие задачи:
- исследовать существующие методы извлечения именованных сущностей;
- изучить особенности предметной области - текстов микроблогов;
- выбрать и доработать наиболее подходящие инструменты для анализа выбранной предметной области;
- собрать и разметить корпус текстов микроблогов;
- провести эксперименты на корпусе микроблогов и на фоновом корпусе новостных текстов;
- сравнить результаты по двум корпусам и по двум инструментам;
- сделать выводы о результативности систем и дальнейших направлениях работы.
Актуальность работы обусловлена как широким применением методов извлечения именованных сущностей в различных задачах прикладной лингвистики, так и особенностями предметной области. Выделение именованных сущностей является одной из важных задач автоматической обработки текста. Это обязательный этап во многих системах извлечения структурированной информации из неструктурированных данных: в задачах информационного поиска, при построении вопросно-ответных систем, автоматизированном сборе и аннотировании новостей, анализе биологических и медицинских текстов. Извлечение именованных сущностей из текстов микроблогов находит применение в первую очередь в системах, используемых для анализа отзывов о товаре и упоминания бренда в сети.
Новизна исследования состоит в выборе и адаптации инструментов извлечения именованных сущностей к конкретному материалу исследования - текстам микроблога Твиттер на русском языке.
Практическая значимость исследования состоит, во-первых, в создании размеченного корпуса текстов микроблогов на русском языке; во-вторых, в экспериментальной оценке и сравнении результатов различных систем извлечения именованных сущностей. Полученные результаты могут быть использованы для дальнейшего совершенствования инструментов выделения именованных сущностей.
✅ Заключение
Оба инструмента показали неплохие результаты (хотя и значительно ниже state-of-the-art показателей) на корпусе микроблогов.
Несмотря на учет особенностей предметной области и разработку специфических словарей для обработки текстов микроблогов, новостные тексты всё же представляют меньшие трудности для обработки.
Так как оба инструмента являются системами, опирающимися на правила, точность их работы может быть весьма высока, т.е. составленные газеттиры и словари замен были недостаточно полными.
Невысокие показатели системы Gate объясняются отчасти, скорее всего, тем, что специфический модель частеречной разметки с учетом особенностей текстов Твиттера не был использован, а примененный вместо него модуль для русского языка не был построен с учетом данной специфики. Очевидно также, что при таком подходе размер словарей замен (коррекции орфографии и расшифровки аббревиатур) должен быть значительно увеличен.
Также нужно отметить, что выбранные три класса именованных сущностей - Персона, Локация и Организация - не лучшим образом отражают специфику текстов. В частности, сущности типа Организация вызвали наибольшие проблемы у обеих систем в связи с тем, что, во-первых, были хуже представлены в корпусе, и во-вторых, газеттиры для них оказались недостаточно адаптированными.
Включение же в область исследования других типов сущностей, в частности Продукт (Товар), могло бы положительно повлиять на общий результат.
Анализ результатов показывает, что с точки зрения разбиения на классы ИС результаты, полученные при помощи Томита-парсера были более однородны, система Gate же показала большую вариативность, что говорит о недостаточной адаптации всех модулей системы.
Учёт этих недостатков в дальнейшей работе может способствовать улучшению результатов.
Кроме того, представляется интересным применить созданный корпус, газеттиры и признаки, использованные при написании правил, для тестирования методами машинного обучения, в частности с использованием метода условных случайных полей.