Извлечение именованных сущностей 3
Область применения 4
1. Постановка задачи 6
2. Обзор предметной области 7
2.1. Обзор систем из предметной области 7
2.2. Методы извлечения именованных сущностей 9
2.3. Алгоритмы использования размеченного корпуса 12
3. Описание практической части 15
3.1 Сбор текстов 16
3.2 Определение правил разметки текста 18
3.2.1 Person 20
3.2.2 Organization 20
3.2.3 GPE 21
3.2.4 Location 22
3.2.5 Event 22
3.2.6 Awar - name 23
3.2.7 TENDER 24
3.2.8 Дескриптор 24
3.2.9 Знаки препинания 25
3.2.10 Кавычки 25
3.2.11 Омонимия 26
3.2.12 Общие правила 26
3.3 Выбор инструмента для разметки 27
3.4 Процесс аннотирования 29
3.5 Проверка разметки 31
3.6 Оценка качества разметки 33
Заключение
Казахский язык принадлежит к тюркской языковой группе и считается национальным языком Республики Казахстан. По последним данным переписи населения 2009 года около 10 миллионов человек признали казахский родным языком. Он широко распространен в странах СНГ, Монголии, Китая. По статистике 78 процентов русских казахов говорят на казахском.
За последние годы растет интерес к формированию корпусов текстов на национальных языках [5]. Интенсивно идет разработка корпусов английского и русского языка, содержание текстов таких корпусов достигает примерно миллионов словоупотреблений [4]. Созданные массивы текстов могут неоднократно использоваться многими исследователями в решении различных задач. На сегодняшний день национальных лингвистических корпусов существуют в ограниченном количестве. Каждый корпус уникальный. Цель данной магистерской работы заключается в разработке корпуса с извлечением именованных сущностей для казахского языка. Решение данной задачи позволит внести свой вклад в развитии компьютерной лингвистики в Республике Казахстан.
Извлечение именованных сущностей
Под задачей распознавания именованных сущностей (Named Entity Recognition, NER) подразумевается нахождение в текстах объектов, наделенные значимой информацией и классификации их по определенным категориям. Зачастую поиск осуществляется по основе стандартных категорий сущностей, а именно: имена персон, локации, организации, гео-политические объекты, номинации, конференции.
Приведем пример размеченного текста.
Вице-президент [Organization Microsoft] [PersonТерри Майерсон] объявил объявил об открытии нового штаба в [LocationСША].
Впервые задача извлечения именованных сущностей была рассмотрена на конференции Message Understanding Conference (MUC) в 1996 году. И только на конференциях Conference on Computational Natural Language Learning (CoNLL) CoNLL-2002 и CoNLL-2003 вопрос по извлечению именованных сущностей был поднят повторно. [1]
В последнее время к правильному и быстрому распознаванию именованных сущностей уделяется особое внимание. Это обуславливается тем, что ежегодно стали проводить открытые соревнования по извлечению именованных сущностей. Диалог - это международная научная конференция в области теоретической и компьютерной лингвистики и автоматической обработки текстов. Площадка в течении 40 лет собирает ведущих российских лингвистов, инженеров-практиков и мировых ученых.
В 2015 году в рамках данной конференции проводились соревнования по извлечению информации в новостных текстах для русского языка. Более 10 лет прошло с последних аналогичных соревнованиях, где извлечение именованных сущностей было в центре внимания. Однако результаты прошлых лет не сохранились в открытом доступе. Сегодня размеченные текста, полученные на соревнованиях 2015 года, применяются специалистами в области компьютерной лингвистики и интеллектуального анализа данных как коммерческими организациями так и небольшими исследовательскими группами.
Область применения
Распознавание именованных сущностей применяются в научных исследованиях и системах интеллектуального анализа неструктурированной информации. Рассмотрим некоторые из них:
1. Информационный поиск
Информационный поиск - процесс направленный на сбор, обработку и предоставления информации в просторах Интернет по запросу пользователей. Первые автоматизированные поисковые системы работали с информацией фактического характера, например с характеристиками объектов и их связей.[2] Со временем появились несколько методов осуществления поиска. Один из них является семантический поиск, который основан на нахождении и выдачи документов по его внутреннему содержанию. Немаловажную роль в данной области играет применение извлечений именованных сущностей, позволяющий проводить поиск документов эффективнее.
2. Автоматизированный сбор новостей
Интернет представляет собой гигантское хранилище данных. С каждым днем информационные сообщения увеличиваются десятками тысяч. Каждая новость наделена некоторыми событиями, которые можно охарактеризовать именованными сущностями: место действия (где? - город, область, страна), участники события (кто? что? - люди, организации), время действия (когда? - дата).[1] Извлечение именованных сущностей значительно упрощает автоматизировать новости по определенным критериям.
3. Анализ тематической информации
Выделение именованных сущностей позволяет объединить слабоструктурированные данные одной области знаний. Например, в медицине имеются множества специализированных слов, объединение которых позволит эффективнее произвести поиск информации среди огромного количества материалов данной области.
1. Постановка задачи
Задача данной магистерской диссертации состоит в формировании корпуса с разметкой объектов новостных медиа-ресурсах для казахского языка. Для этого требуется выполнить следующие задачи:
• Обзор существующих казахско-язычных корпусов
• Методы извлечения именованных сущностей
• Алгоритмы использования корпуса
• Сбор данных
• Правила извлечения именованных сущностей
• Выполнить разметку корпуса
• Произвести анализ собранного корпуса