1 Введение 4
2 Постановка задачи 5
3 Подходы к решению задачи 5
3.1 TextRank[3] 5
3.2 PageRank on Synonym Networks[7] 7
3.3 RAKE[2] 7
3.4 Ранжирование в зависимости от позиции[6] 8
3.5 Статистический подход 9
3.5.1 Взвешивание одиночных слов 9
3.5.2 Извлечение ключевых фраз 10
3.6 Выводы 10
4 Эксперименты 11
4.1 Описание данных 11
4.2 Получение оценки 11
4.3 RAKE 11
4.4 Статистический подход 13
4.5 Гибридный подход 16
5 Заключение 16
6 Список литературы 18
Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирование БД, ввод информации по определенным словам, размещение её в определенных структурах (например, реляционных таблицах) и т.п. Таким образом, непосредственно для анализа этой информации и получения из неё новых знаний необходимо затратить дополнительные усилия. При этом они не всегда связаны с анализом, и не всегда приводят к желаемому результату. Из-за этого КПД анализа структурированной информации снижается. Кроме того, не все виды данных можно структурировать без потери полезной информации. Например, тестовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как текстовые поля (BLOB-поля). В то же время в тексте скрыто огромное количество информации, но её неструктурированность не позволяет использовать средства Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста. В западной литературе такой анализ называют Text Mining.[1]
В настоящее время много прикладных задач, решаемых с помощью анализа текстовых данных. Это и классические задачи Data Mining: классификация, кластеризация, и характерные только для текстовых документов задачи: автоматическое аннотирование, извлечение ключевых понятий и др.[1]
Существует большое количество неструктурированной текстовой информации на разных языках мира. Благодаря развитию всемирной сети это количество постоянно растёт. Анализ таких данных играет важную роль в получении новой информации. Для её извлечения используются ключевые слова. Они позволяют получить представление о содержании документа, не читая его. Извлечение ключевых слов является одной из основных проблем Text Mining.
Ключевые слова могут быть использованы для расширения функциональности систем информационного поиска. Так, например, система Phrasier использует их, для того, чтобы найти документы близкие исходному по содержанию, а сами вхождения слов выступают в роли ссылок между документами, позволяя пользователю получить быстрый доступ к нужному материалу.[8] Система Keyphind - поисковая система для электронных библиотек. Автоматически извлеченные ключевые фразы используются как основной элемент индексации и представления информации. Ключевые фразы отражают диапазон тем, которые охватывают найденные документы. Эта информация позволяет пользователям лучше ориентироваться в результатах поиска.[9].
Несмотря на столь широкий круг возможностей приложения ключевых слов для решения задач анализа, индексирования и поиска, большинство документов не имеют готовых ключевых слов. Большинство существующих подходов сосредоточены на их ручном обозначении. Обычно эта процедура выполняется специалистами соответствующей области. В своей деятельности они полагаются на принципы классификации и систематизации для конкретной предметной области, а также на суждения и мнения автора текста. Исследования же направлены на автоматизацию этого процесса.
Ранние работы использовали статистические данные для извлечения отдельных слов из коллекции документов. У таких подходов есть свои недостатки. В то время как некоторые слова считались ключевыми в рамках целой коллекции, ключевые слова в рамках одного или нескольких документов из этой коллекции уже могли не попадать под нужную категорию. Кроме того, подобные подходы оперировали только с одиночными словами. Чтобы избежать этих недостатков, дальнейшие исследования были посвящены извлечению ключевых слов из одиночных докуметов.[2]
В работе было показано, что при определенных дополнениях эффективность применения алгоритма RAKE и статистического подхода к русскоязычным текстам не уступает их эффективности для англоязычных. Кроме того, в работе была предложена идея гибридного метода, который использует метрику Г-индекс для взвешивания фраз, которые были получены в соответствии с определением алгоритма RAKE. И было показано, что такой алгоритм превосходит по точности RAKE при уменьшении числа отобранных фраз.
1. Анализ данных и процессов[Текст] / А.А. Барсегян, М.С. Куприянов, И.И. Холод, и др. - БХВ-Петербург, 2009.-510 с.
2. Michael Berry. Text Mining: Applications and ТЬеогу[Текст] / Michael Berry, Jacob Kogan - 2010, John Wiley and Sons, Ltd.-205 с.
3. Rada Mihalcea, Paul Tarau. TextRank: Bringing Order into Texts //In Proceedings of EMNLP 2004 (ed. Lin D and Wu D), pp. 404-411
4. Siddiqi, S., Sharan, A. Keyword and keyphrase extraction from single Hindi document using statistical approach // 2015 2nd International Conference on Signal Processing and Integrated Networks (SPIN) 2015, pp. 713-718
5. Juan P. Herrera, Pedro A. Pury. Statistical Keyword Detection in Literary Corpora // The European Physical Journal B, 2008, pp. 135-146.
6. Xinghua Hu, Bin Wu. Automatic Keyword Exctraction Using Linguistic Features //Sixth IEEE International Conference on Data Mining - Workshops (ICDMW’06), 2006, pp. 19-23
7. Zhengyang Liu, Jianyi Liu, Wenbin Yao, Cong Wang. Keyword Extraction Using PageRank on Synonym Networks // 2010 International Conference on E-Product E-Service and E-Entertainment, 2010, pp. 1-4
8. Jones S., Paynter G. Automatic extraction of document keyphrases for use in digital libraries: evaluation and applications // Journal of the American Society for Information Science and Technology, 2002
9. Gutwin C, Paynter G, Witten I, Nevill-Manning C., Frank E. Improving browsing in digital libraries with keyphrase indexes // Decision Support Systems 27(1-2), 1999, pp. 81-104
10. С.А. Шаров. Частотный словарь [Электронный ресурс] - URL: http://www.artint.ru/projects/frqlist.ph (дата обращения 20.05.2017)
Michael BerryMichael BerryMichael BerryMichael BerryMichael BerryMichael BerryMichael BerryMichael
Berry