Введение 4
Глава 1. Семантические сети в задачах обработки естественного языка 13
1.1. Обработка естественного языка 13
1.2. Семантические сети 15
1.3. Критерии качества семантических сетей 24
1.4. Обзор работ по теме диссертации 32
1.5. Выводы по главе 1 41
Глава 2. Методы построения семантической сети слов 43
2.1. Семантическая сеть слов 44
2.2. Метод построения синсетов 47
2.2.1. Построение графа синонимов 49
2.2.2. Вывод лексических значений слов 50
2.2.3. Построение графа значений слов 52
2.2.4. Кластеризация графа значений слов 53
2.2.5. Алгоритм построения синсетов Watset 54
2.3. Метод построения связей 57
2.3.1. Построение иерархических контекстов 59
2.3.2. Расширение иерархических контекстов 60
2.3.3. Подбор матрицы линейного преобразования 62
2.3.4. Связывание иерархических контекстов 64
2.3.5. Алгоритм построения связей Watlink 65
2.4. Выводы по главе 2 68
Глава 3. Комплекс программ построения семантической сети слов ... 70
3.1. Архитектура комплекса программ 70
3.1.1. Модуль построения синсетов 72
Стр.
3.1.2. Модуль подбора матрицы линейного преобразования .... 74
3.1.3. Модуль построения связей 76
3.2. Реализация комплекса программ 78
3.3. Представление знаний 82
3.4. Выводы по главе 3 84
Глава 4. Оценка эффективности разработанных методов 85
4.1. Оценка метода построения синсетов 88
4.2. Оценка метода построения связей 96
4.3. Оценка метода подбора матрицы линейного преобразования . . . .102
4.4. Оценка метода построения связей с расширением 105
4.5. Выводы по главе 4 109
Заключение 111
Литература 114
Приложение
Актуальность темы. Сегодня наблюдается взрывной рост количества
информации, создаваемой людьми и машинами на естественном языке. Аналитическое агентство IDC прогнозирует рост совокупного объема данных,
накопленных человечеством, до 163 зеттабайт к 2025 году. Основной частью
таких данных являются неструктурированные данные, такие как фотографии, видеозаписи, аудиозаписи, а также тексты на естественном языке.
Язык обладает многозначностью, которая проявляется на разных уровнях:
от уровня отдельных звуков в устной речи до уровня значения отдельных слов
и предложений в письменном тексте. Несмотря на то, что люди хорошо справляются с разрешением многозначности самостоятельно, проблема машинного
понимания естественного языка является сложной и требует специальных автоматических методов. Постоянное увеличение интенсивности потока входящей
текстовой информации делает все более важной задачу математического моделирования естественного языка, в частности –– русского языка.
Важнейшей проблемой является лексическая многозначность, требующая
от машины понимания контекста и предметной области, в которой употребляется каждое многозначное слово. Такие сведения представляются в семантических
сетях –– специальных высококачественных базах знаний, представляющих машиночитаемые сведения об окружающем мире в виде понятий и связей между ними.
Связи между понятиями задают семантическую иерархию, которая позволяет решать различные задачи машинного понимания естественного языка и является
критически важным элементом семантических сетей. В настоящее время, наиболее известной семантической сетью в области обработки естественного языка
является семантическая сеть WordNet для английского языка, связи в которой
формируются между синсетами –– множествами синонимов.
Семантические сети применяются при решении большого количества
важнейших прикладных задач обработки естественного языка. В системах5
разрешения лексической многозначности и системах машинного перевода, семантические сети представляют известные значения слов заданного языка. В
вопросно-ответных системах, таких как IBM Watson, семантические сети задают сведения об объектах предметной области и связях между ними. В системах
поиска сущностей, таких как Google Knowledge Graph, семантические сети
представляют атрибуты, понятные и людям, и машинам. Высококачественные
семантические сети широко используются в качестве золотого стандарта для
оценки эффективности систем автоматической обработки естественного языка.
Создание высококачественных баз знаний вручную является длительной
и ресурсоемкой задачей, поэтому исследователи уделяют большое внимание вопросу автоматического построения семантических ресурсов, таких как
семантические сети. Существующие методы автоматического построения семантических сетей используют высококачественные исходные данные, что
затрудняет их применение для автоматической обработки текста на языках,
представляющих другие языковые группы. Например, славянских и балтийских
языков. Основное внимание исследователей уделяется английскому языку, для
которого сегодня доступно большое количество высококачественных баз знаний
и других языковых ресурсов.
В диссертационной работе были рассмотрены вопросы разработки и исследования эффективных методов автоматического построения семантической
сети. Исследованы современные подходы к автоматическому построению семантических ресурсов. Предложена модель семантической сети слов, связывающая
лексические значения слов при помощи семантических связей с разрешенной
многозначностью. На ее основе разработаны методы и алгоритмы автоматического построения понятий и автоматического построения и расширения
семантичеких связей. Корректность предложенных методов подтверждается
результами экспериментов. Разработанные модели, методы и алгоритмы реализованы в виде комплекса программ, который функционирует на многоядерных
и многопроцессорных вычислительных системах для выполнения ресурсоемких
операций.
Основные результаты, полученные в ходе выполнения диссертационного
исследования являются новыми и не покрываются ранее опубликованными научными работами других авторов, обзор которых был дан в разделе 1.4. Следует
отметить основные отличия.
Существующие методы пострения синсетов на основе нечеткой кластеризации графа, такие как MaxMax [55], CPM [80] и ECO [49], не осуществляют
процедуру вывода значений слов в явном виде и ориентированы на кластеризацию графов совместной встречаемости слов. Методы вывода значений слов [26,
36, 83], в свою очередь, не производят разрешения многозначности полученных
значений слов и не используют эти значения слов для построения понятий. Существующий метод разрешения многозначности в контекстах [38] не предполагает
построения графа значений слов. Описанный в разделе 2.2 метод обнаружения
понятий отличается тем, что использует существующий метод вывода значений слов, затем строит граф значений слов с использованием значений слов с
разрешенной многозначностью, после чего производит жесткую кластеризацию112
полученного графа значений слов при помощи хорошо известных методов жесткой кластеризации графа [26, 35].
Существующие методы построения связей, такие как онтологизация [87],
ECO [49] и BabelNet [76] предполагают построение связей между синсетами на
основе заранее подготовленной семантической иерархии высокого качества. В
обоих случаях используется тезаурус английского языка WordNet [40]. Описанный в разделе 2.3 метод построения связей не требует такого ресурса для решения
задачи. Методы извлечения связей, в первую очередь, шаблоны Херст [53,81] и их
вариации для толковых словарей [5] не указывают конкретные значения слов, что
приводит к возникновению лексической многозначности. Таким же ограничением обладает Викисловарь и другие общедоступные ресурсы [8], построенные при
помощи краудсорсинга. Предложенный в данной работе метод построения связей
предназначен позволяет указать конкретные значения связанных слов. Кроме того, подход к расширению иерархических контекстов в данном методе позволяет
добавить дополнительные связи, подходящие по смыслу.
1. Абрамов Н. Словарь русских синонимов и сходных по смыслу выражений. 7-е изд., стереотип. М.: Русские словари, 1999. 528 с.
2. Азарова И. В., Митрофанова О. А., Синопальникова А. А. Компьютер¬ный тезаурус русского языка типа WordNet // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог-2003» (11-16 июня 2003 г., Протвино). М.: 2003. С. 43-50.
3. Болотникова Е. С., Гаврилова Т. А., Горовой В. А. Об одном методе оценки онтологий // Известия Российской академии наук. Теория и системы управ¬ления. 2011. № 3. С. 98-110.
4. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем. СПб: Питер, 2000. 384 с.
5. Киселев Ю. А., Поршнев С. В., Мухин М. Ю. Метод извлечения родовидовых отношений между существительными из определений толковых словарей // Программная инженерия. 2015. № 10. С. 38-48.
6. Киселев Ю. А., Поршнев С. В., Мухин М. Ю. Современное состояние элек-тронных тезаурусов русского языка: качество, полнота и доступность // Программная инженерия. 2015. № 6. С. 34-40.
7. Константинова Н. С., Митрофанова О. А. Онтологии как системы хранения знаний [Электронный ресурс] // Всероссийский конкурсный отбор обзорно¬аналитических статей по приоритетному направлению «Информационно¬телекоммуникационные системы». 2008. 54 с. ПКБ: http://www.ict.edu.ru/ft/ 005706/68352е2-зЮ8^£(дата обращения: 20.05.2017).
8. Крижановский А. А., Смирнов А. В. Подход к автоматизированному построе¬нию общецелевой лексической онтологии на основе данных Викисловаря // Известия Российской академии наук. Теория и системы управления. 2013. №2. С. 53-63.
9. Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского университета, 2011. 512 с.
10. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбу-ковник, 2009. 1112 с.
11. Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск.: Пер. с англ. / Под ред. П. И. Браславского, Д. А. Клюшина, И. В. Сегаловича. М.: ООО «И.Д. Вильямс», 2011. 528 с.
12. Мельчук И. А. Опыт теории лингвистических моделей «Смысл о Текст». 2-е изд. М.: Яз. рус. культуры, 1999. 368 с.
13. Падучева Е. В. Динамические модели в семантике лексики. М.: Языки сла-вянской культуры, 2004. 609 с.
14. Прикладная и компьютерная лингвистика / Под ред. И. С. Николаева, О. В. Митрениной, Т. М. Ландо. М.: URSS, 2016. 320 с.
15. Словарь русского языка: В 4-х т. / РАН, Ин-т лингвистич. исследований; Под ред. А. П. Евгеньевой. 4-е изд., стер. М.: Рус. яз.; Полиграфресурсы, 1999.
16. Abadi M. et al. TensorFlow: A System for Large-Scale Machine Learning// 12th USENIX Symposium on Operating Systems Design and Implementation (OS- DI16), November 2-4,2016, Savannah, GA, USA. Berkeley, CA, USA: USENIX Association, 2016. P. 265-283.
17. Allan K. Concise Encyclopedia of Semantics. Oxford, UK: Elsevier Science, 2009. 1104 pp.
18. Arefyev N. V., Panchenko A. I., Lukanin A. V. et al. Evaluating Three Corpus-based Semantic Similarity Systems for Russian // Computational Linguistics and
Intellectual Technologies: Papers from the Annual conference “Dialogue”. Vol-ume 2 of 2. Papers from special sessions, May 27-30, 2015, Moscow, Russia. Moscow, Russia: RGGU, 2015. P. 106-119.
19. van Assem M., Malaisé V., Miles A., Schreiber G. A Method to Convert Thesauri to SKOS // 3rd European Semantic Web Conference, ESWC 2006, Bud¬va, Montenegro, June 11-14, 2006 Proceedings. Berlin, Heidelberg, Germany: Springer-Verlag Berlin Heidelberg, 2006. P. 95-109.
20. Bagga A., Baldwin B. Algorithms for Scoring Coreference Chains // Proceedings of the Linguistic Coreference Workshop at The First International Conference on Language Resources and Evaluation (LREC), May 26, 1998, Granada, Spain. 1998. P. 563-566.
21. Balkova V., Sukhonogov A., Yablonsky S. Russian WordNet//Proceedings of the Second International WordNet Conference—GWC2004, January 20-23, 2004, Brno, Czech Republic. Brno, Czech Republic: Masaryk University Brno, Czech Republic, 2004. P. 31-38.
22. Bartunov S., Kondrashkin D., Osokin A., Vetrov D. P. Breaking Sticks and Ambi-guities with Adaptive Skip-gram// Journal of Machine Learning Research. 2016. Vol. 51. P. 130-138.
23. Beckett D. The Design and Implementation of the Redland RDF Application Framework// Computer Networks. 2002. Vol. 39, no. 5. P. 577-588.
24. Berners-Lee T., Hendler J., Lassila O. The Semantic Web // Scientific American. 2001. Vol. 284, no. 5. P. 28-37.
25. Biemann C. Ontology Learning from Text: A Survey of Methods // GLDV-Journal for Computational Linguistics and Language Technology. 2005. Vol. 20, no. 2. P. 75-93.
26. Biemann C. Chinese Whispers: An Efficient Graph Clustering Algorithm and Its Application to Natural Language Processing Problems // Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing (TextGraphs-1), June 9,2006, New York, NY, USA. Stroudsburg, PA, USA: As¬sociation for Computational Linguistics, 2006. P. 73-80.
27. Biemann C. Creating a system for lexical substitutions from scratch using crowd¬sourcing // Language Resources and Evaluation. 2013. Vol. 47, no. 1. P. 97-122.
28. Bomze I. M., Budinich M., Pardalos P. M., Pelillo M. The maximum clique prob-lem // Handbook of Combinatorial Optimization. Springer, 1999. P. 1-74.
29. Bordea G., Lefever E., Buitelaar P. SemEval-2016 Task 13: Taxonomy Extrac-tion Evaluation (TExEval-2) // Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016), June 16-17, 2016, San Diego, CA, USA. Stroudsburg, PA, USA: Association for Computational Linguistics, 2016. P. 1081-1091.
30. Braslavski P., Ustalov D., Mukhin M., Kiselev Y. YARN: Spinning-in-Progress// Proceedings of the 8th Global WordNet Conference (GWC2016), January 27-30, 2016, Bucharest, Romania. Global WordNet Association, 2016. P. 58-65.
31. Collins A. M., Quillian M. R. Retrieval time from semantic memory // Journal of Verbal Learning and Verbal Behavior. 1969. Vol. 8, no. 2. P. 240-247.
32. Deliyanni A., Kowalski R. A. Logic and Semantic Networks // Communications of the ACM. 1979. Vol. 22, no. 3. P. 184-192.
33. Deng J., Dong W., Socher R. et al. ImageNet: A Large-Scale Hierarchical Im¬age Database // IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2009), June 20-25, 2009, Miami, FL, USA. IEEE, 2009. P. 248-255.
34. Dikonov V. G. Development of lexical basis for the Universal Dictionary of UNL Concepts // Computational Linguistics and Intellectual Technologies: papers from the Annual conference “Dialogue”, May 29 - June 2, 2013, Bekasovo. Moscow, Russia: RGGU, 2013. P. 212-221.
35. van Dongen S. Graph Clustering Via a Discrete Uncoupling Process // SIAM Jour¬nal on Matrix Analysis and Applications. 2008. Vol. 30, no. 1. P. 121-141.
36. Dorow B., Widdows D. Discovering Corpus-Specific Word Senses // 10th Confer¬ence of the European Chapter of the Association for Computational Linguistics (EACL 2003), April 12-17, 2003, Budapest, Hungary. Stroudsburg, PA, USA: Association for Computational Linguistics, 2003. P. 79-82.
37. Drymonas E., Zervanou K., Petrakis E. G. M. Unsupervised Ontology Acquisition from Plain Texts: The OntoGain System // Proceedings of the 15th Interna¬tional Conference on Applications of Natural Language to Information Systems (NLDB 2010), June 23-25, 2010, Cardiff, Wales, UK. Berlin, Heidelberg, Ger¬many: Springer-Verlag Berlin Heidelberg, 2010. P. 277-287.
38. Faralli S., Panchenko A., Biemann C., Ponzetto S. P. Linked Disambiguated Distributional Semantic Networks // The Semantic Web - ISWC 2016: 15th International Semantic Web Conference, Kobe, Japan, October 17-21, 2016, Proceedings, Part II. Cham, Germany: Springer International Publishing, 2016. P. 56-64.
39. Farhadi A., Hejrati M., Sadeghi M. A. et al. Every Picture Tells a Story: Gener-ating Sentences from Images // 11th European Conference on Computer Vision (ECCV 2010), Heraklion, Crete, Greece, September 5-11, 2010, Proceedings, Part IV. Berlin, Heidelberg, Germany: Springer-Verlag Berlin Heidelberg, 2010. P. 15-29.
40. Fellbaum C. WordNet: An Electronic Database. MIT Press, 1998. 449 pp.
41. Ferrucci D., Brown E., Chu-Carroll J. et al. Building Watson: An Overview of theDeepQAProject//AI Magazine. 2010. Vol. 31, no. 3. P. 59-79.
42. Fowlkes E. B., Mallows C. L. A Method for Comparing Two Hierarchical Clus-terings // Journal of the American Statistical Association. 1983. Vol. 78, no. 383. P. 553-569.
43. Freeman L. C. Centered graphs and the structure of ego networks // Mathematical Social Sciences. 1982. Vol. 3, no. 3. P. 291-304.