Актуальность темы. Сегодня наблюдается взрывной рост количества
информации, создаваемой людьми и машинами на естественном языке. Аналитическое агентство IDC прогнозирует рост совокупного объема данных,
накопленных человечеством, до 163 зеттабайт к 2025 году. Основной частью
таких данных являются неструктурированные данные, такие как фотографии, видеозаписи, аудиозаписи, а также тексты на естественном языке.
Язык обладает многозначностью, которая проявляется на разных уровнях:
от уровня отдельных звуков в устной речи до уровня значения отдельных слов
и предложений в письменном тексте. Несмотря на то, что люди хорошо справляются с разрешением многозначности самостоятельно, проблема машинного
понимания естественного языка является сложной и требует специальных автоматических методов. Постоянное увеличение интенсивности потока входящей
текстовой информации делает все более важной задачу математического моделирования естественного языка, в частности –– русского языка.
Важнейшей проблемой является лексическая многозначность, требующая
от машины понимания контекста и предметной области, в которой употребляется каждое многозначное слово. Такие сведения представляются в семантических
сетях –– специальных высококачественных базах знаний, представляющих машиночитаемые сведения об окружающем мире в виде понятий и связей между
ними. Связи между понятиями задают семантическую иерархию, которая позволяет решать различные задачи машинного понимания естественного языка и
является критически важным элементом семантических сетей. В настоящее время, наиболее известной семантической сетью в области обработки естественного
языка является семантическая сеть WordNet для английского языка, связи в которой формируются между синсетами –– множествами синонимов.
Семантические сети применяются при решении большого количества
важнейших прикладных задач обработки естественного языка. В системах
разрешения лексической многозначности и системах машинного перевода, семантические сети представляют известные значения слов заданного языка. В
вопросно-ответных системах, таких как IBM Watson, семантические сети задают сведения об объектах предметной области и связях между ними. В системах
поиска сущностей, таких как Google Knowledge Graph, семантические сети
представляют атрибуты, понятные и людям, и машинам. Высококачественные
семантические сети широко используются в качестве золотого стандарта для
оценки эффективности систем автоматической обработки естественного языка.
1. Усталое Д., Созыкин А. Комплекс программ автоматического построения семантической сети слов // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2017. Т. 6, № 2. С. 69¬83.
2. Усталое Д.Семантические сети и обработка естественного языка // От¬крытые системы. СУБД. 2017. №2. С. 46-47.
3. Усталое Д.Обнаружение понятий в графе синонимов // Вычислитель-ные технологии. 2017. Т. 22, Спецвып. 1. С. 99-112.
4. Ustalov D. Joining Dictionaries and Word Embeddings for Ontology Induc-tion// Proceedings of the Institute for System Programming. 2016. Vol. 28, no 6. P. 197-206.
Статьи в изданиях, индексируемых в Scopus и Web of Science
5. Ustalov D. Expanding Hierarchical Contexts for Constructing a Semantic Word Network // Computational Linguistics and Intellectual Technologies: Papers from the Annual conference “Dialogue”. Volume 1 of 2. Computa-tional Linguistics: Practical Applications, May 31 - June 3, 2017, Moscow, Russia. Moscow, Russia: RSUH, 2017. P. 369-381.
6. Ustalov D., Arefyev N., Biemann C., Panchenko A. Negative Sampling Im-proves Hypernymy Extraction Based on Projection Learning // Proceedings of the 15th Conference of the European Chapter of the Association for Com¬putational Linguistics (EACL 2017): Volume 2, Short Papers, April 3-7, 2017, Valencia, Spain. Stroudsburg, PA, USA: Association for Computa-tional Linguistics, 2017. P. 543-550.
7. Ustalov D. Russian Thesauri as Linked Open Data // Computational Lin-guistics and Intellectual Technologies: Papers from the Annual conference “Dialogue”. Volume 1 of 2. Main conference program, May 27-30, 2015, Moscow, Russia. Moscow, Russia: RGGU, 2015. P. 616-625.
Статьи в других изданиях
8. Ustalov D., Panchenko A., Biemann C. Watset: Automatic Induction of Synsets from a Graph of Synonyms // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017) (Volume 1: Long Papers), July 30 - August 4,2017, Vancouver, BC, Canada. Stroudsburg, PA, USA: Association for Computational Linguistics, 2017. P. 1579-1590.
Свидетельства о регистрации программ для ЭВМ
9. Усталов Д. Свидетельство Роспатента о государственной регистрации программы для ЭВМ «Программа подбора проекционной матрицы для векторных представлений слов» № 2017615703 от 22.05.2017.