Введение 2
Глава 1. Калейдоскоп диалоговых систем 16
1.1. Развитие диалоговых систем 16
1.2. Современные модели и трансферное обучение 21
1.3. Базовые модули диалоговых систем 31
1.4. Архитектура Transformer 38
Глава 2. Материал исследования 40
2.1. Источник материала 41
2.2. Структура набора данных 43
2.3. Краудсорсинг 46
Глава 3. Подходы к построению системы 48
3.1. Работа с моделью 49
3.2. Работа с данными 57
3.3. Оценка системы 61
3.3.1. Автоматические метрики оценки 63
3.3.2. Ручная оценка 68
3.4. Влияние лингвистических особенностей материала 70
Заключение 74
Список источников 84
Приложения 91
А. Образец набора данных 91
Б. Тексты заданий для краудсорсинга 91
В. Образец анкеты для ручной оценки 93
Г. Методологические рекомендации 93
В 2019 году на Всемирном экономическом форуме (ВЭФ) была представлена характеристика так называемых «Маяков», предприятий-«пионеров» четвертой промышленной революции [Всемирный экономический форум, 2019, с. 7-8]. Четвертая промышленная революция, так же известная как «Индустрия 4.0», предполагает внедрение и использование «умных» технологий, которые, на мой взгляд, способствуют интеграции физического и цифрового миров. К таким технологиям можно отнести виртуальную и дополненную реальность, аналитику больших данных, искусственный интеллект и другие разработки.
Сегодня, в 2020-е годы, мы наблюдаем за тем, как технологии «Индустрии 4.0» покидают научные лаборатории и начинают служить людям. Например, в коммерческой сфере популярностью пользуется виртуальная и дополненная реальность: проектирование дизайна интерьера в VR-очках (VR — англ., virtual reality, «виртуальная реальность») и примерка обуви с помощью видеокамеры смартфона не покажутся активным пользователям «умных» приложений чудом. Презентация товара или услуги в игровой форме, яркий интерфейс, интерактивность превратили использование виртуальной и дополненной реальности в эффективный инструмент маркетинга.
Технологии искусственного интеллекта (ИИ), такие как машинное обучение (англ., machine learning) и формирование рассуждений (англ., machine reasoning), применяются в коммерческих и некоммерческих организациях, муниципальных и государственных учреждениях. В России инструменты ИИ внедряются в системы информирования граждан, обрабатывают заявки на услуги, фильтруют фальшивые новости. «Умные» системы научились давать ответы на часто задаваемые вопросы, собирать обратную связь от клиентов и пользователей и упрощать некоторые процедуры (например, запись к врачу). Нередко работу таких систем обеспечивают алгоритмы обработки естественного языка.
Обработка естественного языка — это область искусственного интеллекта на стыке компьютерных технологий и лингвистики, направленная на создание инструментов для автоматического распознавания и генерации текстов и речи. Рассмотрим несколько успешных примеров подобных систем, разработанных в России.
Виртуальный ассистент «Маруся» [Маруся — голосовой помощник от VK, 2019], выпущенный компанией VK в 2019 году, позволяет пользователю вызвать такси, заказать доставку продуктов питания на дом, произвести поиск в интернете и многое другое с помощью простого голосового запроса. Количество навыков «Маруси» не ограничено: пользователи вправе самостоятельно расширять базу так называемых «скиллов» виртуального ассистента, а владельцы бизнесов могут интегрировать систему в собственные продукты [Маруся | Быстрый старт | VK для разработчиков, 2022]. На данный момент компания VK объединяет множество социальных сетей, приложений и сервисов. Таким образом, «Маруся» представляет своего рода распределительный центр с дружелюбным голосовым интерфейсом для пользователей.
Технологии распознавания и генерации речи также вошли в основу виртуальных ассистентов компании СберДевайсы — дочернего предприятия Сбера [СберДевайсы — СберБанк, 2019; Виртуальные ассистенты Салют, 2022]. Семейство голосовых помощников «Салют» — это три многофункциональных бота. Каждый бот обладает собственным тембром сгенерированного голоса и стилем общения с пользователем. По задумке разработчиков, пользователь может выбирать бота в зависимости от своего настроения и целей использования умных систем.
Пожалуй, наиболее известной российской системой, разработанной с применением методов обработки естественного языка, является голосовой помощник «Алиса» [Алиса — голосовой помощник от компании Яндекс, 2022], выпущенный компанией Яндекс в 2017 году. Система быстро завоевала популярность. Например, всего за несколько лет «Алиса» стала надежным спутником автолюбителей (систему можно встроить в бортовой компьютер автомобиля [Яндекс.Авто, 2022]). Функционал «Алисы» стал предметом исследования ученых: лингвисты изучают возможности использования системы от Яндекса для преподавания русского языка как иностранного [Аль-Кайси и др., 2019, с. 240-244; Ратников, Чафонова, 2019, с. 65-66], а специалисты в области компьютерных наук разрабатывают для нее новые навыки [Дубельщикова, Тутова, 2020, с. 93-95; Беломутов, 2020, с. 257-259].
Сфера применения таких систем как «Алиса», «Маруся» и «Салют» не ограничивается одной предметной областью. Виртуальные ассистенты могут облегчать рутинные дела дома, в офисе — выступать в роли системы информационной поддержки, а в автомобиле — подсказывать дорогу. Однако едва ли мы сможем использовать подобные системы для решения узкоспециализированных задач, таких как консультация по вопросам медицинского и социального обслуживания или извлечение информации из базы данных по конкретной научной области.
Виртуальные ассистенты, рассмотренные выше, относятся к системам с открытой предметной областью (или открытым доменом). Такой тип диалоговых систем можно назвать универсальным: модели могут поддерживать диалог на свободную тему и решать широкий спектр задач [Adiwardana et al., 2020, с. 1]. Системы с закрытой предметной областью (или закрытым доменом) приходят на помощь, когда появляется необходимость в тематической специализации (например, нужен онлайн-консультант по вопросам финансов или медицины).
Как правило, разработка диалоговых систем с закрытым доменом для решения узкоспециализированных задач предпочтительнее использования аналогичных моделей с открытой предметной областью. В системах с закрытым доменом используются наборы данных (или датасеты), которые содержат информацию по конкретным темам. Для построения датасетов могут использоваться аннотированные диалоги [Su et.al., 2020, с. 6606-6607], графы знаний [Soufyane et al., 2021, с. 142-143] и другие типы данных.
Диалоговые системы с закрытой предметной областью позволяют удовлетворить информационную потребность пользователя по конкретной теме. Специализированные наборы данных в основе таких моделей позволяют системам предсказывать пользовательские запросы. Например, если диалоговая система и ее обучающий датасет содержат информацию о заболеваниях печени, вероятность того, что пользователь спросит о болезнях сердца, низка.
В настоящем исследовании мы сфокусируемся на разработке систем с закрытым доменом и рассмотрим подходы к построению моделей, которые смогут найти применение в сферах медицины и социального обслуживания. В данной работе описывается применение техник машинного обучения к построению вопросно-ответных систем на тему расстройств аутистического спектра для русского языка.
Исследование методов построения диалоговых систем для взрослых и детей в спектре аутизма не является новшеством, а разработка чат-ботов для сферы здравоохранения стала трендом второго десятилетия XXI века. Однако наши работы по созданию диалоговых систем об аутизме (по данным Google Scholar [Google Scholar, 2022]) являются первыми описанными опытами для русского языка в этой предметной области. Обратимся к существующим научным публикациям о применении диалоговых систем в социальной и медицинской сфере.
В 2003 году, когда внедрение диалоговых систем в медицинскую сферу считалось нетривиальной задачей, М. Беверидж и Д. Миллворд предложили мультимодальную диалоговую систему с возможностями генерации HTML-страниц и голоса для извлечения информации из медицинской онтологии [Beveridge, Millward, 2003, с. 341-343]. Набор функций немногочисленных чат-ботов тех лет был ограничен [Bickmore, Giorgino, 2004, с. 2], но с годами развитие технологий искусственного интеллекта позволило исследователям расширить сферу применения медицинских диалоговых систем.
Современные медицинские чат-боты, снабженные алгоритмами искусственного интеллекта, способны извлекать информацию из баз данных и знаний, анализировать запросы пользователей и выступать в роли своеобразных рекомендательных систем. Например, с помощью обработки текстовых описаний симптомов такие системы могут направить пользователя к конкретному медицинскому специалисту [Divya et al., 2018, с. 3]. Другие модели способны консультировать пользователей о применении и дозировках определенных медицинских препаратов [Madhu et al., 2017, с. 245].
Мировые тенденции в области здравоохранения и актуальные проблемы общества мгновенно находят отражение в разработках специалистов. Например, вызовы последних лет, связанные с пандемией новой коронавирусной инфекции, вдохновили исследователей на создание вопросно-ответных наборов данных для построения информационных систем о COVID-19 [Möller et al., 2020, с. 1; Wang et al., 2020, с. 1-2]. В последние годы в социально-медицинской сфере растет интерес к обеспечению инклюзивной среды и повышению информационной осведомленности о том, как взаимодействовать с людьми, имеющими инвалидность [Pendergrass et al., 2019, с. 2-3].
Возникает необходимость в новом программном обеспечении, которое поможет выстроить коммуникацию между людьми с инвалидностью и без нее. Например, в 2018 году в Австралии был разработан чат-бот для детей с расстройствами аутистического спектра, в котором взаимодействие с пользователем производится с помощью картинок и символов. Специалисты могут предложить ребенку программу в рамках терапии, а родители — в качестве инструмента для выработки базовых навыков общения и взаимодействия [Cooper, Ireland, 2018, с. 65-67]. Годом позже был представлен аналогичный чат-бот на китайском языке. Диалоговая система предназначена для выработки навыков коммуникации и сбора исследовательских данных для врачей [Li et al., 2019, с. 524].
Мы рассмотрели научные труды, методологически близкие нашей работе. Это позволяет нам выявить исследовательские пробелы, существующие в сфере построения диалоговых систем для решения проблем медицинского и социального обслуживания. Первый и наиболее очевидный пробел — отсутствие диалоговых систем на русском языке, информирующих о расстройствах аутистического спектра. Результаты поиска в системе индексирования научных изданий Google Scholar показали, что на данный момент исследования, посвященные разработке русскоязычной диалоговой системы об аутизме (кроме наших исследований, ссылки на которые будут приведены ниже, в разделе об апробации результатов исследования) не проводились [Google Scholar, 2022].
Лингвистических наборов данных о медицине и социальном обслуживании на русском языке на данный момент существует немного. Наиболее полно такой текстовый материал представлен для английского и китайского языков [Blinov et al., 2022, с. 3]. Обычно социальные или медицинские данные для русского языка собираются исследователями в процессе решения конкретных задач. Например, в ходе разработки программного обеспечения ученые могут обратиться за помощью к научным медицинским организациям [Danilov et al., 2020, 164], сделать запрос в архив или собрать языковые данные экспериментально.
В контексте исследований на стыке социальной и медицинской сфер сбор и систематизация материала для обработки русского языка представляет собой нетривиальную и актуальную задачу. Результаты нашего литературного обзора показывают, что в области разработки систем искусственного интеллекта для русского языка обнаруживается исследовательский пробел.
Исследования, с которыми мы ознакомились [Möller et al., 2020; Wang et al., 2020; Cooper, Ireland, 2018; Li et al., 2019], описывают процесс разработки программного обеспечения для языков, отличных от русского. Вместе с тем исследования подходов к построению русскоязычных медицинских диалоговых систем показывают, что методы, получившие распространение в англоязычном сегменте (например, использование фреймов, машинного обучения и онтологий), столь же актуальны и для русского [Vatian et al., 2019, с. 179-182].
Следующий исследовательский пробел, который мы обнаружили, связан с недостаточностью описания аспектов разработки социальных и медицинских диалоговых систем. В процессе изучения литературы по этой теме у нас возникло три исследовательских вопроса. Рассуждения, приведенные в выводах к данной работе, не дадут нам однозначного ответа на все вопросы. Однако в будущем мы планируем пригласить целевую аудиторию к дискуссии, которая, вероятно, приблизит нас к новым решениям обозначенных проблем.
Первый вопрос заключается в следующем: как помочь человеку с расстройствами аутистического спектра, не навредив ему? Целевой аудиторией социально-медицинских систем могут быть люди с особыми потребностями. Например, целевой аудиторией диалоговых систем, которые мы исследуем, являются, в том числе люди с расстройствами аутистического спектра (в частности, с высокофункциональным аутизмом, синдромом Аспергера). Люди в спектре аутизма обладают повышенной чувствительностью. Любое слово, которое они считают недобрым, может вызвать у них тревожность или спровоцировать агрессивное поведение. Поэтому исследование безопасных, контролируемых систем должно быть в приоритете при создании продуктов с такой целевой аудиторией.
Опасность систем машинного обучения заключается в том, что они с трудом поддаются контролю. В особенности это касается генеративных алгоритмов — выдачи таких моделей сложно предсказать. Они могут напугать пользователя в спектре аутизма и вызвать тем самым нежелательные последствия. Использование более примитивных методов, например, создание систем на правилах, может решить эту проблему. Но тогда нам потребуется значительно больше времени и ресурсов на разработку гибкой системы с большой базой знаний.
Проблема контролируемости моделей машинного обучения стала особенно актуальна в последние годы в связи с увеличением вычислительных мощностей компьютеров и распространением генеративных алгоритмов. Например, в 2021 году была представлена контролируемая диалоговая система для диагностики заболеваний — генеративный чат-бот, задающий вопросы о самочувствии пользователя. Модули контроля чат-бота позволяют модели придерживаться точности в медицинских суждениях и обеспечивают лексическое разнообразие для комфортного взаимодействия с пользователем [Compton et al., 2021, с. 111]. Однако исследования о контролируемости медицинских диалоговых систем не учитывают проблемы разработки продуктов для людей в спектре аутизма. В связи с этим мы считаем, что этому вопросу необходимо уделить внимание в настоящей работе.
Второй исследовательский вопрос звучит следующим образом: как создать систему, которая не будет вводить пользователя в заблуждение? Небольшая неточность, например, пропуск частицы «не» в выдаче диалоговой системы, может привести к порождению ложных фактов и дезинформированию пользователя. Ответ на первый исследовательский вопрос предполагает изучение эмоциональной составляющей выдач чат-бота. Нам предстоит рассмотреть формулировки ответов системы, тональность генерируемого текста, его лексическое наполнение. Второй вопрос приглашает нас к размышлению об информационном наполнении выдач и точности передачи фактов.
Чтобы ответить на второй исследовательский вопрос, некоторые исследователи проводили эксперименты с использованием генеративных или экстрактивных подходов к построению диалоговых систем. Например, выделенный нами вопрос исследовался в контексте создания моделей для понимания прочитанного, то есть для генерации ответов на вопросы по заданному тексту [Luo et al., 2022, с. 4-8]. На выбор между генеративными и экстрактивными алгоритмами могут влиять объемы входных данных, количество задач, решаемых системами, предметная область и другие переменные. Конкретные домены требуют отдельного исследования выбора алгоритма для передачи информации без искажений. В настоящем исследовании мы представим обзор и анализ решений этой проблемы в контексте предметной области «расстройства аутистического спектра».
Третий исследовательский вопрос формулируем следующим образом: как найти баланс между игровой составляющей диалоговой системы и ее информативностью? В нашем исследовании разрабатываемая модель предназначена как для высокофункциональных людей с аутизмом, так и для нейротипичной аудитории (без ментальных особенностей). Желательно, чтобы реплики чат-бота приглашали пользователя к игре. По крайней мере, диалоговая система должна представлять дружелюбный языковой интерфейс. При этом интерактивная составляющая системы должна быть стилистически нейтральной, иначе модель превратится в развлекательный чат-бот.
Сохранить баланс между игрой и информативностью помогут средства компьютерной лингвистики. Например, модель можно снабдить фреймами или правилами для общения с людьми в спектре аутизма. Обучающие данные можно дополнить репликами, обеспечивающими дружелюбное взаимодействие. Удачный пример — использование речевого стиля Мэри Поппинс, персонажа сказочных повестей Памелы Трэверс, в системе «Алиса» компании Яндекс [Академия Яндекса, 2020].
В ходе работы над исследованием мы консультировались с психиатрами, которые работают с детьми и взрослыми с расстройствами аутистического спектра. Это позволило нам изучить перспективы использования чат-ботов в качестве источника информации об аутизме.
Обозначим новизну данной работы. Во-первых, мы рассмотрели проблемы построения контролируемых, психологически безопасных диалоговых систем для людей в спектре аутизма и попытались найти варианты решений. Наши решения предназначены для русского языка и имеют лингвистическое обоснование. Учитывались такие факторы, как лексическое наполнение генерируемых текстов, формулировки высказывания и синтаксическая структура.
Во-вторых, мы рассмотрели этапы разработки информационных диалоговых систем для конкретной предметной области — «расстройства аутистического спектра». В Главе 3 «Подходы к построению системы» мы проанализировали возможные решения для разработки разговорных моделей этого домена. Наши решения были оценены с помощью специальных метрик. Система оценивания и результаты даны в Главе 3.
В-третьих, мы попытались изучить проблему сохранения баланса между игровой и информационной составляющей чат-бота, который впоследствии может быть внедрен в инклюзивную среду. В работе предлагаются решения на стыке компьютерных наук и лингвистики. Обсуждаются варианты модификации дизайна обучающих данных и способы разработки алгоритма. Чат-бот рассматривается как информационный посредник между нейротипичными и особенными людьми.
Актуальность настоящего исследования раскрывается в трех направлениях, которые мы обозначаем терминами «технологии», «лингвистика», «инклюзия». Суть технологического аспекта заключается в использовании нейросетевой архитектуры Transformer. На данный момент, эта система считается наиболее эффективным инструментом для обработки естественного языка. Модели, построенные на этой архитектуре (Bidirectional Encoder Representations from Transformers [Devlin et al., 2018], Generative Pre-trained Transformer [Radford, Narasimhan, 2018] и другие), эффективны в решении нетривиальных задач компьютерной лингвистики. Они находят практическое применение в таких популярных продуктах, как Google Translate [Caswell, Liang, 2020].
Лингвистический аспект актуальности работы заключается в том, что ее результаты включают языковую интерпретацию выдач компьютерных систем. Интерпретация результатов машинного обучения остается актуальной проблемой. Выдачи нейросетевых моделей до сих пор с трудом поддаются объяснению из-за большого количества обучающих параметров. Лингвистическая интерпретация играет важную роль при создании языковых интерфейсов, к которым относится наша диалоговая система. Языковой анализ незаменим, когда речь идет об инструментах для инклюзии. Язык остается основным средством коммуникации, как мост, соединяющий самых разных людей.
Инклюзивный аспект заключается в том, что результаты нашего исследования смогут найти практическое применение в образовательных организациях и учреждениях социальной защиты населения. Сегодня в России начинают активно распространять информацию о расстройствах аутистического спектра. Открываются тренировочные квартиры для людей с ментальными нарушениями, где они учатся самостоятельной жизни, создаются инклюзивные группы в детских садах, классы в общеобразовательных учреждениях. Такой инструмент, как чат-бот об аутизме, обеспечит поддержку для подобных организаций и их участников.
Наша мотивация заключается в личной необходимости в подобном инструменте. Непростой опыт жизни в инклюзивном общежитии, непонимание, трудности в общении с соседкой по комнате — девушкой с инвалидностью — вдохновили нас на создание дружелюбного приложения для нейротипичных и особенных людей.
Перечислим проблемы исследования:
1. психологическая безопасность систем искусственного интеллекта для инклюзивной среды;
2. передача информации по темам предметной области «расстройства аутистического спектра»;
3. построение дружелюбного языкового интерфейса.
Цель исследования заключается в том, чтобы по результатам экспериментов с применением различных подходов к построению диалоговых систем создать вариант методологических рекомендаций по разработке чат-ботов для поддержки инклюзии людей с расстройствами аутистического спектра. Для достижения цели поставлены следующие задачи:
1. собрать набор данных для обучения интеллектуальной диалоговой системы о расстройствах аутистического спектра;
2. провести эксперименты по тонкой настройке генеративных и экстрактивных вопросно-ответных моделей с архитектурой Transformer;
3. провести эксперименты по преобразованию дизайна и структуры обучающего набора данных с целью повышения производительности настроенных моделей;
4. провести автоматическую и ручную оценку полученных систем;
5. провести лингвистический анализ выдач модели для определения того, какие языковые особенности данных из обучающего набора влияют на техническую производительность систем;
6. по результатам исследования составить методологические рекомендации для разработчиков диалоговых систем для поддержки инклюзии людей с расстройствами аутистического спектра.
Материалом исследования послужили тексты с сайта сообщества поддержки людей с синдромом Аспергера и аутизмом, которые мы использовали с согласия администрации данного проекта [Autistic City, 2022]. Подробные сведения о том, как собирался и обрабатывался материал, даны в Главе 2 настоящего исследования «Материал исследования».
Объектом исследования стали диалоговые системы, которые могут использоваться в качестве инструмента поддержки инклюзии людей с расстройствами аутистического спектра. Предметом исследования являются алгоритмы искусственного интеллекта, которые обеспечивают работу таких диалоговых систем. Выделенные нами проблемы (например, обеспечение контролируемости и безопасности систем) были обнаружены в процессе работы с такими алгоритмами. По результатам исследования мы планируем представить методологические рекомендации для разработчиков диалоговых систем.
Методологический арсенал исследования включает общелогические, теоретические, эмпирические и специальные методы. К общелогическим методам относятся анализ и сравнение. В частности, планируется подробное изучение выдач диалоговой системы с точки зрения лингвистических особенностей сгенерированных текстов, а также их сравнение с материалами обучающего набора данных. В качестве теоретического метода будет использована проверка научной гипотезы. В качестве эмпирического метода мы выбрали эксперимент (подробное описание экспериментов представлено в Главе 3 «Подходы к построению системы»). Специальные методы компьютерной лингвистики и смежных дисциплин включают сбор и обработку материала исследования с помощью инструментов науки о данных, моделирование языковых систем, автоматическое и ручное измерение метрик оценки производительности компьютерных программ.
Мы выдвинули несколько гипотез. Во-первых, ожидается, что генеративные модели будут порождать случайные токены и нечастотные коллокации, создавать высказывания, не связанные с предметной областью диалоговой системы. Если контроль подобных выдач будет представлять трудность для разработчиков, мы не сможем рекомендовать использование генеративного подхода в качестве базового для построения диалоговой системы. Низкая предсказуемость и высокая вариативность делают модели небезопасными для людей с ментальными особенностями.
Во-вторых, предполагается, что экстрактивные системы, то есть модели, извлекающие ответ на вопрос из контекста, покажут высокие значения метрик оценки качества. Такие модели ничего не генерируют «от себя», а лишь воспроизводят отрывки текстов, полученных на входе. Мы ожидаем от таких систем высокой точности при извлечении фактов. Вероятно, они окажутся в приоритете в нашем списке рекомендаций. Следует учесть, что такие модели требуют ресурснозатратной подготовительной работы с данными, так как их производительность напрямую зависит от качества обучающих текстов.
В-третьих, предполагается, что преобразование структуры обучающего набора данных в значительной степени повлияет на производительность как генеративных, так и экстрактивных систем. Ожидается прямая зависимость между объемом обучающей выборки и производительностью систем: чем больше вопросно-ответных пар в наборе данных, тем выше будут значения метрик оценки качества независимо от архитектуры и параметров систем. Другие характеристики наборов данных (например, средняя длина ответа на вопрос), вероятно, будут в меньшей степени влиять на результат.
Поскольку продукт, описываемый в настоящем исследовании (диалоговая система для поддержки инклюзии людей с расстройствами аутистического спектра), представляет собой инструмент для благотворительной деятельности, в целях сбора обучающих данных для системы был запущен краудсорсинговый проект. Проект реализуется победителем конкурса «Практики личной филантропии и альтруизма» Благотворительного фонда Владимира Потанина. Детали краудсорсинга приведены в Главе 2 «Материалы исследования».
Эксперименты по модификации набора данных впервые были представлены нами на воркшопе Data-Centric AI в рамках конференции Conference on Neural Information Processing Systems 2021 (NeurIPS 2021) [Firsanova, 2021 (А)]. О результатах тонкой настройки моделей архитектуры Transformer мы рассказали на конференции Digital Transformation of Global Societies 2021 (DTGS 2021) [Firsanova, 2022]. Рассуждения на тему перспектив использования генеративных и экстрактивных моделей для построения чат-ботов были представлены нами на конференции Internet and Modern Society 2021 (IMS 2021) [Firsanova, 2021 (B)].
Структура используемого в настоящей работе набора данных впервые была представлена на конференции Dialogue 2021 в рамках студенческой сессии [Firsanova, 2021 (C)]. Метрики оценки производительности моделей, включая новую методику оценивания выдач диалоговых систем вручную, были описаны в одной из наших статей [Firsanova, 2021 (D)]. Впервые концепция проекта создания диалоговой системы о расстройствах аутистического спектра была представлена автором на воркшопе Human-AI Interaction в рамках 9th Conference on Artificial Intelligence and Natural Language (AINL 2020) [Firsanova, 2021 (E)]. Страница проекта представлена на сайте сообщества аналитиков данных Open Data Science (ODS) [Autism Spectrum Disorder QA, 2022].
Наше исследование представляет собой обзор существующих подходов к построению диалоговых систем для поддержки инклюзии людей в спектре аутизма. В основе исследования — эксперименты по разработке вопросно-ответных моделей с архитектурой Transformer. В ходе работы мы опирались на два распространенных подхода к разработке систем искусственного интеллекта.
В основе первого подхода лежит работа с математическими моделями, алгоритмами. В процессе его реализации мы экспериментировали с параметрами обучения моделей, исследовали возможности разных архитектур. Нам удалось сравнить характеристики генеративных и экстрактивных диалоговых систем.
Экстрактивные модели извлекают ответ из заданного контекста посредством поиска начала и конца отрывка, удовлетворяющего информационную потребность пользователя. Генеративные модели генерируют ответ на вопрос без опоры на контекст, учитывая лишь накопленные в процессе обучения знания. Мы выяснили, что экстрактивные модели проявляют себя как более предсказуемые и точные, чем их генеративные аналоги.
Разработка экстрактивных диалоговых систем представляет собой трудоемкий процесс, требующий доработки существующих архитектур посредством создания дополнительных слоев нейросетей, а также составления наборов данных, включающих не только вопросно-ответные пары, но и тексты для машинного понимания прочитанного, и метаданные с метками начала и конца ответа в контексте.
Разработка генеративных систем не требует дополнительных усилий — такие модели используют возможности мета-обучения, в частности, в процессе обучения они выводят некие языковые законы, применимые для решения новых задач без дообучения или изменения архитектуры. При этом обучение таких моделей не требует текстов для машинного чтения или особых меток. Системе достаточно принять на вход набор вопросно-ответных пар.
Однако при разработке систем для поддержки инклюзии в приоритете — точность и предсказуемость системы, а не эффективность или трудоемкость ее разработки. Наши эксперименты показали, что генеративные модели в процессе порождения текстов способны искажать информацию, заменяя темы из вопроса на другие, вероятно, более простые для машинной интерпретации. Такое «поведение» машины может привести к порождению ложных фактов и дезинформации. Мы пришли к выводу о том, что использование генеративных систем в реальной жизни возможно только в качестве эксперимента. При этом экстрактивные системы, на наш взгляд, следует использовать на практике.
В основе второго базового подхода в нашем исследовании лежит работа с данными, то есть с материалом для обучения интеллектуальных моделей. Наше исследование началось с работы над набором данных, предназначенным для построения информационных диалоговых систем о расстройствах аутистического спектра. Мы выбрали надежный информационный интернет-ресурс Autistic City, расположенный по адресу https://aspergers.ru, согласовали использование материалов с указанного сайта с его администрацией и собрали набор статей для обучающей выборки.
Структура обучающей выборки разрабатывалась по образцу стенфордского вопросно-ответного набора данных для машинного понимания прочитанного. Выборка включает наборы текстов для машинного чтения и вопросно-ответные пары. Ответы на вопросы снабжены метками, обозначающими расположение соответствующего отрывка в тексте, то есть порядковыми номерами первого и последнего символа ответа.
Вопросы имеют показатели релевантности теме текста, они могут соответствовать или не соответствовать теме текста. Нерелевантные вопросы составляют 5% выборки и включают типовые запросы, которые пользователь может вводить в систему для развлечения. Наша идея заключается в том, что модель должна научиться игнорировать интерактивные вопросы. Диалоговая система для поддержки инклюзии должна информировать, а не развлекать пользователя.
Описанный набор данных для машинного обучения составлен нами самостоятельно. На поздних этапах разработки мы привлекли краудсорсинг. Исполнителям было поручено задавать вопросы к тексту, как релевантные, так и нерелевантные. Для составления релевантных вопросов исполнителям следовало ознакомиться с текстами для машинного чтения. Для нерелевантных вопросов им предлагалось вдохновиться списком тем, популярных среди пользователей чат-ботов. Список тем мы вывели на основе личного опыта разработки и взаимодействия с чат-ботами, руководствуясь опытом коллег, блоггеров в сфере IT и ученых.
В ходе реализации подхода к машинному обучению, в основе которого лежит работа с данными, мы провели несколько экспериментов по изменению структуры набора. Мы увеличили количество ответов, уменьшили их длину, изменили число вопросно-ответных пар и дизайн набора (удалили нерелевантные вопросы). В результате мы выяснили, что использование более простой структуры (например, набора без нерелевантных вопросов), увеличение средней длины ответа и количества вопросно-ответных пар приводят к наилучшим результатам.
Использование простой структуры набора данных несколько упрощает задачу, что, с одной стороны, ограничивает возможности модели машинного обучения, а с другой — делает выдачи системы более предсказуемыми. Поскольку при разработке диалоговых систем для поддержки инклюзии важна безопасность модели, проявляющаяся в том числе в предсказуемости ее выдач, мы решили остановиться на выборе в пользу простых структур.
Увеличение средней длины ответа также облегчает задачу, поскольку обеспечивает более высокую вероятность случайного угадывания. Увеличение количества вопросно-ответных пар позволяет модели проанализировать большее количество связей и признаков, а также охватить большее количество тематических кластеров. Это обеспечивает более высокую гибкость модели, делает систему устойчивой к неожиданным вопросам пользователя.
Основанием для наших выводов по экспериментам с реализацией различных подходов к построению диалоговых систем послужили результаты автоматической и ручной оценки интеллектуальных моделей, а также итоги лингвистического анализа материала исследования. Автоматическая оценка систем производилась с применением распространенных в машинном обучении метрик — полноты, точности и F1-меры. Ручная оценка проводилась по методике, разработанной нами для данного исследования. Фокус-группе было предложено оценить набор случайных выдач обученных моделей по пятибалльной шкале и обосновать свое решение. Лингвистический анализ состоял в выделении языковых признаков, которые оказали наибольшее влияние на качество выдач моделей в соответствии с результатами ручной и автоматической оценки.
Основным выводом этой части работы стало выявление необходимости ручной оценки систем для поддержки инклюзии, поскольку результаты автоматической оценки в нашем эксперименте не совпадали с мнением фокус-группы. Значения метрик автоматической оценки показали, что наиболее производительным типом систем оказались генеративные вопросно-ответные модели. Однако респонденты выявили значительное количество отклонений от темы и высокую вероятность генерации ложных фактов в работе таких моделей. По результатам ручной оценки и лингвистического анализа наиболее надежным типом систем были признаны экстрактивные модели.
Стоит принять во внимание тот факт, что ручная оценка представляет собой ресурснозатратный процесс, требующий вычитки выходных данных моделей, поиска респондентов, составления и анализа анкет. Мы пришли к выводу о том, что гибридный подход будет оптимальным решением проблемы оценки диалоговых систем для поддержки инклюзии.
Предлагаемый гибридный подход состоит из двух этапов. На первом этапе мы оцениваем исследуемую выборку модификаций моделей и архитектур автоматически и выбираем наиболее производительные варианты. На втором этапе мы генерируем набор выдач с использованием каждой из выбранных на первом этапе моделей и предлагаем фокус-группе оценить несколько случайных выдач.
Мы не проводили исследование оптимального количества образцов выдач для ручной оценки, так как в центре нашего внимания было исследование подходов к разработке моделей, а не их отладки или оценки (для этого необходимо проведение новых полноценных исследований). Мы предполагаем, что для ручной оценки достаточно составить от 10 до 20 выдач на каждый тип модели. При использовании большего количества выдач существует риск того, что респонденты испугаются объема текстов, которые им предстоит оценить. В этом случае вместо оценки системы мы можем получить результаты случайного угадывания. В данном исследовании мы ограничились десятью образцами на каждую модель и получили активную обратную связь — респонденты пожелали продолжить обсуждение результатов работы в личной переписке с автором исследования.
Целью нашей работы было составление методологических рекомендаций для разработчиков систем для поддержки инклюзии людей с расстройствами аутистического спектра. Нам удалось достичь этой цели. Со списком рекомендаций можно ознакомиться в Приложении Г «Методологические рекомендации».
Методологические рекомендации опираются на выводы, описанные нами в конце каждого раздела практической части нашей работы. При составлении рекомендаций мы сформировали три тематических блока, каждый из которых описывает один из базовых этапов разработки диалоговых систем: составление набора данных, непосредственно разработка и оценка системы. Это распространенные этапы разработки систем искусственного интеллекта многих типов, однако наши рекомендации касаются только создания диалоговых систем для поддержки инклюзии.
Рекомендации затрагивают технические аспекты разработки таких систем и включают советы по грамотному распределению ресурсов (время, человеческий ресурс, энергоемкость). Также мы обращаем внимание на необходимость дополнительных консультаций со специалистами (например, психиатрами) и представителями целевой аудитории (например, людьми с аутизмом и их родителями). Кроме того, мы перечисляем лингвистические особенности, которые следует учитывать при разработке систем. Рассмотрим список рекомендаций подробнее.
Рекомендации, касающиеся процесса составления набора данных, включают пять пунктов, которые описывают предпочтительные особенности структуры и наполнения набора. Составляя рекомендации по разработке структуры, мы учитывали такие особенности, как количество ответов на один вопрос, средняя длина ответа, наличие и разнообразие специальных меток в наборе (дизайн набора) и его размер (количество вопросно-ответных пар). При составлении лингвистических рекомендаций мы учитывали влияние средств интенсификации, перечислений и сочинительных конструкций на производительность моделей.
Рекомендации включают три пункта о выборе архитектуры и настройке моделей. Мы комментируем выбор предобученных моделей с точки зрения влияния языковых особенностей данных для предварительного обучения на производительность системы при решении последующих задач после тонкой настройки. Также мы освещаем проблему работы с энергоемкими моделями и особенности выбора подходящей архитектуры с технической точки зрения. Например, мы описываем преимущества и недостатки одно- и двунаправленных моделей на основе собственного опыта, полученного в ходе нашей работы.
Советы по оценке систем включают два пункта. В первом мы предупреждаем разработчиков диалоговых систем о недостатках использования исключительно автоматических методов оценки. Мы рекомендуем больше внимания уделять ручной оценке таких систем, учитывать то обстоятельство, что недоработанные модели могут порождать ложные факты и создавать прецеденты для неблагоприятных ситуаций в инклюзивном сообществе. Во втором пункте мы советуем разработчикам искать методы сочетания ручной и автоматической оценки для экономии ресурсов при создании интеллектуальных систем.
В начале исследования мы выдвинули ряд гипотез о результатах работы наших систем. Мы размышляли о том, какие из наших выводов могут повлиять на состав методологических рекомендаций. Большое значение в нашей работе уделено исследованию преимуществ и недостатков генеративного и экстрактивного подходов к построению диалоговых систем.
Одна из гипотез заключалась в том, что генеративный подход может представлять опасность при разработке систем для поддержки инклюзии. Гипотеза основывалась на знаниях о том, что значительное влияние на работу генеративных алгоритмов имеет фактор случайной генерации токенов. Мы предположили, что эта особенность генеративных систем может привести к тому, что ответы на вопросы пользователей, сгенерированные моделями будут тематически отклоняться от пользовательского запроса. Гипотеза подтвердилась. Результаты ручной оценки генеративных моделей и комментарии респондентов-оценщиков показали, что такие системы часто порождают связные и грамматические корректные тексты, которые абсолютно не связаны с темами, обозначенными пользователями в их запросах.
Поэтому мы считаем использование генеративных систем небезопасным в инклюзивной среде. Однако в перспективе мы планируем провести исследование методов контроля таких моделей. На данный момент мы предполагаем, что построение тематических кластеров может стать одним из решений проблемы генеративных алгоритмов. Контролируемая генеративная система сначала будет распознавать тему из вопроса пользователя и только потом генерировать ответ на вопрос, используя веса модификаций, дообученных на материале конкретных тем.
Следующая гипотеза связана с работой экстрактивных систем. Мы предположили, что экстрактивные модели позволят достичь наивысших значений метрик автоматической оценки производительности, однако это не подтвердилось. Несмотря на то, что такие модели учатся извлекать точные цитаты из текста, что, как кажется, должно обеспечивать высокий процент угадывания ответов на вопросы пользователя, в случаях, когда экстрактивным моделям не удается найти подходящий ответ, они генерируют пустую выдачу или пару токенов без информационной нагрузки (например, частотные биграммы, такие как «по»).
Тем не менее принцип работы таких систем обеспечивает надежность и высокую точность интерпретации текстов из обучающей выборки моделью, что подтверждается результатами ручной оценки. Наши респонденты присваивали оценки «4» и «5» по пятибалльной шкале экстрактивным системам значительно чаще, чем их генеративным аналогам.
При этом экстрактивные системы требуют использования более сложных по структуре наборов данных, которые должны включать не только вопросно-ответные пары, но и контексты, а также метки, указывающие расположение ответа на вопрос в соответствующих отрывках текстов. Проблему составления набора данных удалось решить с помощью краудсорсинга.
Третья гипотеза касалась подхода к построению систем машинного обучения, в основе которого лежит работа с данными. Мы предполагали, что преобразование структуры и дизайна набора в большей степени повлияет на работу экстрактивных, нежели генеративных систем. Результаты лингвистического анализа материала исследования показали, что языковой состав и структура данных, на которых обучается модель, в равной степени влияют на производительность и особенности выдач систем вне зависимости от архитектуры. Гипотеза не подтвердилась.
Мы пришли к выводу о том, что при создании языковых моделей работе с данными следует уделять больше внимания, чем настройке алгоритма. Это касается преобразований обучающей выборки, увеличения объема наборов данных, экспериментов с составом метаданных и других опытов. Эта мысль созвучна последним идеям Эндрю Ына, который в 2021 году предложил в глобальном научном обществе проводить новые семинары и соревнования по искусственному интеллекту, в основе которого лежит работа с данными.
Мы размышляли над тем, как достичь баланса между игровой формой подачи материала и качественным информированием пользователя. Чтобы разобраться в этом вопросе, мы взяли несколько интервью у представителей некоммерческих организаций, таких как «Перспективы» (Санкт-Петербург), «Семейная усадьба» и «Равные возможности» (Иркутск), а также у представителей сообществ, которые занимаются защитой и обеспечением равных прав для различных категорий населения.
В результате мы получили более глубокое представление о том, с какими проблемами сталкиваются люди с расстройствами аутистического спектра и их близкие в повседневной жизни. Мы постарались понять, как может воспринимать мир человек в спектре аутизма. Нам удалось сформировать приблизительный список тем, которые в будущем следует осветить в наборе данных и структурировать доступный материал. Мы планируем продолжить работу над нашим проектом для поддержки людей в спектре аутизма в следующем году.
Как обеспечить качественную подачу такого сложного для интерпретации материала и при этом разработать систему, интересную для разных целевых аудиторий? Можно предположить, что экстрактивные алгоритмы должны работать в ансамбле с генеративными моделями. Генеративные языковые модели проявили себя как ненадежные, «склонные» к генерации ложных фактов, однако мы считаем, что модели для генерации изображений могут использоваться для иллюстрирования выдач диалоговых систем. Если целевой аудиторией нашей диалоговой системы станут люди в спектре, сопровождение текстов иллюстрациями будет важным элементом обеспечения доступности информации. Кроме того, иллюстрированный материал найдет отклик в сердцах молодых нейротипичных людей, которые сегодня с большим удовольствием проводят время в социальных сетях с визуальным контентом.
В заключение подчеркнем, что основной вопрос, которым мы задавались в начале исследования — как разработать систему, которая не принесет вреда — остается открытым для дискуссии. Сегодня искусственный интеллект, как наука, индустриальное течение и область философии, неразрывно связан с такими понятиями, как этика, открытость данных и борьба с ложной информацией.
Мы верим, что средства искусственного интеллекта действительно могут послужить кирпичиком для выстраивания равного, инклюзивного общества, однако следует помнить, что современные интеллектуальные системы далеки от совершенства. Они плохо поддаются контролю, порой генерируют пугающие выдачи и могут интерпретировать материал, провоцирующий и усиливающий социальное неравенство. Тем не менее в настоящей работе мы постарались рассмотреть некоторые возможности применения таких систем для поддержки инклюзии и получили обратную связь, которая позволила убедиться в том, что проведенная работа не была напрасна.
1. Академия Яндекса [Электронный ресурс] / Как устроена работа голосовых помощников. URL: https://academy.yandex.ru/posts/kak-ustroena-rabota-golosovykh-pomoschnikov (дата обращения: 10.05.2022)
2. Аль-Кайси А. Н., Архангельская А. Л., Руденко-Моргун О. И. Интеллектуальный голосовой помощник Алиса на уроках русского языка как иностранного (уровень А1) [Текст] //Филологические науки. Вопросы теории и практики. – 2019. – Т. 12. – №. 2.
3. Беломутов, Г. В. Разработка навыка на платформе Яндекс. Диалоги для управления устройствами умного дома [Текст] / Г. В. Беломутов, И. А. Мурашко // Научные Горизонты. – 2020. – № 5. – С. 255–259.
4. Белоусов А. И., Ткачев С. Б. Дискретная математика [Текст]. – 2015.
5. Блог Яндекса [Электронный ресурс] / Как победить морников: Яндекс запустил гибридную систему перевода. URL: https://yandex.ru/blog/company/kak-pobedit-mornikov-yandeks-zapustil-gibridnuyu-sistemu-perevoda (дата обращения: 12.05.2022)
6. Виртуальные ассистенты Салют [Электронный ресурс] / Алиса – голосовой помощник от компании Яндекс. URL: https://yandex.ru/alice?ysclid=l30i4o5z68 (дата обращения: 10.05.2022)
7. Дубельщиков А. А., Тутова Н. В. Навыки Яндекс. Алиса: от идеи до реализации [Текст] //Телекоммуникации и информационные технологии. – 2020. – Т. 7. – №. 2. – С. 92-97.
8. Информационный документ, Всемирный экономический форум, 2019. [Электронный ресурс] / Четвертая промышленная революция Целевые ориентиры развития промышленных технологий и инноваций. URL: https://www3.weforum.org/docs/WEF_%D0%A7%D0%B5%D1%82%D0%B2%D0%B5%D1%80%D1%82%D0%B0%D1%8F_%D0%BF%D1%80%D0%BE%D0%BC%D1%8B%D1%88%D0%BB%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F%20%D1%80%D0%B5%D0%B2%D0%BE%D0%BB%D1%8E%D1%86%D0%B8%D1%8F.pdf (дата обращения: 10.05.2022)
9. Коротков И. А., Шамурина А. И. Некоторые методы увеличения эффективности сверточной нейронной сети [Текст] //Информационные технологии XXI века. – 2020. – С. 58-65.
10. Маруся — голосовой помощник от VK [Электронный ресурс] / Mail.ru. URL: https://marusia.mail.ru/ (дата обращения: 10.05.2022)
11. Маруся | Быстрый старт | VK для разработчиков [Электронный ресурс] / Создание скилла Маруси. URL: https://vk.com/dev/marusia_skill_docs (дата обращения: 10.05.2022)
12. Ратников М. О., Чафонова А. Г. Лингвометодический потенциал виртуальных голосовых помощников (на примере системы «Алиса» компании «Яндекс») [Текст] //Вестник Воронежского государственного университета. Серия: Проблемы высшего образования. – 2019. – №. 4. – С. 64-66.
13. СберДевайсы — СберБанк [Электронный ресурс] / SberBank. URL: https://salute.sber.ru/ (дата обращения: 10.05.2022)
14. Яндекс.Авто [Электронный ресурс] / Яндекс.Авто — бортовой компьютер. URL: https://auto.yandex (дата обращения: 10.05.2022)
15. Adiwardana D. et al. Towards a human-like open-domain chatbot [Текст] //arXiv preprint arXiv:2001.09977. – 2020.
16. Autism Spectrum Disorder QA [Электронный ресурс] / Open Data Science. URL: https://ods.ai/projects/asd_qa?ysclid=l30ie5l9l5 (дата обращения: 10.05.2022)
17. Autistic City [Электронный ресурс] / Проект поддержки людей с синдромом Аспергера и аутизмом. URL: https://www.aspergers.ru (дата обращения: 10.05.2022)
18. Beveridge M., Milward D. Combining task descriptions and ontological knowledge for adaptive dialogue [Текст] //International Conference on Text, Speech and Dialogue. – Springer, Berlin, Heidelberg, 2003. – С. 341-348.
19. Bickmore T. W., Giorgino T. Some Novel Aspects of Health Communication from a Dialogue Systems Perspective [Текст] //AAAI Technical Report (4). – 2004. – С. 5-12.
20. Blinov P. et al. RuMedBench: A Russian Medical Language Understanding Benchmark [Текст] //arXiv e-prints. – 2022. – С. arXiv: 2201.06499.
21. Brown T. et al. Language models are few-shot learners [Текст] //Advances in neural information processing systems. – 2020. – Т. 33. – С. 1877-1901.
22. Caswell I., Liang B. Recent advances in Google Translate [Текст] //Google AI Blog: The latest from Google Research. – 2020.
23. Chen M. et al. Generative pretraining from pixels [Текст] //International Conference on Machine Learning. – PMLR, 2020. – С. 1691-1703.
24. Cobbe K. et al. Training verifiers to solve math word problems [Текст] //arXiv preprint arXiv:2110.14168. – 2021.
25. Compton R. et al. MEDCOD: A Medically-Accurate, Emotive, Diverse, and Controllable Dialog System [Текст] //Machine Learning for Health. – PMLR, 2021. – С. 110-129.
26. Conneau A. et al. Unsupervised Cross-lingual Representation Learning at Scale [Текст] //Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. – 2020. – С. 8440-8451.
27. Cooper A., Ireland D. Designing a chat-bot for non-verbal children on the autism spectrum [Текст] //Stud Health Technol Inform. – 2018. – Т. 252. – С. 63-68.
28. Core techniques of question answering systems over knowledge bases: a survey [Текст] //Knowledge and Information systems. – 2018. – Т. 55. – №. 3. – С. 529-569.
29. Danilov G. et al. Detection of muscle weakness in medical texts using natural language processing [Текст] //Digital Personalized Health and Medicine. – IOS press, 2020. – С. 163-167.
30. Data Ёлка 2020 [Электронный ресурс] / ODS Best Project Award. YouTube. URL: https://www.youtube.com/watch?v=TPDMRitnRXI&list=PLTlO6nV_TaGAZu5OlPdY6hEIZn0xhVIZ6&index=10 (дата обращения: 12.05.2022)
31. Devakunchari R., Rishabh A., Eshita A. A Survey of Chatbot Design Techniques [Текст] // International Journal of Engineering and Advanced Technology (IJEAT) ISSN: 2249 8958. – 2019. – T. 8. – №. 2S2.
32. Divya S. et al. A self-diagnosis medical chatbot using artificial intelligence [Текст] //Journal of Web Development and Web Designing. – 2018. – Т. 3. – №. 1. – С. 1-7.
33. FAQ Bot [Электронный ресурс] / Chit-chat in FAQ Bot. URL: https://www.faqbot.ai/post/chit-chat-in-faq-bot (дата обращения: 12.05.2022)
34. Firsanova V. Question Answering Systems and Inclusion: Pros and Cons [Текст] //«Интернет и современное общество»(Internet and Modern Society–IMS): Международная конференция. – RWTH Aahen University, 2021 (B).
35. Firsanova V. The Advantages of Human Evaluation of Sociomedical Question Answering Systems [Текст] //International Journal of Open Information Technologies. – 2021. – Т. 9. – №. 12. – С. 53-59 (D).
36. Firsanova V. The Description of The Autism Spectrum Disorder Question Answering Dataset [Текст] // Материалы студенческой сессии международной конференции Диалог 2021 (C).
37. Firsanova V. Transformer Models for Question Answering on Autism Spectrum Disorder QA Dataset [Текст] //International Conference on Digital Transformation and Global Society. – Springer, Cham, 2021. – С. 122-133.
38. Firsanova V. Two Approaches to Building Dialogue Systems for People on the Spectrum [Текст] //Conference on Neural Information Processing Systems. – 2021 (А).
39. Firsanova, V. Autism Spectrum Disorder and Asperger Syndrome Question Answering Dataset. – 2020 [Электронный ресурс] / FigShare. Dataset. URL: https://doi.org/10.6084/m9.figshare.13295831 (дата обращения: 12.05.2022)
40. Firsanova, V. Supporting the Inclusion of People with Asperger Syndrome: Building a Customizable Chatbot with Transfer Learning [Текст] //AINL: Artificial Intelligence and Natural Language Conference. Workshop on Human-AI Interaction. 7. 2021 (E).
41. Gage P. A new algorithm for data compression [Текст] //C Users Journal. – 1994. – Т. 12. – №. 2. – С. 23-38.
42. Gao J. et al. Neural approaches to conversational AI [Текст] //Foundations and trends® in information retrieval. – 2019. – Т. 13. – №. 2-3. – С. 127-298.
43. GitHub [Электронный ресурс] / GitHub - vifirsanova ASD-QA. URL: https://github.com/vifirsanova/ASD-QA (дата обращения: 12.05.2022)
44. GPT-3 Demo [Электронный ресурс] / GPT-3 Demo: 300+ GPT-3 Examples, Demos, Apps. URL: https://gpt3demo.com/ (дата обращения: 12.05.2022)
45. Guinn C. I., Hubal R. C. Augmented transition networks (ATNs) for dialog control: A longitudinal study [Текст] //Computational Intelligence. – 2006. – С. 395-400.
46. Hendrycks D., Gimpel K. Gaussian error linear units (gelus) [Текст] //arXiv preprint arXiv:1606.08415. – 2016.
47. Homma T., Atlas L. E., Marks R. J. An artificial neural network for spatiotemporal: application to phoneme classification [Текст] //Proceedings of the 1987 International Conference on Neural Information Processing Systems. – 1987. – С. 31-40.
48. Hua M., Raley R. Playing With Unicorns: AI Dungeon and Citizen NLP [Текст] //DHQ: Digital Humanities Quarterly. – 2020. – Т. 14. – №. 4.
49. Kenton J. D. M. W. C., Toutanova L. K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Текст] //Proceedings of NAACL-HLT. – 2019. – С. 4171-4186.
50. Keselj V. Speech and Language Processing [Текст]. Daniel Jurafsky and James H. Martin (Stanford University and University of Colorado at Boulder) Pearson Prentice Hall, 2009, xxxi+ 988 pp; hardbound, ISBN 978-0-13-187321-6. – 2009.
51. Lewis M. et al. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension [Текст] //Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. – 2020. – С. 7871-7880.
52. Li X. et al. A General Chinese Chatbot based on Deep Learning and Its’ Application for Children with ASD [Текст] //International Journal of Machine Learning and Computing. – 2020. – Т. 10. – №. 4. – С. 1-10.
53. Madhu D. et al. A novel approach for medical assistance using trained chatbot [Текст] //2017 international conference on inventive communication and computational technologies (ICICCT). – IEEE, 2017. – С. 243-246.
54. Microsoft [Электронный ресурс] / Документация по QnA Maker. URL: https://docs.microsoft.com/ru-ru/azure/cognitive-services/qnamaker/
55. Models - Hugging Face [Электронный ресурс] / Hugging Face. URL: https://huggingface.co/models (дата обращения: 12.05.2022)
56. Möller T. et al. COVID-QA: A Question Answering Dataset for COVID-19 [Текст] //Proceedings of the 1st Workshop on NLP for COVID-19 at ACL 2020. – 2020.
57. OpenAI API [Электронный ресурс] / OpenAI's API provides access to GPT-3. URL: https://openai.com/api/ (дата обращения: 12.05.2022)
58. Pendergrass A. et al. Inclusive scientific meetings: Where to start [Текст] //500 Women Scientists. – 2019.
59. Radford A. et al. Improving language understanding by generative pre-training [Текст] //Open AI. – 2018.
60. Radford A. et al. Language models are unsupervised multitask learners [Текст] //OpenAI blog. – 2019. – Т. 1. – №. 8. – С. 9.
61. Raffel C. et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer [Текст] //Journal of Machine Learning Research. – 2020. – Т. 21. – С. 1-67.
62. Rajpurkar P. et al. SQuAD: 100,000+ Questions for Machine Comprehension of Text [Текст] //Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. – 2016. – С. 2383-2392.
63. Rajpurkar P., Jia R., Liang P. Know What You Don’t Know: Unanswerable Questions for SQuAD [Текст] //Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). – 2018. – С. 784-789.
64. Ramachandran P., Zoph B., Le Q. V. Searching for activation functions [Текст] //arXiv preprint arXiv:1710.05941. – 2017.
65. Ruder S. et al. Transfer learning in natural language processing [Текст] //Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: Tutorials. – 2019. – С. 15-18.
66. Sanh V. et al. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter [Текст] //arXiv preprint arXiv:1910.01108. – 2019.
67. Searle J. R. Minds, brains, and programs [Текст] //Behavioral and brain sciences. – 1980. – Т. 3. – №. 3. – С. 417-424.
68. Sennrich R., Haddow B., Birch A. Neural Machine Translation of Rare Words with Subword Units [Текст] //Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). – 2016. – С. 1715-1725.
69. SmartMarket [Электронный ресурс] / RuGPT-3 — AI-модель для написания текстов. URL: https://developers.sber.ru/portal/products/rugpt-3?ysclid=l339daa39&attempt=1 (дата обращения: 12.05.2022)
70. Soufyane A., Abdelhakim B. A., Ahmed M. B. An intelligent chatbot using NLP and TF-IDF algorithm for text understanding applied to the medical field [Текст] //Emerging Trends in ICT for Sustainable Development. – Springer, Cham, 2021. – С. 3-10.
71. SQuAD Explorer [Электронный ресурс] / The Stanford Question Answering Dataset. URL: https://rajpurkar.github.io › SQuAD-explorer (дата обращения: 12.05.2022)
72. Su H. et al. Moviechats: Chat like humans in a closed domain [Текст] //Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). – 2020. – С. 6605-6619.
73. Sutskever I. – 2019 [Электронный ресурс] / GPT-2. Matroid. Presented at the Matroid Scaled Machine Learning Conference 2019. YouTube. URL: https://www.youtube.com/watch?v=T0I88NhR_9M&ab_channel=Matroid (дата обращения: 12.05.2022)
74. Sutskever I., Vinyals O., Le Q. V. Sequence to sequence learning with neural networks [Текст] //Advances in neural information processing systems. – 2014. – Т. 27. – С. 3104-3112.
75. Vaswani A. et al. Attention is all you need [Текст] //Advances in neural information processing systems. – 2017. – Т. 30. – С. 6000–6010.
76. Vatian A. et al. Comparative analysis of approaches to building medical dialog systems in Russian [Текст] //International Conference on Intelligent Data Engineering and Automated Learning. – Springer, Cham, 2019. – С. 175-183.
77. Wallace R. S. The anatomy of ALICE In: Parsing the Turing Test [Текст]. R. Epstein, G. Roberts, and G. Beber. – 2009. – С. 181–210.
78. Wang L. L. et al. CORD-19: The COVID-19 Open Research Dataset [Текст] //Proceedings of the 1st Workshop on NLP for COVID-19 at ACL 2020. – 2020.
79. Weizenbaum J. Eliza—a computer program for the study of natural language communication between man and machine [Текст] //Communications of the ACM. – 1983. – Т. 26. – №. 1. – С. 23-28.
80. Winograd T. Understanding natural language [Текст] //Cognitive psychology. – 1972. – Т. 3. – №. 1. – С. 1-191.
81. Wolf T. et al. Transformers: State-of-the-art natural language processing [Текст] //Proceedings of the 2020 conference on empirical methods in natural language processing: system demonstrations. – 2020. – С. 38-45.
82. Woods W. A. Progress in natural language understanding: an application to lunar geology [Текст] //Proceedings of the June 4-8, 1973, national computer conference and exposition. – 1973. – С. 441-450.
83. Woods W. A. Transition network grammars for natural language analysis [Текст] //Communications of the ACM. – 1970. – Т. 13. – №. 10. – С. 591-606.CHOMSKY, N. Aspects of the Theory of Syntaz. MIT Press, Cambridge, Mass., 1965.
84. Woolf M. How to make custom AI-Generated text with GPT-2 [Текст] //Max Woolf’s Blog. – 2019.
85. Xu P. et al. Attention-guided Generative Models for Extractive Question Answering [Текст] //arXiv e-prints. – 2021. – С. arXiv: 2110.06393.
86. Yoon K. Convolutional Neural Networks for Sentence Classification [Текст] //Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). – 2014. – С. 1746-1751.
87. Zhang Y. et al. DIALOGPT: Large-Scale Generative Pre-training for Conversational Response Generation [Текст] //Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. – 2020. – С. 270-278. Diefenbach D. et al.