Тип работы:
Предмет:
Язык работы:


Автоматизированное извлечение реплик, свидетельствующих об отрицательной оценке собеседника, из человеко-машинных диалогов различной тематики

Работа №69677

Тип работы

Дипломные работы, ВКР

Предмет

лингвистика

Объем работы69
Год сдачи2018
Стоимость4365 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
93
Не подходит работа?

Узнай цену на написание


Введение 3
Раздел 1: История вопроса 9
Раздел 2: Сбор материала 15
Постановка проблемы 15
Чатбот pBot 17
Чатбот Маришко 18
Инфы 18
Форум инфов 20
Инф Кармен 22
Инф Aplgallery 22
Инф Alisa_fpml 23
Сравнение источников 23
Первичная обработка материала 25
Раздел 3: Создание признакового пространства 27
Постановка проблемы 27
Автоматический метод: doc2vec 28
Контролируемый метод 36
Гибридный метод 44
Раздел 4: Классификация 48
Постановка проблемы 48
Обзор существующих решений 50
Создание и обучение моделей 52
Подготовка выборки 52
Выбранные методы 53
Autoencoder 53
One-Class Support Vector Machine 54
Elliptic Envelope 55
Local Outlier Factor 56
Isolation Forest 56
Сводная таблица методов 57
Применение лучших моделей ко всему корпусу 58
Раздел 5: Выводы 59
Приложение 1 61
Приложение 2


Системы, обеспечивающие общение человека с компьютером на естественном языке, в последние годы приобрели невероятную популярность. В русскоязычном мире событием стало появление Яндекс.Алисы - голосового помощника для мобильных и настольных устройств, способного находить файлы, решать повседневные задачи и поддерживать разговор на любую тему.
В связи с увеличением количества систем, обеспечивающих человеко-машинный диалог, и ростом их аудитории остро встаёт вопрос оценки диалоговых систем. Несмотря на давнюю историю вопроса (см. Раздел 1), в настоящее время не существует метода однозначной объективной оценки качества диалоговой системы. Нельзя не отметить, что затруднительность создания метода оценки качества главным образом обусловлена размытостью понятия «качество диалоговой системы».
Поскольку диалоговые системы зачастую выполняют роль интерфейса и ориентированы в первую очередь на пользователей, удовлетворённость пользователя часто принимается за мерило качества системы.
Настоящее исследование посвящено теме автоматизированного извлечения реплик, свидетельствующих об отрицательной оценке собеседника, из человеко-машинных диалогов различной тематики.
Цель исследования заключается в том, чтобы с помощью лингвистических и компьютерных методов правильно определить искомые реплики и точно извлечь их из коллекции имеющихся данных.
Объектом исследования являются реплики, свидетельствующие об отрицательной оценке собеседника. Под этим термином понимаются реплики (высказывания), содержащие недовольство либо собеседником в целом (см. Пример 1 в Таб. 1), либо коммуникативной ситуацией (см. Пример 2 в Таб. 1), либо отдельными параметрами собеседника (см. Пример 3 в Таб. 1)или ситуации (см. Пример 4 в Таб. 1). 
Следует отметить, что под недовольством в данном случае понимается широкий спектр различных негативных эмоций, от непонимания до гнева, включая прямые оскорбления и ироничные рекомендации. Для обозначения подобных реплик в англоязычных источниках используется термин negative feedback(подробнее о термине см. в Разделе 1), в русскоязычных встречается калька отрицательная обратная связь. Все эти понятия обозначают некоторые языковые явления, содержащие некоторые элементы, направленные на взаимодействие с собеседником и выражающие отрицательное отношение к чему-либо, связанному с ситуацией. Это определение ни в коей мере не претендует на формальное, однако некоторым образом очерчивает круг искомых элементов.
Материалом исследования послужили диалоги, созданные в режиме реального времени (через специальные интерфейсы на сайтах в режиме мгновенных сообщений или через сообщения в социальных сетях) в текстовом виде на русском языке.
Материал ограничен только текстовыми сообщениями и не учитывает голосовое общение между человеком и компьютером по ряду причин. Во-первых, сбор голосовых данных сложен с методологической и этической точки зрения (подробнее см. исследования, использующие методы проекта «Один речевой день» [Хониева 2016]). Во-вторых, расшифровка голосовых данных ресурсоёмка, так как требует длительного времени работы эксперта. В силу этих двух особенностей корпуса устных человеко-машинных диалогов крайне малы по объёму. В-третьих, при голосовом общении люди, как правило, не ведут длинных диалогов, поскольку необходимый для этого алгоритм действий (нажать кнопку - записать свой голос - убрать кнопку - подождать ответа - услышать ответ) всё же ещё не совсем естествен для повседневного общения - в отличие от мгновенных текстовых сообщений, занимающих важное место в картине ежедневной коммуникации. Было замечено, что голосом люди чаще всего пользуются для решения конкретных оперативных задач (позвонить, найти дорогу, внести событие в календарь). Свободное общение с голосовыми ассистентами чаще всего строится по парам вопрос-ответ, не представляя собой целостного диалога. Все эти особенности делают голосовые диалоги между людьми и компьютерными диалоговыми системами не совсем подходящим материалом для исследования в рамках заявленной темы. Однако не исключено, что в отдалённой перспективе или с определёнными поправками будет возможно провести подобное исследование и на материале устных диалогов.
Выбор языка диалогов также нуждается в пояснении. Большинство исследований основаны на англоязычном материале, что имеет ряд преимуществ. С методологической точки зрения выбор английского языка удобен, поскольку существует немало готовых коллекций данных и уже натренированных моделей для работы с ними, что позволяет не тратить время и усилия на разработку новых методов и сосредоточиться на лингвистических наблюдениях. С компьютерно-лингвистической точки зрения английский язык удобен, поскольку его морфологическое и синтаксическое разнообразие относительно невелико, что позволяет получать более точные результаты при автоматизированной обработке. С практической лингвистической точки зрения работа с английским языком перспективна, поскольку большое количество речи в интернете создается именно на нём, и изучение специфики выражения недовольства может оказаться полезным для различных других исследований. Тем не менее, мы предполагаем, что введение в научный и практический обиход русскоязычных материалов не только оправдано, но и необходимо. Русскоязычное интернет-сообщество и русскоязычный мир в целом достаточно велики, чтобы его изучение имело не только теоретический, но и практический интерес. Это требует развития методологии и инфраструктуры (корпусов, программ и др.), учитывающих специфику русского языка, в частности, его синтаксические и морфологические особенности. Мы предполагаем, что некоторые результаты настоящего исследования смогут быть полезными для развития в этом направлении.
Отдельно следует пояснить, что задача сопоставления результатов, созданных на различном материале, в настоящем исследовании не ставилась. Во-первых, данные могут быть собраны по различным принципам, что затруднит их сравнение. Во-вторых, могут присутствовать так называемые скрытые переменные, которые не учитываются в каждом из отдельных исследований, но могут играть роль при сопоставлении. В-третьих, мы полагаем, что без достаточно тщательного изучения материалов одного типа, не следует переходить к сравнению, поскольку достоверность результатов может вызывать сомнения.
Выбор материала также обусловлен выбором тематики и цели диалогов. Традиционно производится деление диалоговых систем на целеориентированные (goal- oriented) и не целеориентированные (non goal oriented). Первых систем в настоящее время значительно больше, чем вторых, и они постоянно создаются. Вторые системы сложнее и интереснее для анализа. В нецелеориентированных системах покрываются различные темы, которые могут меняться в процессе одного диалога. Важнейшим отличием таких систем является отсутствие естественного критерия успешности диалога. В то время как при решении конкретной задачи успешным можно считать случай, когда задача решена, и неуспешным случай, когда задача не решена, в режиме свободного диалога нельзя сказать, в какой момент произошла коммуникативная неудача (если вообще произошла). Мы полагаем, что в свободных диалогах различной тематики недовольство одного из собеседников оказывается важнейшим критерием оценки качества диалога. Именно поэтому настоящее исследование основывается на материале именно таких систем.
Актуальность темы обусловлена актуальностью материала и новизной подходов. Большинство существующих работ по теме оценки диалоговых систем написаны на материале английского, в то время как настоящее исследование выполнено на материале русского языка. Также большинство работ выполнено на материале целеориентированных (goal-oriented) диалоговых систем, в то время как настоящее исследование основывается на не целеориентированных (non goal-oriented). Существующие методы оценки диалоговых систем используют автоматизированные алгоритмические решения для учёта технических характеристик диалога (количество реплик, среднее время ожидания ответа и др., подробнее см. в [Moller 2005]), однако целью настоящего исследования является автоматизированное извлечение некоторых реплик на основе их содержания (реплик, объединённых общей тематикой неудовлетворённости).
Исследование имеет теоретическую и практическую значимость. В лингвистической теории результаты работы могут помочь лучше понять специфику выражения недовольства в современном русском языке и особенности употребления различных оценочных номинаций людей. Также работа способствует развитию изучения человеко-машинных диалогов как новой формы коммуникации. Эти исследования могут быть полезны как для специалистов по изучению диалогической речи, так и для специалистов, изучающих поведение людей в различных коммуникативных ситуациях. Значимость исследования для компьютерной лингвистики состоит в том, что оно представляет подробное исследование некоторых методов классификации и предлагает поправки для их применения в нестандартных ситуациях. Впоследствии методы с этими поправками можно будет использовать для решения других задач классификации неразмеченных несбалансированных данных.
Практическая значимость работы состоит в том, что исследование является шагом к ещё не созданной, но уже очень востребованной на рынке системе автоматической оценки качества диалога. Системы автоматизированного определения реплик, свидетельствующих о неудовлетворённости, помогут компаниям, владеющим диалоговыми системами, узнавать о случаях недовольства в режиме реального времени и, возможно, применять адаптивные стратегии для совершенствования диалоговых систем. Кроме того, автоматизированный поиск неудовлетворительных коммуникативных ситуаций позволит компаниям получать более полную информацию об успешности их систем. Конечно, в настоящее время во многих системах реализована возможность эксплицитного выражения пользовательского отношения к системе: под репликами диалогового агента (бота) появляются кнопки «нравится» и «не нравится». Однако люди используют их далеко не во всех случаях, когда не удовлетворены репликой бота. Автоматизированное извлечение подобных реплик снимет нагрузку и с пользователей, и с разработчиков подобных систем отзыва.
В соответствии с поставленной целью исследование предполагает решение ряда задач, коррелирующих с этапами исследования:
1. Ознакомиться с литературой по теме оценки диалоговых систем и методам классификации.
2. Создать корпус материалов.
3. Представить тексты в численном виде.
4. Оценить приемлемость методов для достижения цели и выбрать лучшие.
5. Обучить компьютерные модели и оценить их результативность на небольшой выборке.
6. Выбрать лучшую модель и применить её ко всему корпусу.
7. Оценить качество извлечения реплик.
Работа организована в соответствии с хронологическим (и логическим) порядком решения поставленных задач. Раздел 1 содержит обзор литературы. Раздел 2 посвящён описанию процедуры сбора и предварительной обработки материалов. Раздел 3 представляет методы, использованные для преобразования текстов в численные векторы и освещает некоторые промежуточные результаты, связанные с оценкой применяемых методов. Раздел 4 подробно описывает методы классификации текста, содержит обоснование выбора методов для настоящего исследования, а также результаты. Раздел 5 суммирует и интерпретирует результаты, а также предлагает ряд задач для дальнейших исследований. Работа завершается списком процитированной литературы и Приложением

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Из настоящего исследования можно сделать ряд выводов как лингвистического, так и методологического характера, которые помогут в дальнейшем развиваться направлению автоматической оценки диалоговых систем.
1. Реплики, свидетельствующие об отрицательной оценке собеседника, в русском языке могут оформляться различными лексическими и синтаксическими средствами, что делает их весьма сложными для изучения.
2. Выбранные методы классификации оправдывают своё применение в настоящем исследовании.
3. Значительная несбалансированность данных может быть частично преодолена на этапе обучения и тестирования, однако приводит к снижению результатов при применении к большему объёму данных.
4. Тем не менее, некоторые результаты обучения приближаются к получаемым в других исследованиях (в частности, [Gamon 2004]).
5. Признакового пространства малой размерности оказывается недостаточно для того, чтобы получить хорошие результаты классификации.
6. Признаковые пространства большой размерности демонстрируют разные результаты как на этапе тестирования, так и на этапе извлечения реплик, однако эти результаты могут быть высокими.
Цель настоящего исследования достигнута, но остаётся ряд интересных проблем, которые следовало бы решить в дальнейшем. Как нам кажется, следует проводить больше исследований на русскоязычном материале, поскольку это имеет как научную, так и практическую ценность. Создание корпуса человеко-машинных диалогов могло бы стать самостоятельным проектом. Улучшение качества уже имеющихся алгоритмов, а также поиск новых признаковых пространств могли бы позволить создать мощный инструмент оценки содержания диалоговых корпусов. Расширение материала исследования (например, извлечение также реплик с положительной тональности) могло бы позволить точнее оценивать диалоговые системы. Хочется надеяться, что в скором времени подобные исследования всё же приведут к созданию единому автоматизированному алгоритму оценки диалоговых систем.
Номер признака Что обозначает Как считается



Асиновская Е. Ю. Проблема создания диалогового агента «самобранка» для обслуживания клиентов ка-фе и ресторанов : Выпускная квалификационная работа бакалавра филологии / Асиновская Е. Ю. — СПбГУ, 2016. — Рукопись.
Лукашевич Н. Тезаурусы в задачах информационного поиска. — Москва : Изд-во Московского университета, 2011.
Лукашевич Н., Левчик А. Создание лексикона оценочных слов русского языка РуСентиЛекс // Труды конференции OSTIS-2016. — С. 377—382.
Меньшиков И. Л., Кудрявцев А. Г. Обзор систем анализа тональности текста на русском языке // Молодой ученый. —2012. —№ 12. — С. 140—143. —URL: https : //moluch. ru/archive/47/5951/ (дата обр. 10.06.2018).
Хониева Е. А. Взаимодействие с интеллектуальной голосовой технологией: организация диалога и представления пользователей: Диссертация на соискание квалификационной степени магистра / Хониева Е. А. — СПбГУ, 2016. — Рукопись.
Barnabe-Lortie V.Active Learning for One-Class Classification : Thesis submitted to the Faculty of Graduate and Postdoctoral Studies in partial fulfillment of the requirements for the MCS degree in Computer Science / Barnabe-Lortie Vincent. — University of Ottawa, Canada, 2015.
Bell L., Gustafson J. Positive and Negative User Feedback in a Spoken Dialogue Corpus // Sixth International Conference on Spoken Language Processing. Т. 1. — Beijing : International Speech Communication Association, 2000. — С. 589—592.
Brennan S. E., Hulteen E. A. Interaction and feedback in a spoken language system: A theoretical framework // Knowledge-Based Systems. — 1995. — Т 8, № 2/3. — С. 143—151.
BreunigM.M., Kriegel H.P., Ng R. T., Sander J. LOF: identifying density-based local outliers // ACM sigmoid record. — 2000. — Май.
Chen Y, Skiena S. Building Sentiment Lexicons for All Major Languages // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) / под ред. K. Toutanova, H. Wu. — Baltimore : Association for Computational Linguistics, 2014. — С. 383—389.
Eckert W., Levin E., Pieraccini R. Automatic evaluation of spoken dialogue systems // TWLT13: Formal semantics and pragmatics of dialogue. — 1998. — С. 99—110.
Estabrooks A., Jo T, Japkowicz N. A Multiple Resampling Method for Learning from Imbalanced Data Sets // Computational Intelligence. — 2004. — № 20. — С. 18—36.
Gamon MM. Sentiment classification on customer feedback data: noisy data, large feature vectors, and the role of linguistic analysis // Proceedings of the 20th international conference on Computational Linguistics. — Stroudsburg : Association for Computational Linguistics, 2004. — С. 841—847.
Gandhe S., Traum D. An evaluation understudy for dialogue coherence models // Proceedings of the 9th SIGdial Workshop on Discourse and Dialogue / под ред. D. Schlangen, B. A. Hockey. — Columbus : Association for Computational Linguistics, 2008. — С. 172—181.
Gass S. MM. Input, interaction, and the second language learner. — 1997.
Griol D., Hurtado L. F, Segarra E., Sanchis E. A statistical approach to spoken dialog systems design and evaluation // Speech Communication. — 2008. — Т. 50, № 8. — С. 666—682.
Harris Z. S. Distributional structure // Word. — 1954. — Т 10, № 2/3. — С. 146—162.
He H., Garcia E. A. Learning from imbalanced data // IEEE Transactions on knowledge and data engineering. —
2009. — Т 21, № 9. — С. 1263—1284.
Higashinaka R., Funakoshi K., Araki M., Tsukahara H., Kobayashi Y, Mizukami / /.Towards Taxonomy of Errors in Chat-oriented Dialogue Systems // Proceedings of the 16th Annual Meeting of the Special Interest Group on Discourse and Dialogue / под ред. A. Koller, G. Skantze, F. Jurcicek, M. Araki, C. Penstein Rose. — Prague : Association for Computational Linguistics, 2015. — С. 87—95.
Iwashita N. Negative feedback and positive evidence in task-based interaction: Differential effects on L2 development // Studies in Second Language Acquisition. — 2003. — Т 25, № 1. — С. 1—36.
Japkowicz N. Supervised versus unsupervised binary-learning by feedforward neural networks // Machine Learning. — 2001. — Т 42, № 1/2. — С. 97—122.
Kay P., Fillmore C. J.Grammatical constructions and linguistic generalizations: the What’s X doing Y? construction // Language. — 1999. — Т 75, № 1. — С. 1—33.
Keizer S., Bunt H. Evaluating combinations of dialogue acts for generation // Proceedings of the 8th SIGdial Workshop on Discourse and Dialogue / под ред. S. Keizer, H. Bunt, T Paek. — Antwerp : Association for Computational Linguistics, 2007. — С. 158—165.
Lau J. H., Baldwin T. An empirical evaluation of doc2vec with practical insights into document embedding generation//CoRR. — 2016. — arXivpreprint: arXiv:1607.05368. — (Датаобр. 10.06.2018).
Laurikkala J.Improving Identification of Difficult Small Classes by Balancing Class Distribution // Proceedings of the Conference AI in Medicine in Europe: Artificial Intelligence Medicine. — 2001. — С. 63—66.
LeQ., Mikolov T. Distributed representations of sentences and documents // Proceedings of the 31st International Conference on International Conference on Machine Learning. Т 32. Ч. 2. — Beijing, 2014. — С. 1188— 1196.
Litman D. J., Pan S. Empirically Evaluating an Adaptable Spoken Dialogue System // UM ’99: Proceedings of the seventh International Conference on User Modeling / под ред. J. Kay. — New-York: Springer, 1999. — С. 55—64.
Litman D. J., Pan S., Walker M. A. Evaluating Response Strategies in a Web-Based Spoken Dialogue Agent // Proceedings of the 17th international conference on Computational linguistics. Т 2 / под ред. C. Boitet, P. Whitelock. — Stroudsburg : Association for Computational Linguistics, 1998. — С. 780—786.
Liu C.-W, Lowe R., Serban I. V., Noseworthy M., Charlin L., Pineau J. How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation // CoRR. — 2016. — arXivpreprint: arXiv:1603.08023. — (Датаобр. 10.06.2018).
Liu F T, Ting K. M., Zhou Z.-H. “Isolation forest.” Data Mining // ICDM‘08. Eighth IEEE International Conference. — 2008.
Lughofer E. Hybrid active learning for reducing the annotation effort of operators in classification systems. Pattern Recognition. — 2012.
Maslova N., Potapov V. Neural Network Doc2vec in Automated Sentiment Analysis for Short Informal Texts // 19th International Conference on Speech and Computer / под ред. A. Karpov, R. Potapova, I. Mporas. — Cham : Springer, 2017. — С. 546—554.
Mena L., Gonzalez J. A. Symbolic one-class learning from imbalanced datasets: application in medical diagnosis // International Journal on Artificial Intelligence Tools. — 2009. — Т 18, № 02. — С. 273—
309.
Mescheryakova E. I., Nesterenko L. V. Domain-Independent Classification of Automatic Speech Recognition Texts // Computational Linguistics and Intellectual Technologies: papers from the Annual conference “Dialogue”. Т 16 / под ред. V. P. Selegey. — Moscow : RSUH, 2017. — С. 146—154.
Mikolov T., Chen K., Corrado G., Dean J.Efficient estimation of word representations in vector space // CoRR. — 2013. — arXiv preprint: arXiv:1301.3781. — (Датаобр. 10.06.2018).
Moller S. Parameters for Quantifying the Interaction with Spoken Dialogue Telephone Services // 6th SIGdial Workshop on Discourse and Dialogue / под ред. L. Dybkjsr, W. Minker. — Lisbon : International Speech Communication Association, 2005.
Paek T. Empirical Methods for Evaluating Dialog Systems // Proceedings of the ACL 2001 Workshop on Evaluation Methodologies for Language and Dialogue Systems. Т 9 / под ред. P Paroubek. — Stroudsburg : Association for Computational Linguistics, 2001. — С. 1—9.
QasemiZadeh B., Kallmeyer L., Passban P. Sketching Word Vectors Through Hashing // CoRR. — 2017. — arXivpreprint: arXiv:17 05.04253. — (Датаобр. 10.06.2018).
Rousseeuw P, Van Driessen K. A fast algorithm for the minimum covariance determinant estimator // Technometrics. — 1999. — Т. 41, № 3.
Scholkopf B. Estimating the support of a high-dimensional distribution // Neural computation. — 2001. — Т 13, № 7.
Sun Y. Cost-sensitive boosting for classification of imbalanced data : A thesis presented to the University of Waterloo in fulfilment of the thesis requirement for the degree of Doctor of Philosophy / Sun Yanmin. — University of Waterloo, Canada, 2007.
Walker M.A., LitmanD. J., Kamm C.A., AbellaA. PARADISE: A Framework for Evaluating Spoken Dialogue Agents // Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics / под ред. P R. Cohen, W. Wahlster. — Stroudsburg : Association for Computational Linguistics, 1997. — С. 271— 280.
Weiss G. M., Provost F The Effect of Class Distribution on Classifier Learning: An Empirical Study // Technical Report MLTR- 43. — Dept. of Computer Science, Rutgers University, 2001.
Yang Z., Levow G. A., Meng H. Predicting user satisfaction in spoken dialog system evaluation with collaborative filtering // IEEE Journal of Selected Topics in Signal Processing. — 2012. — Т 6, № 8. — С. 971—981.


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ