Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
ℹ️Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.
ВВЕДЕНИЕ 3
1 МЕТОДЫ АНАЛИЗА ПОХОЖИХ ДОКУМЕНТОВ 6
1.1 Анализ текстов 6
1.2 Методы для поиска похожих документов 9
1.3 Анализ трендов 21
1.4 Сравнение методов анализа текста 25
1.5 Выводы 26
2 ПОСТРОЕНИЕ ПРОЦЕССА ОБУЧЕНИЯ МОДЕЛИ 28
2.1 Процесс поиска похожих документов изнутри 28
2.2 Обучение модели 31
2.3 Производительность 53
2.4 Результаты и выводы 56
3 ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ПОЛУЧЕННОЙ МОДЕЛИ ПОИСКА ПОХОЖИХ
ДОКУМЕНТОВ 57
3.1 Бизнес-план 57
3.2 Команда проекта 73
3.3 Декомпозиция работ 79
3.4 Полная модель организации 82
3.5 Экономическое обоснование 89
3.6 Результаты экспериментов 96
3.7 Результаты над итоговой выборкой 105
3.8 Обсуждение результатов 111
3.9 Результаты и выводы 113
ЗАКЛЮЧЕНИЕ 114
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 115
📖 Введение
Актуальность и новизна исследования
В последнее время появляется всё больше систем «вопрос-ответ», в которых обычные пользователи на разных форумах отвечают на вопросы таких же обычных пользователей. У спрашивающего возникает вопрос времени ожидания ответа на свой вопрос. Система проектирования, которую будет раскрыта в диссертации, позволила бы спрашивающему найти ответы в похожих вопросах других пользователей. Данная разработка помогла бы и тем пользователям, которые не написали свой вопрос, а ищут похожие вопросы на предмет поиска ответов.
Такая система позволит увеличить точность таких прогнозов, облегчить внедрение на сайт, дать пользователям более быстрый ответ на их вопросы и т.п.
Цели исследования
Целью магистерской диссертации является проектирование удобной и быстрой системы для поиска похожих текстов. Эта система позволит находить документы схожих тематик быстро и прозрачно для конечного пользователя и его интересов.
Задачи исследования
Для достижения вышеуказанных целей необходимо выполнить следующую работу:
• Обработка текста. Компьютер понимает текст как упорядоченный набор символов. Он не видит за ними никакого смысла, поэтому необходимо преобразовать текст к такому виду, чтобы методы машинного обучения могли найти между ними смысл.
• Изучение теоретической части по векторизации слов. Векторизация слов (word embedding) новый подход, по которому появляются всё новые статьи. Данный подход позволяет представить слово в виде вектора чисел небольшой длины, который значительно уменьшает пространство всего корпуса слов и предоставляет удобные механизмы для работы с векторами.
• Описание применяемых алгоритмов машинного обучения.
• Проектирование алгоритма для определения оптимальных параметров модели. Следует разработать сам процесс нахождения оптимальной модели, как именно к ней подобрать параметры.
• Разработка модели. На основе предположений из предыдущего пункта начать написание кода для системы поиска похожих текстов.
• Применение модели на практике. Применение полученного алгоритма на тестовых примерах, получение результатов разных метрик качества.
• Обсуждение результатов работы спроектированной модели. Какие перспективы несёт эта разработка пользователям и компаниям.
Объект и предмет исследования
Объектом исследования являются модели и методы похожести документов.
Предметом исследования являются возможность создания модели, которая будет проверять похожесть документов и которая создана на основе нейронной сети 4ос2уес.
Методы
Столп, на котором будет основана система, — это векторизация документов. Этим решается проблема понижения размерности данных и производительности.
Согласно научным статьям, векторизация слов и документов в виде word2vec (doc2vec) обеспечивает лучшее качество на больших корпусах, чем ЬЗЛ, РЬЗЛ, БЭЛ. Хорошо работает, если слов более 10 млн. Корпус вопросов с сайта Бухонлайн как раз большой, около 600000 документов.
После 2014 года '№оМ2уее стал популярным алгоритмом. Теория, которая за ним скрывается, весьма эффективна. Word2veе основывается на окрестности слова, чтобы собрать вектор слова. Чем больше текста, тем меньше вероятность взятия аномальных смыслов, берется только самое распространённое и общее вокруг слова. Чуть позже появилась реализация vord2vee для документов с текстом - doc2vec. Согласно исследованиям качества разных моделей, doc2vec показывает результаты по похожести документов лучше, чем LSA, PLSA, LDA. В настоящее время doc2vec показывает превосходные результаты при классификации тональности рецензий из базы данных IMDB, обеспечивая уровень ошибок всего 7,42%.
Основная задача состоит в том, чтобы грамотно построить систему, которая бы быстро и качественно выдавала список похожих документов.
Каждый документ будет представлен вектором, тегом и id. Благодаря тому, что документ представлен в виде вектора, сравнивать документы между собой становится быстрее. Тег и id позволяет однозначно связать его с оригинальным экземпляром сущности.
Будет использоваться поиск по сетке на основе некоторого диапазона значений, выбранных из практических соображений.
Поиск похожих документов будет основан на Approximate k-nearest neighbors, который обеспечит скорость поиска похожих документов в 100 раз больше, чем поиск с помощью честного алгоритма k-nearest neighbors.
Научная значимость
Популяризация векторного представления слов для представления огромного корпуса слов в вектор компактной длины, что позволит осуществлять быстрый поиск по ним.
Практическая значимость
При внедрении этой системы компании могут сделать клиентов более лояльными из-за более быстрого и точного поиска ответа на их вопрос.
Структура диссертации
Диссертация состоит из трёх глав. В первой главе будет рассказано о подобных системах, смысле искать похожие тексты в задачах бизнеса. Вторая глава будет посвящена методам, которыми мы будем пользоваться для получения результатов, описанных в первой главе. В третьей главе обсудим полученные результаты, как их можно применить на практике и планы на будущее.
✅ Заключение
В работе была раскрыта тема векторного представления документа. Было показано на практике, как можно с помощью doc2vec находить похожие документы. Были изучены самые популярные методы поиска похожих документов и сделан вывод о предпочтении doc2vec. Была описана работа метода word2vec и основанного на нём doc2vec.
После чего была описана стратегия, которая позволила получить наилучшее качество модели doc2vec. Был проведён ряд экспериментов, который показал, на каких данных doc2vec раскрывает свой потенциал. Также были определены слабые и сильные стороны этого подхода.
Было обнаружено, что длина вектора документа растёт с увеличением корпуса текстов. Также с увеличением корпуса текстов растёт и качество модели.
До 2013 года, когда появился word2vec, работали с матрицей вхождения слов в документы, из-за чего размерность матрицы была высокой. Векторное представление документов позволило сократить размерность, благодаря чему работать с документами стало проще и доступнее.
Задача классификации текстов, для которой чаще всего используют логистическую регрессию, скорее всего бы не подошла для поиска похожих документов, так как заранее могут быть неизвестны классы выборки. Взяв некоторую часть выборки, разметить её, использовать в качестве тестовой выборки для подбора гиперпараметров doc2vec, которые зависят от корпуса текстов, на основе средней арифметической точности будет более разумным решением.
Алгоритмы 1АЛ, Р1АЛ, 14)Л также используют для задач, в которых корпус слов маленький, так как качество на них лучше, чем йое2уее. Данных становится всё больше и больше, корпуса текста значительно увеличиваются в размерах, и всё чаще для подобных задач стали использовать йое2уее.