Разработка и исследование алгоритмов информационного поиска по тематической модели с применением эволюционного подхода
|
АННОТАЦИЯ 2
ВВЕДЕНИЕ 7
1 МОДЕЛИ СИСТЕМ, ПРЕДНАЗНАЧЕННЫХ ДЛЯ РЕШЕНИЯ ЗАДАЧИ РАЗВЕДОЧНОГО ПОИСКА 10
1.1 Модели разведочного поиска информации в Интернете 10
1.1.1 Тематическое моделирование документов 10
1.1.2 Индексирование документов 23
1.1.3 Нейронные сети 26
1.2 Эволюционные алгоритмы 27
1.2.1 Определение и этапы алгоритма 27
1.2.2 Факторы, создающие сложность для ГА 30
1.3 Постановка задачи 31
1.4 Выводы по разделу 31
2 МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ПОИСКА ДОКУМЕНТОВ 33
2.1 Косинусная мера близости документов 33
2.2 Поиск и ранжирование документов по запросу, модификация
запроса 33
2.3 Математические основы генетического алгоритма 35
2.4 Выводы по разделу 37
3 РАЗРАБОТКА АЛГОРИТМОВ ПОИСКА 38
3.1 Алгоритм предварительной обработки документов 38
3.2 Алгоритм ранжирования документов по запросу 41
3.3 Алгоритм поиска релевантных документов 43
4 ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ АЛГОРИТМА
ИНФОРМАЦИОННОГО ПОИСКА 46
4.1 Построение тематической модели 46
4.2 Методика эксперимента 47
4.3 Результаты эксперимента 49
4.4 Выводы по разделу 51
ЗАКЛЮЧЕНИЕ 52
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 53
ПРИЛОЖЕНИЯ 55
ПРИЛОЖЕНИЕ 1. ТЕКСТ ПРОГРАММЫ 55
ВВЕДЕНИЕ 7
1 МОДЕЛИ СИСТЕМ, ПРЕДНАЗНАЧЕННЫХ ДЛЯ РЕШЕНИЯ ЗАДАЧИ РАЗВЕДОЧНОГО ПОИСКА 10
1.1 Модели разведочного поиска информации в Интернете 10
1.1.1 Тематическое моделирование документов 10
1.1.2 Индексирование документов 23
1.1.3 Нейронные сети 26
1.2 Эволюционные алгоритмы 27
1.2.1 Определение и этапы алгоритма 27
1.2.2 Факторы, создающие сложность для ГА 30
1.3 Постановка задачи 31
1.4 Выводы по разделу 31
2 МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ПОИСКА ДОКУМЕНТОВ 33
2.1 Косинусная мера близости документов 33
2.2 Поиск и ранжирование документов по запросу, модификация
запроса 33
2.3 Математические основы генетического алгоритма 35
2.4 Выводы по разделу 37
3 РАЗРАБОТКА АЛГОРИТМОВ ПОИСКА 38
3.1 Алгоритм предварительной обработки документов 38
3.2 Алгоритм ранжирования документов по запросу 41
3.3 Алгоритм поиска релевантных документов 43
4 ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ АЛГОРИТМА
ИНФОРМАЦИОННОГО ПОИСКА 46
4.1 Построение тематической модели 46
4.2 Методика эксперимента 47
4.3 Результаты эксперимента 49
4.4 Выводы по разделу 51
ЗАКЛЮЧЕНИЕ 52
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 53
ПРИЛОЖЕНИЯ 55
ПРИЛОЖЕНИЕ 1. ТЕКСТ ПРОГРАММЫ 55
С приходом компьютеров и сети Интернет мы можем найти любую нужную нам информацию, просто зайдя в поисковую систему. Но количество информации растет, классифицировать ее становится все труднее, и требуется найти новый способ обработки информации. Одним из возможных выходов является тематическое моделирование.
Суть тематического моделирования заключается в следующем: на входе коллекция документов, мы знаем, какие слова или термины встречаются в каждом документе, а на выходе мы хотим получить информацию о том, как документы раскладываются по темам и как каждая тема представлена в словаре терминов.
Данная задача похожа на задачу кластеризации документов, где каждый документ целиком соотносится с одним конкретным кластером. Но в тематической модели осуществляется мягкая кластеризация, позволяющая разделять документ между несколькими кластерами. Таким образом, обходится проблема синонимии и полисемии слов [1].
Концепция тематического моделирования применяется в следующих приложениях: многоязычный информационный поиск, поиск тематических сообществ (в социальных сетях), обнаружение текстового спама, анализ изображений и видеопотоков.
Особенно важно применение тематического моделирования к задаче реализации системы «разведочного поиска». Дело в том, что известные нам поисковые системы подходят, прежде всего, для поиска точных и емких ответов на короткие запросы. Но такой формат поиска не подходит для пользователей, которым нужно разобраться в новой для них предметной области, иногда даже в ограниченные сроки. Такой пользователь не знает ключевых терминов области, почти не имеет представления о структуре предметной области, не может указать точных формулировок запроса и не всегда подразумевает единственный правильный ответ. Для этих случаев необходим поиск по смыслу, а не набору ключевых слов. Запросом в парадигме разведочного поиска может являться, например, отрывок текста или документ целиком, а результатом являются актуальные данные, близкие по тематике к запросу.
Такой поиск может быть полезен как ученым и студентам, так и рядовым работникам, - задача поиска полезной информации и релевантных документов в сжатые сроки становится все более актуальной.
При реализации подобной системы может возникнуть такая проблема, как локализация поиска результатов запроса. Иногда пользователю может понадобиться документ, относящийся к другой, смежной области, и вероятность того, что этот документ будет выдан пользователю по его запросу, очень мала. Нужно так попробовать улучшить систему поиска, чтобы радиус поиска был шире и корректировался в зависимости от предпочтений пользователя.
Тематическое моделирование развивается примерно с 1999 года, когда Томас Хоффман придумал модель вероятностного латентного семантического анализа. За последние 15 лет тематических моделей придумано несколько сотен, а может, даже тысяч. В общем случае задача тематического моделирования некорректно поставлена и поэтому имеет бесконечное множество решений.
Работа посвящена разработке и исследованию алгоритмов информационного поиска по тематической модели с применением эволюционного подхода.
Первый раздел посвящен тематическому моделированию и разведочному поиску. Описаны основные модели разведочного поиска информации в Интернете, сделан обзор существующих алгоритмов, реализующих методы построения тематических моделей, выдвинута гипотеза об использовании эволюционного подхода для информационного поиска по тематической модели, рассмотрены основные этапы проведения генетического алгоритма. Также была сформулирована постановка задачи для данной работы.
Во втором разделе рассмотрена математическая модель поиска документов, приведены основные математические основы генетического алгоритма, произведено описание косинусной меры близости документов.
В третьем разделе приводятся разработанные алгоритмы предобработки исходных данных, поиска документов по тематической модели и метод учета предпочтений пользователя - генетический алгоритм.
В четвертом разделе описывается методика экспериментального исследования эффективности разработанного алгоритма, и приводятся его результаты.
Суть тематического моделирования заключается в следующем: на входе коллекция документов, мы знаем, какие слова или термины встречаются в каждом документе, а на выходе мы хотим получить информацию о том, как документы раскладываются по темам и как каждая тема представлена в словаре терминов.
Данная задача похожа на задачу кластеризации документов, где каждый документ целиком соотносится с одним конкретным кластером. Но в тематической модели осуществляется мягкая кластеризация, позволяющая разделять документ между несколькими кластерами. Таким образом, обходится проблема синонимии и полисемии слов [1].
Концепция тематического моделирования применяется в следующих приложениях: многоязычный информационный поиск, поиск тематических сообществ (в социальных сетях), обнаружение текстового спама, анализ изображений и видеопотоков.
Особенно важно применение тематического моделирования к задаче реализации системы «разведочного поиска». Дело в том, что известные нам поисковые системы подходят, прежде всего, для поиска точных и емких ответов на короткие запросы. Но такой формат поиска не подходит для пользователей, которым нужно разобраться в новой для них предметной области, иногда даже в ограниченные сроки. Такой пользователь не знает ключевых терминов области, почти не имеет представления о структуре предметной области, не может указать точных формулировок запроса и не всегда подразумевает единственный правильный ответ. Для этих случаев необходим поиск по смыслу, а не набору ключевых слов. Запросом в парадигме разведочного поиска может являться, например, отрывок текста или документ целиком, а результатом являются актуальные данные, близкие по тематике к запросу.
Такой поиск может быть полезен как ученым и студентам, так и рядовым работникам, - задача поиска полезной информации и релевантных документов в сжатые сроки становится все более актуальной.
При реализации подобной системы может возникнуть такая проблема, как локализация поиска результатов запроса. Иногда пользователю может понадобиться документ, относящийся к другой, смежной области, и вероятность того, что этот документ будет выдан пользователю по его запросу, очень мала. Нужно так попробовать улучшить систему поиска, чтобы радиус поиска был шире и корректировался в зависимости от предпочтений пользователя.
Тематическое моделирование развивается примерно с 1999 года, когда Томас Хоффман придумал модель вероятностного латентного семантического анализа. За последние 15 лет тематических моделей придумано несколько сотен, а может, даже тысяч. В общем случае задача тематического моделирования некорректно поставлена и поэтому имеет бесконечное множество решений.
Работа посвящена разработке и исследованию алгоритмов информационного поиска по тематической модели с применением эволюционного подхода.
Первый раздел посвящен тематическому моделированию и разведочному поиску. Описаны основные модели разведочного поиска информации в Интернете, сделан обзор существующих алгоритмов, реализующих методы построения тематических моделей, выдвинута гипотеза об использовании эволюционного подхода для информационного поиска по тематической модели, рассмотрены основные этапы проведения генетического алгоритма. Также была сформулирована постановка задачи для данной работы.
Во втором разделе рассмотрена математическая модель поиска документов, приведены основные математические основы генетического алгоритма, произведено описание косинусной меры близости документов.
В третьем разделе приводятся разработанные алгоритмы предобработки исходных данных, поиска документов по тематической модели и метод учета предпочтений пользователя - генетический алгоритм.
В четвертом разделе описывается методика экспериментального исследования эффективности разработанного алгоритма, и приводятся его результаты.
В ходе выполнения выпускной квалификационной работы были изучены методики и принципы построения тематических моделей. Также разработан алгоритм подготовки исходных данных для тематических моделей.
С помощью библиотеки BigARTM была построена тематическая модель, с использованием которой разрабатывался алгоритм поиска документов. Был разработан алгоритм улучшения результатов поиска, использующий эволюционный подход.
Разработанные алгоритмы были реализованы в виде подключаемого модуля для языка Python 3. Данный модуль можно использовать для других проектов, где требуется функционал поиска по тематическим моделям или предобработки текстовых данных для работы с ними.
Также была разработана методика для экспериментального исследования описанного алгоритма поиска. Проведённые эксперименты продемонстрировали эффективность разработанного метода - с помощью применения эволюционного подхода эффективность поиска удалось улучшить на 29%.
Таким образом, поставленные на выпускную квалификационную работу задачи были выполнены, цель достигнута, но тематическое моделирование, как и информационный поиск с его использованием - это относительно молодая и чрезвычайно обширная сфера для дальнейших исследований и совершенствований, в которой на сегодняшний день остается множество нерешенных задач и объектов для изучения и улучшения.
С помощью библиотеки BigARTM была построена тематическая модель, с использованием которой разрабатывался алгоритм поиска документов. Был разработан алгоритм улучшения результатов поиска, использующий эволюционный подход.
Разработанные алгоритмы были реализованы в виде подключаемого модуля для языка Python 3. Данный модуль можно использовать для других проектов, где требуется функционал поиска по тематическим моделям или предобработки текстовых данных для работы с ними.
Также была разработана методика для экспериментального исследования описанного алгоритма поиска. Проведённые эксперименты продемонстрировали эффективность разработанного метода - с помощью применения эволюционного подхода эффективность поиска удалось улучшить на 29%.
Таким образом, поставленные на выпускную квалификационную работу задачи были выполнены, цель достигнута, но тематическое моделирование, как и информационный поиск с его использованием - это относительно молодая и чрезвычайно обширная сфера для дальнейших исследований и совершенствований, в которой на сегодняшний день остается множество нерешенных задач и объектов для изучения и улучшения.





