Тема: Методы машинного обучения и нейронных сетей
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Перечень условных обозначений, символов, единиц, сокращений и
терминов 3
Введение 5
Глава 1 7
1.2 Постановка требований 9
1.3 Обзор программных систем существующих на рынке 9
Глава 2 11
2.1 Проектирование архитектуры 11
2.2 Формат сообщений 12
2.3 Формат общения между модулями 12
2.4 Организация работы 12
2.5 Выбор технологии 13
Глава 3. Реализация 15
3.1 Реализация поискового робота 15
3.1.1 Организация проекта 15
3.1.2 Использование JRuby 15
3.1.3 MainCrawler 15
3.1.4 ThreadCrawlBody 17
3.1.5 HtmlParser 17
3.1.6 StorageManager 18
3.1.7 Производительность 19
3.1.8 Механика сбора интернет страниц 21
3.2 Реализация полнотекстового поиска 21
3.2.1 Организация проекта 21
3.2.2 Операция MapReduce 22
3.2.3 Полнотекстовый поиск средствами MongoDB 23
3.2.4 Изучение способов улучшение производительности 24
3.2.5 Интеграция найденного решения с MongoDB 24
3.3 Реализация ранжирующей системы 25
3.3.1 Исследование и организация архитектуры ранжирования 25
3.3.2 Learner 30
3.3.3 RankSVM 32
3.4 Реализация сервера 33
3.4.1 Организация проекта 33
3.4.2 Реализация 36
3.4.3 SearcnEngineSystem 36
3.4.4 Coincidence 37
3.4.5 Структура 38
Выводы 39
Заключение 40
Список использованных литературных источников 42
Приложения 43
Листинг 43
Поисковый робот 43
Скрипт подключение поисковой системы Sphinx к MongoDB 50
Модуль сервер и ранжирующая система
📖 Введение
Актуальность и практическая значимость дипломной работы заключается в том, что изучение влияния искусственных нейронных сетей на результаты ранжирования позволит понять, насколько качественно можно изменить процесс выдачи релевантных данных и насколько данная обработка является необходимой.
Цель данной дипломной работы - построить качественную модель документа, исследовать методы машинного обучения и нейронных сетей и применить их на задаче ранжирования в информационно-поисковой системе.
Объектом исследования в данной работе является система информационно-поисковой выдачи.
Для разработки программного средства необходимо решить следующие задачи:
• Провести анализ предметной области.
• Изучить аналоги программного средства.
• Разработать архитектуру программного обеспечения.
• Изучить и реализовать алгоритмы программного средства.
Для выполнения поставленной цели необходимо выполнить следующие этапы работы:
• Исследовать процесс ранжирования и персонализации поисковой выдачи в поисковых системах.
• Собрать большую коллекцию документов для ранжирования.
• Обеспечить быструю выдачу документов, удовлетворяющих запросу пользователя.
• Построить модель документа и реализовать алгоритм машинного обучения применительно к задачам ранжирования.
• Разработать архитектуру собственной поисковой системы, использующей реализованный алгоритм обучения.
• Выбрать необходимые технологии и средства для решения поставленных целей.
• Организовать рабочий процесс для решения поставленных задач.
✅ Заключение
В первой главе проведен анализ предметной области, произведена постановка требований. Также выделены проблемы, решаемые с помощью реализованной системы:
• Описание влияния повторной оценки и повторного ранжирования с помощью нейронных сетей: насколько данный подход является эффективным и затратным.
В рамках данной работы описан процесс реализации поисковой машины, ранжирующей достаточно большую коллекцию документов. Описаны основные требования к разработанному программному обеспечению.
Во второй главе приведено описание выбранной архитектуры для разработки системы:
• Обоснование выбора используемой архитектуры
• Описание выбранных форматов сообщений от сервера
• Описание и оценка выбранных технологий для решения поставленных задач.
В третьей главе приведено описание непосредственной реализации поискового робота, индексирующей системы и серверной части системы:
• Описаны основные модули системы и их структура.
• Показаны тонкости взаимодействия компонентов
• Приведено описание используемых при разработке программных средств.
• Проиллюстрированы диаграммы важнейших классов системы Возможности системы и решенные задачи:
• Произведен анализ предметной области.
• Использование ранжирующей системы в качестве компоненты сервера - позволяет произвести развертывание на любом интернет хостинге либо виртуальном сервере.
• Собрана достаточно большая коллекция документов для ранжирования, включающая в себя около 300 000 документов.
• Поисковый робот способен собирать большое число документов в сети интернет за минимально возможное время (300 000 документов за 3 часа)
• Сервер отвечает на поисковый запрос в среднем 3-5 секунд, что при текущей конфигурации системы является приемлемым.
• Система применяет методы машинного обучения для ранжирования коллекции
• Модель ранжируемых документов содержит достаточное количество атрибутов, позволяющих говорить о качестве документа.
• Система не использует нейронные сети для улучшения ранжирования: практическая реализация данного функционала осталось не реализована по причине недостатка времени. Однако была подготовлена теоретическая база и данные для ее реализации в дальнейшем.
• Система имеет удобный графический интерфейс



