Тема: Поиск похожих объектов в мультимедийных данных
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Обзор литературы 6
Глава 1. Методы обработки мультимедийных данных 9
1.1 Методы работы с текстовыми данными 9
1.2 Методы работы с изображениями 15
1.3 Алгоритмы классификации 21
1.4 Оценка качества классификации 31
Глава 2. Исследование предметной области 32
2.1 Описание данных 32
2.2 Анализ данных 34
2.3 Итоговое представление данных 40
Глава 3. Практическое исследование 43
3.1 Описание исследования 43
3.2 Используемые технологии 44
3.3 Результаты 45
Выводы 47
Заключение 48
Список литературы 49
Приложение 1. Исходный код программы 53
Приложение 2. Результаты работы программы 54
📖 Введение
• классификация, кластеризация;
• определение дубликатов;
• рекомендательные системы.
В зависимости от задачи, похожими объектами могут быть вебстраницы одной тематики (информационный поиск), покупатели с одинаковыми предпочтениями (пользователи сервисов по просмотру фильмов, прослушиванию музыки с одинаковыми предпочтениями в кино или музыке), дубликаты текстов или другого контента (определение плагиата, фильтрация спама). В данной работе большее внимание будет уделено задачам определения похожести текстов и изображений.
В настоящее время остро стоит проблема дублирования информации в сети. Зачастую такое дублирование возникает из-за желания владельцев сайтов или других источников информации присвоить чужой контент себе для извлечения выгоды. Также может происходить целенаправленное копирование информации и её рассылка лицам, которые не желают её получать (спам). От проблемы дублирования информации больше всего страдают поисковые системы и владельцы сайтов. Одинаковая информация, выдаваемая поисковиком по запросу пользователя, значительно затрудняет и замедляет поиск нужной информации. Поисковики вынуждены постоянно индексировать информацию в сети для поддержания актуальности информации. Наличие дубликатов замедляет построение индекса и поиск по нему, тем самым уменьшая желание пользоваться данной поисковой системой. Владельцы сайтов также страдают от повторяющейся информации, которая засоряет их базы. Они вынуждены как-то фильтровать данные, чтобы пользователи не видели одинаковую информацию.
Документ, который является немного изменённой копией оригинала, называется нечётким дубликатом. Обнаружение нечетких дубликатов документов является непростой задачей. Поисковые системы из- за огромного объёма хранимых ими данных не могут решать данную задачу просто полным сравнением всех текстов документов. Поэтому они вынуждены снижать затраты на обнаружение дубликатов, применяя различные методы для приближённого представления документов, которые могут приводить к ухудшению качества обнаружения дубликатов. В задачах веб-поиска также важным фактором является максимально точное отделение оформления веб-страниц от их содержания.
Данная работа больше посвящена способам определения нечётких дубликатов текстов, изображений, устойчивым к изменениям документов и показывающим наилучшее качество детектирования дублей. При этом вопросы, связанные с выделением содержания документов и компактным их представлением не будут рассматриваться в этой работе.
✅ Заключение
На основе полученных результатов можно сделать вывод о том, что использование данных разной природы позволяет добиться лучших результатов по сравнению с работой только с текстом или изображениями.
Достаточно важным аспектом в решении поставленной задачи видится использование как можно большего числа признаков, которые хорошо характеризуют объявления и позволяют чётко отделять дубликаты объявлений от не дубликатов. Добавление признаков на основе изображений позволило улучшить результаты классификации объявлений по сравнению с работой только с текстовой информацией. Стоит отметить, что работа в данном направлении может быть продолжена, так как выбранные в данном исследовании признаки не являются единственно правильным решением. Выбор признаков ограничен только воображением исследователя.





