Поиск похожих объектов в мультимедийных данных
|
Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Методы обработки мультимедийных данных 9
1.1 Методы работы с текстовыми данными 9
1.2 Методы работы с изображениями 15
1.3 Алгоритмы классификации 21
1.4 Оценка качества классификации 31
Глава 2. Исследование предметной области 32
2.1 Описание данных 32
2.2 Анализ данных 34
2.3 Итоговое представление данных 40
Глава 3. Практическое исследование 43
3.1 Описание исследования 43
3.2 Используемые технологии 44
3.3 Результаты 45
Выводы 47
Заключение 48
Список литературы 49
Приложение 1. Исходный код программы 53
Приложение 2. Результаты работы программы 54
Постановка задачи 5
Обзор литературы 6
Глава 1. Методы обработки мультимедийных данных 9
1.1 Методы работы с текстовыми данными 9
1.2 Методы работы с изображениями 15
1.3 Алгоритмы классификации 21
1.4 Оценка качества классификации 31
Глава 2. Исследование предметной области 32
2.1 Описание данных 32
2.2 Анализ данных 34
2.3 Итоговое представление данных 40
Глава 3. Практическое исследование 43
3.1 Описание исследования 43
3.2 Используемые технологии 44
3.3 Результаты 45
Выводы 47
Заключение 48
Список литературы 49
Приложение 1. Исходный код программы 53
Приложение 2. Результаты работы программы 54
Задача поиска похожих объектов весьма актуальна в настоящее время. Существуют различные задачи, в которых так или иначе ищутся похожие объекты:
• классификация, кластеризация;
• определение дубликатов;
• рекомендательные системы.
В зависимости от задачи, похожими объектами могут быть вебстраницы одной тематики (информационный поиск), покупатели с одинаковыми предпочтениями (пользователи сервисов по просмотру фильмов, прослушиванию музыки с одинаковыми предпочтениями в кино или музыке), дубликаты текстов или другого контента (определение плагиата, фильтрация спама). В данной работе большее внимание будет уделено задачам определения похожести текстов и изображений.
В настоящее время остро стоит проблема дублирования информации в сети. Зачастую такое дублирование возникает из-за желания владельцев сайтов или других источников информации присвоить чужой контент себе для извлечения выгоды. Также может происходить целенаправленное копирование информации и её рассылка лицам, которые не желают её получать (спам). От проблемы дублирования информации больше всего страдают поисковые системы и владельцы сайтов. Одинаковая информация, выдаваемая поисковиком по запросу пользователя, значительно затрудняет и замедляет поиск нужной информации. Поисковики вынуждены постоянно индексировать информацию в сети для поддержания актуальности информации. Наличие дубликатов замедляет построение индекса и поиск по нему, тем самым уменьшая желание пользоваться данной поисковой системой. Владельцы сайтов также страдают от повторяющейся информации, которая засоряет их базы. Они вынуждены как-то фильтровать данные, чтобы пользователи не видели одинаковую информацию.
Документ, который является немного изменённой копией оригинала, называется нечётким дубликатом. Обнаружение нечетких дубликатов документов является непростой задачей. Поисковые системы из- за огромного объёма хранимых ими данных не могут решать данную задачу просто полным сравнением всех текстов документов. Поэтому они вынуждены снижать затраты на обнаружение дубликатов, применяя различные методы для приближённого представления документов, которые могут приводить к ухудшению качества обнаружения дубликатов. В задачах веб-поиска также важным фактором является максимально точное отделение оформления веб-страниц от их содержания.
Данная работа больше посвящена способам определения нечётких дубликатов текстов, изображений, устойчивым к изменениям документов и показывающим наилучшее качество детектирования дублей. При этом вопросы, связанные с выделением содержания документов и компактным их представлением не будут рассматриваться в этой работе.
• классификация, кластеризация;
• определение дубликатов;
• рекомендательные системы.
В зависимости от задачи, похожими объектами могут быть вебстраницы одной тематики (информационный поиск), покупатели с одинаковыми предпочтениями (пользователи сервисов по просмотру фильмов, прослушиванию музыки с одинаковыми предпочтениями в кино или музыке), дубликаты текстов или другого контента (определение плагиата, фильтрация спама). В данной работе большее внимание будет уделено задачам определения похожести текстов и изображений.
В настоящее время остро стоит проблема дублирования информации в сети. Зачастую такое дублирование возникает из-за желания владельцев сайтов или других источников информации присвоить чужой контент себе для извлечения выгоды. Также может происходить целенаправленное копирование информации и её рассылка лицам, которые не желают её получать (спам). От проблемы дублирования информации больше всего страдают поисковые системы и владельцы сайтов. Одинаковая информация, выдаваемая поисковиком по запросу пользователя, значительно затрудняет и замедляет поиск нужной информации. Поисковики вынуждены постоянно индексировать информацию в сети для поддержания актуальности информации. Наличие дубликатов замедляет построение индекса и поиск по нему, тем самым уменьшая желание пользоваться данной поисковой системой. Владельцы сайтов также страдают от повторяющейся информации, которая засоряет их базы. Они вынуждены как-то фильтровать данные, чтобы пользователи не видели одинаковую информацию.
Документ, который является немного изменённой копией оригинала, называется нечётким дубликатом. Обнаружение нечетких дубликатов документов является непростой задачей. Поисковые системы из- за огромного объёма хранимых ими данных не могут решать данную задачу просто полным сравнением всех текстов документов. Поэтому они вынуждены снижать затраты на обнаружение дубликатов, применяя различные методы для приближённого представления документов, которые могут приводить к ухудшению качества обнаружения дубликатов. В задачах веб-поиска также важным фактором является максимально точное отделение оформления веб-страниц от их содержания.
Данная работа больше посвящена способам определения нечётких дубликатов текстов, изображений, устойчивым к изменениям документов и показывающим наилучшее качество детектирования дублей. При этом вопросы, связанные с выделением содержания документов и компактным их представлением не будут рассматриваться в этой работе.
В данной работе было проведено исследование способов определения нечётких дубликатов текстов, изображений, а также сущностей, комбинирующих эти типы данных, на примере объявлений с сайта Avito. Для каждой пары объявлений на основе текстовых данных, изображений объявлений были разработаны признаки, позволяющие определять похожие объявления. На наборе из 6000 пар объявлений было произведено обучение алгоритмов классификации и проверка результатов их работы на 3000 парах объявлений. С помощью кросс-валидации на различных наборах данных были подобраны наилучшие значения параметров алгоритмов классификации, что позволило добиться достаточно хороших результатов их работы на тестовой выборке.
На основе полученных результатов можно сделать вывод о том, что использование данных разной природы позволяет добиться лучших результатов по сравнению с работой только с текстом или изображениями.
Достаточно важным аспектом в решении поставленной задачи видится использование как можно большего числа признаков, которые хорошо характеризуют объявления и позволяют чётко отделять дубликаты объявлений от не дубликатов. Добавление признаков на основе изображений позволило улучшить результаты классификации объявлений по сравнению с работой только с текстовой информацией. Стоит отметить, что работа в данном направлении может быть продолжена, так как выбранные в данном исследовании признаки не являются единственно правильным решением. Выбор признаков ограничен только воображением исследователя.
На основе полученных результатов можно сделать вывод о том, что использование данных разной природы позволяет добиться лучших результатов по сравнению с работой только с текстом или изображениями.
Достаточно важным аспектом в решении поставленной задачи видится использование как можно большего числа признаков, которые хорошо характеризуют объявления и позволяют чётко отделять дубликаты объявлений от не дубликатов. Добавление признаков на основе изображений позволило улучшить результаты классификации объявлений по сравнению с работой только с текстовой информацией. Стоит отметить, что работа в данном направлении может быть продолжена, так как выбранные в данном исследовании признаки не являются единственно правильным решением. Выбор признаков ограничен только воображением исследователя.
Подобные работы
- Мультимедийный проект «Истории на закуску» (творческая работа)
Бакалаврская работа, журналистика. Язык работы: Русский. Цена: 4300 р. Год сдачи: 2018 - Информационные вбросы в сетевом пространстве: технологические и пропагандистские аспекты
Дипломные работы, ВКР, журналистика. Язык работы: Русский. Цена: 0 р. Год сдачи: 2018 - РАЗРАБОТКА ИНФОРМАЦИОННОЙ БИБЛИОТЕЧНОЙ СИСТЕМЫ ХРАНЕНИЯ ЗВУКОЗАПИСЕЙ УСТНОЙ РЕЧИ
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 4350 р. Год сдачи: 2018 - Привлечение музейной аудитории: современные технологии и расширение познавательных возможностей
Дипломные работы, ВКР, культурология. Язык работы: Русский. Цена: 4210 р. Год сдачи: 2017 - Инфографика в современных онлайн-медиа
Дипломные работы, ВКР, журналистика. Язык работы: Русский. Цена: 4260 р. Год сдачи: 2016 - ТРАНСФОРМАЦИЯ ЖАНРА МУЗЫКАЛЬНОЙ РЕЦЕНЗИИ В КОНВЕРГЕНТНОЙ МЕДИАСРЕДЕ (СТРАТЕГИИ И ТАКТИКИ МИФОЛОГИЗАЦИИ ИМИДЖА МУЗЫКАНТА)
Диссертации (РГБ), журналистика. Язык работы: Русский. Цена: 4210 р. Год сдачи: 2021 - Привлечение музейной аудитории: современные технологии и расширение познавательных возможностей
Бакалаврская работа, искусство, культура, литература. Язык работы: Русский. Цена: 4700 р. Год сдачи: 2017 - ПРОЕКТ ОНЛАЙН-СЕРВИСА «КОСМОМЭТЧ» В КОНТЕКСТЕ ЦИФРОВЫХ МЕДИА
Бакалаврская работа, журналистика. Язык работы: Русский. Цена: 4600 р. Год сдачи: 2024 - Сравнение русскоязычных мобильных приложений для прикладных психологических задач
Дипломные работы, ВКР, психология. Язык работы: Русский. Цена: 4770 р. Год сдачи: 2020





