Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Методы обработки мультимедийных данных 9
1.1 Методы работы с текстовыми данными 9
1.2 Методы работы с изображениями 15
1.3 Алгоритмы классификации 21
1.4 Оценка качества классификации 31
Глава 2. Исследование предметной области 32
2.1 Описание данных 32
2.2 Анализ данных 34
2.3 Итоговое представление данных 40
Глава 3. Практическое исследование 43
3.1 Описание исследования 43
3.2 Используемые технологии 44
3.3 Результаты 45
Выводы 47
Заключение 48
Список литературы 49
Приложение 1. Исходный код программы 53
Приложение 2. Результаты работы программы 54
Задача поиска похожих объектов весьма актуальна в настоящее время. Существуют различные задачи, в которых так или иначе ищутся похожие объекты:
• классификация, кластеризация;
• определение дубликатов;
• рекомендательные системы.
В зависимости от задачи, похожими объектами могут быть вебстраницы одной тематики (информационный поиск), покупатели с одинаковыми предпочтениями (пользователи сервисов по просмотру фильмов, прослушиванию музыки с одинаковыми предпочтениями в кино или музыке), дубликаты текстов или другого контента (определение плагиата, фильтрация спама). В данной работе большее внимание будет уделено задачам определения похожести текстов и изображений.
В настоящее время остро стоит проблема дублирования информации в сети. Зачастую такое дублирование возникает из-за желания владельцев сайтов или других источников информации присвоить чужой контент себе для извлечения выгоды. Также может происходить целенаправленное копирование информации и её рассылка лицам, которые не желают её получать (спам). От проблемы дублирования информации больше всего страдают поисковые системы и владельцы сайтов. Одинаковая информация, выдаваемая поисковиком по запросу пользователя, значительно затрудняет и замедляет поиск нужной информации. Поисковики вынуждены постоянно индексировать информацию в сети для поддержания актуальности информации. Наличие дубликатов замедляет построение индекса и поиск по нему, тем самым уменьшая желание пользоваться данной поисковой системой. Владельцы сайтов также страдают от повторяющейся информации, которая засоряет их базы. Они вынуждены как-то фильтровать данные, чтобы пользователи не видели одинаковую информацию.
Документ, который является немного изменённой копией оригинала, называется нечётким дубликатом. Обнаружение нечетких дубликатов документов является непростой задачей. Поисковые системы из- за огромного объёма хранимых ими данных не могут решать данную задачу просто полным сравнением всех текстов документов. Поэтому они вынуждены снижать затраты на обнаружение дубликатов, применяя различные методы для приближённого представления документов, которые могут приводить к ухудшению качества обнаружения дубликатов. В задачах веб-поиска также важным фактором является максимально точное отделение оформления веб-страниц от их содержания.
Данная работа больше посвящена способам определения нечётких дубликатов текстов, изображений, устойчивым к изменениям документов и показывающим наилучшее качество детектирования дублей. При этом вопросы, связанные с выделением содержания документов и компактным их представлением не будут рассматриваться в этой работе.
В данной работе было проведено исследование способов определения нечётких дубликатов текстов, изображений, а также сущностей, комбинирующих эти типы данных, на примере объявлений с сайта Avito. Для каждой пары объявлений на основе текстовых данных, изображений объявлений были разработаны признаки, позволяющие определять похожие объявления. На наборе из 6000 пар объявлений было произведено обучение алгоритмов классификации и проверка результатов их работы на 3000 парах объявлений. С помощью кросс-валидации на различных наборах данных были подобраны наилучшие значения параметров алгоритмов классификации, что позволило добиться достаточно хороших результатов их работы на тестовой выборке.
На основе полученных результатов можно сделать вывод о том, что использование данных разной природы позволяет добиться лучших результатов по сравнению с работой только с текстом или изображениями.
Достаточно важным аспектом в решении поставленной задачи видится использование как можно большего числа признаков, которые хорошо характеризуют объявления и позволяют чётко отделять дубликаты объявлений от не дубликатов. Добавление признаков на основе изображений позволило улучшить результаты классификации объявлений по сравнению с работой только с текстовой информацией. Стоит отметить, что работа в данном направлении может быть продолжена, так как выбранные в данном исследовании признаки не являются единственно правильным решением. Выбор признаков ограничен только воображением исследователя.
1. Manber U. Finding Similar Files in a Large File System // Proc. of the Winter USENIX Technical Conference, 1994. P. 1-10.
2. Heintze N. Scalable document fingerprinting // Proc. of the 2nd USENIX Workshop on Electronic Commerce, 1996. P. 191-200.
3. Гасфилд Д. Строки, деревья и последовательности в алгоритмах. СПб.: Невский диалект, 2003. 656 с.
4. Broder A., Glassman S., Manasse M. and Zweig G. Syntactic clustering of the Web // Proc. of the 6th International World Wide Web Conference, 1997. P. 1157-1166.
5. Fetterly D., Manasse M., Najork M. A Large-Scale Study of the Evolution of Web Pages // Proc. of the 12th international conference on World Wide Web, 2003. P. 669-678.
6. Broder A., Charikar M., Frieze A., Mitzenmacher M. Min-wise independent permutations // Proc. of the thirtieth annual ACM symposium on Theory of computing, 1998. P. 327-336.
7. Chowdhury A., Frieder O., Grossman D., McCabe M. Collection statistics for fast duplicate document detection. // ACM Transactions on Information Systems (TOIS), 2002. Vol. 20, No. 2. P. 171-191.
8. Kolcz A., Chowdhury A., Alspector J. Improved Robustness of SignatureBased Near-Replica Detection via Lexicon Randomization // Proc. of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, 2004. P. 605-610.
9. Pugh W. Detecting duplicate and near - duplicate files [Электронный ресурс]. URL: http://www.cs.umd.edu/~pugh/google/Duplicates.pdf (дата обращения: 20.09.17).
10. Ilyinsky S., Kuzmin M., Melkov A., Segalovich I. An efficient method to detect duplicates of Web documents with the use of inverted index // Proc. of the 11th International World Wide Web Conference, 2002.
11. Стоп-слова [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/Шумовые_слова (дата обращения: 29.09.17).
12. Dawson J. Suffix removal for word conflation // Bulletin of the Association for Literary and Linguistic Computing, 1974. Vol. 2 No. 3. P. 33-46.
13. Лемматизация [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/Лемматизация (дата обращения: 30.09.17).
14. Cosine similarity [Электронный ресурс]. URL: https://en.wikipedia.org/wiki/Cosine_similarity (дата обращения: 7.10.17).
15. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. Soc. Vaudoise sci. Natur, 1901. V. 37. Bd. 140. S. 241—272.
16. Perceptual hashing [Электронный ресурс]. URL: https://en.wikipedia.org/wiki/Perceptual_hashing (дата обращения:
19.10.17) .
17. Looks Like It [Электронный ресурс]. URL: http://www.hackerfactor.com/blog/index.php?/archives/432-Looks-Like- It.html (дата обращения: 22.10.17).
18. Блейхут Р. Теория и практика кодов, контролирующих ошибки. М.: Мир, 1986. — 576 с.
... Всего источников – 43.