Тип работы:
Предмет:
Язык работы:


Поиск похожих изображений

Работа №125508

Тип работы

Бакалаврская работа

Предмет

модели данных

Объем работы29
Год сдачи2016
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
71
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Алгоритмы поиска похожих изображений 8
1.1. Сигнатуры множеств с сохранением сходства 8
1.2. LSH для MinHash-сигнатур 12
1.3. Локально-чувствительные функции 14
1.4. Использование LSH в алгоритме Google VisualRank 17
Глава 2. Реализация и тестирование алгоритмов 21
2.1. Сравнение цветовых матриц 22
2.2. Коэффициент Жаккара 23
2.3. Метод MinHash 24
2.4. Метод LSH для сигнатур метода MinHash 25
Выводы 26
Заключение 27
Список литературы 28

Различные алгоритмы поиска похожих изображений широко применя­ются в средствах массовой информации, поисковых системах, социальных се­тях, букинговых системах и т. п. С помощью поиска похожих изображений эффективно решаются задачи классификации изображений, удаления дубли­катов, отслеживания нарушений авторских прав.
Для сравнения изображений различных размеров можно использовать приведение размеров к некоторому эталонному разрешению, например, 16x16 пикселей. С помощью сравнения получаемых эталонов можно быстро найти класс вероятно похожих изображений, среди которых можно провести более детальный анализ, например, сравнить их по эталонам других размеров.
Сравнение эталонов можно проводить с помощью простых процедур, та­ких как вычисление нормы разности матриц, состоящих из закодированных числами цветов пикселей изображений. Однако подобные подходы требуют значительных затрат времени и по этой причине не приспособлены для реше­ния задач классификации изображений.
Эффективным подходом к сравнению эталонных изображений является использование представления изображений в виде неупорядоченных мно­жеств некоторых заранее выделенных элементов. Например, можно разбить все возможные цвета на несколько групп, и построить по заданному изобра­жению множество всех групп цветов его пикселей. Для оценки близости мно­жественных представлений изображений применяются различные коэффици­енты сходства множеств, например, коэффициент Жаккара. Данный подход можно использовать также для сравнения похожести других объектов, допус­кающих представление в виде множеств, таких как текстовые документы, ви­деозаписи, популяции организмов, химические вещества и т. п.
Вычисление коэффициентов сходства изображений напрямую является достаточно трудоемкой задачей. Для быстрого приближенного вычисления коэффициента Жаккара можно использовать метод MinHash. При применении этого метода множество, соответствующее изображению, описывается с по­мощью вектора, каждая компонента которого представляет собой минималь­ное значение хэш-функции среди ее значений для всех элементов множества. Каждой компоненте вектора соответствует своя хэш-функция. Векторы, полу­чаемые с помощью метода MinHash, как правило, имеют большую размер­ность.
Locality-sensitive hashing (LSH, локально-чувствительное хэширование) - вероятностный метод понижения размерности многомерных данных. Этот ме­тод позволяет строить структуру для быстрого приближенного (вероятност­ного) поиска п-мерных векторов, «похожих» на искомый шаблон. Он часто используется, когда имеются чрезвычайно большие объемы данных, которые должны быть сравнены. LSH имеет большое количество применений. Он ис­пользуется в таких областях, как распознавание образов, вычислительная гео­метрия и сжатие данных, в классификации и кластеризации, в поисках плаги­ата, в работе с большими системами документооборота, в электронных биб­лиотеках и т. д.
В данной работе обосновывается использование метода MinHash и LSH для сигнатур, получаемых с помощью этого метода. Рассматриваются общие классы хэш-функций, которые можно использовать для понижения размерно­сти данных. Изучается реализация LSH для Google VisualRank. Реализованы в виде программы в среде Wolfram Mathematica 10.4.1 некоторые методы опре­деления похожих изображений и проведено сравнение времени их работы.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе были рассмотрены теоретически основы методов MinHash и LSH и с помощью оценок вероятностей обосновано их использова­ние. Описаны общие классы локально-чувствительных хэш-функций, изучена реализация метода LSH для векторов локальных дескрипторов Google VisualRank.
В среде Wolfram Mathematica 10.4.1 реализованы алгоритмы сравнения эскизов изображений как матриц цветов и с использованием множественного представления на основе цветов. Получены значения параметров, при которых LSH уменьшает время работы метода MinHash с сохранением качества опре­деления похожих изображений.
Таким образом, все поставленные задачи были выполнены.


1. Udi Manber. Finding similar files in a large file system. In in Proceedings of the USENIX Winter 1994 Technical Conference, pages 1-10, 1994.
2. A.Z. Broder. On the resemblance and containment of documents. In Com­pression and Complexity of Sequences 1997. Proceedings, pages 21-29, 1997.
3. Aristides Gionis, Piotr Indyk, and Rajeev Motwani. Similarity search in high dimensions via hashing. pages 518-529, 1997.
4. Piotr Indyk and Rajeev Motwani. Approximate nearest neighbors: To­wards removing the curse of dimensionality. pages 604-613, 1998.
5. A. Andoni and P. Indyk. Near-optimal hashing algorithms for approxi­mate nearest neighbor in high dimensions. In Foundations of Computer Science, 2006. FOCS ’06. 47th Annual IEEE Symposium on, pages 459-468, 2006.
6. Andrei Z. Broder, Moses Charikar, Alan M. Frieze, and Michael Mitzenmacher. Min-wise independent permutations. Journal of Computer and Sys­tem Sciences, 60:327-336, 1998.
7. Zixiang Kang, Wei Tsang Ooi, and Qibin Sun. Hierarchical, non-uniform locality sensitive hashing and its application to video identification. In Multimedia and Expo, 2004. ICME ’04. 2004 IEEE International Conference on, volume 1, pages 743-746 Vol.1, 2004.
8. S. Hu. Efficient video retrieval by locality sensitive hashing. In Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP ’05). IEEE Interna­tional Conference on, volume 2, pages 449-452, 2005.
9. B. Kulis and K. Grauman. Kernelized locality-sensitive hashing. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 34(6): 1092-1104, 2012.
10. Tanmoy Mondal, Nicolas Ragot, Jean-Yves Ramel, and Umapada Pal. A fast word retrieval technique based on kernelized locality sensitive hashing. In Doc­ument Analysis and Recognition (ICDAR), 2013 12th International Conference on, pages 1195-1199, 2013.
11. Maheshwari A. Topics in Algorithm Design-Lecture Notes for COMP 5703 [Электронный ресурс]/ A. Maheshwari. - School of Computer Science Car­leton University, 2015. - 142 с. - Режим доступа: доступ свободный.
http://people.scs.carleton.ca/~maheshwa/courses/5703COMP/Notes/edited- notes.pdf


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ