1 Введение 3
2 Постановка задачи 4
3 Основные понятия и термины 5
4 Метод извлечения признаков изображения и их кластеризации 10
5 Результаты 16
6 Заключение 20
Список литературы 20
В данной работе рассматривается задача кластеризации данных применительно к изображениям. Целью работы является извлечение пригодных для кластеризации признаков изображения и построение на их основе хеш- множества, определяющего кластеры; полученные данные предполагается использовать как тестовое множество для обучения более сложных нейронных сетей в случаях, когда невозможно это сделать вручную в силу большого количества данных. Под изображением в данной работе понимается чёрно-белое изображение, содержащее текст, таблицы, либо другие элементы, присущие различного рода документам. Применение рассмотренных методов извлечения признаков ограничивается описанным выше содержимым изображений, в то время как рассмотренный метод кластеризации является независимым и может применяться в различных задачах, в том числе не имеющим отношения к изображениям.
В первой половине работы описывается постановка задачи, используемые для её решения понятия, определения, операции и методы. На их основе выводится алгоритм решения. Во второй половине описано решение задачи и результаты.
Нами был рассмотрен метод быстрого извлечения признаков и последующей их кластеризации на основе полученных признаков, применимый к большим наборам даннвхх. В сравнении с более сложнвхми математически методами классификации с помощвю нейросетей, даннвхй алгоритм даёт менвшую точности, однако всё же достаточную для применения его при построении тестового множества нейросети
Среди направлений дальнейших исследований можно выделить улучшение алгоритма извлечения признаков с целью более точно выделять особенности структуры текста, а также алгоритма кластеризации с целью повышения надёжности. Кроме того, увеличить точность работы алгоритма можно с помощью адаптивной кластеризации, применения более сложных алгоритмов разбиения или исследования пространства признаков на возможность применения неевклидовых метрик.