Патент — документ, удостоверяющий исключительное право и авторство на изобретение. Патент содержит следующие данные:
• Библиографические данные (номер патента, дата подачи заявки, дата выдачи патента, категории и т.д.);
• Название;
• Описание изобретения;
• Патентную формулу;
• Чертежи;
• Аннотацию.
Предметом данной работы является поиск дубликатов в патентной базе с помощью кластеризации. Количество поданных заявок на патенты каждый год неуклонно увеличивается в соответствии с прогрессом в защите интеллектуальной собственности. Многие правительства и компании оформляют результаты своих исследований и разработанных устройств в виде патентов. Отделы научно-исследовательской деятельности постоянно анализируют базы патентов, чтобы отслеживать текущие тенденции и вектор развития новых технологий. Это позволяет корректировать исследовательскую политику и развивать приоритетные направления. Однако патенты содержат огромное количество технической и юридической терминологии, что затрудняет процесс анализа изобретения или технологии для тех, кто не знаком с данной областью. Необходимы простые методы для нахождения полезной информации среди такого количества документов. Классификация и кластеризация являются популярными методами в анализе патентов. Техники анализа патентов базируются на структурированной информации, которая доступна в информации о патенте. Например, название, дата подачи заявки, аннотация, описание изобретения и многое другие.
Основная проблема при анализе патентов заключается в том, что они содержат большое количество данных, и, при использовании стандартных алгоритмов кластеризации, таких как метод K—средних [7], появляются проблемы, связанные с большой размерностью. Однако существуют различные методы для кластеризации данных большой размерности. В частности, в 2012 году был построен алгоритм кластеризации патентов, который базировался на Байесовском анализе [6]. Проблемой данного подхода является вычислительная сложность и сложность в подготовке и обработке данных, связанная с выбором распределения и функции правдоподобия.
В 2008 году был предложен новый метод визуализации для анализа патентов [21]. Данный метод извлекал из патентов слова, связанные с определённой технологией. После этого с помощью метода K-средних производилась кластеризация патентов. Далее, используя полученные кластеры, строилась семантическая сеть ключевых слов без использования данных о дате подачи заявки на патент. Затем формировалась карта патентов, в которой каждое ключевое слово перестраивалось в соответствии с наиболее ранней датой подачи заявки и частоты встречаемости данного термина в коллекции патентов.
Поиск дубликатов среди больших массивов данных также является большой проблемой. В 2007 году были рассмотрены различные методы для поиска дубликатов в базе данных, начиная от простых методов, таких как посимвольное сравнение, до более сложных, например, построение классификаторов
В данной работе удалось построить алгоритм кластеризации, который использовался как составная часть алгоритма для поиска дубликатов в базе патентов. Было показано, что задачу поиска дубликатов можно решить используя алгоритм кластеризации. Было проанализировано 100000 патентов, полученных с помощью сбора данных из Google Patents. Найдены патенты, подозрительные на дубликат и вычислены оценки схожести между парами оригинал-дубликат.
В качестве направлений дальнейших исследований отметим задачу нахождения оценки точности полученного алгоритма, например, с помощью проверочного множества, разработанного экспертами в патентной области, а также разработку поисковой системы, используя результаты кластеризации.