Патент — документ, удостоверяющий исключительное право и авторство на изобретение. Патент содержит следующие данные:
• Библиографические данные (номер патента, дата подачи заявки, дата выдачи патента, категории и т.д.);
• Название;
• Описание изобретения;
• Патентную формулу;
• Чертежи;
• Аннотацию.
Предметом данной работы является поиск дубликатов в патентной базе с помощью кластеризации. Количество поданных заявок на патенты каждый год неуклонно увеличивается в соответствии с прогрессом в защите интеллектуальной собственности. Многие правительства и компании оформляют результаты своих исследований и разработанных устройств в виде патентов. Отделы научно-исследовательской деятельности постоянно анализируют базы патентов, чтобы отслеживать текущие тенденции и вектор развития новых технологий. Это позволяет корректировать исследовательскую политику и развивать приоритетные направления. Однако патенты содержат огромное количество технической и юридической терминологии, что затрудняет процесс анализа изобретения или технологии для тех, кто не знаком с данной областью. Необходимы простые методы для нахождения полезной информации среди такого количества документов. Классификация и кластеризация являются популярными методами в анализе патентов. Техники анализа патентов базируются на структурированной информации, которая доступна в информации о патенте. Например, название, дата подачи заявки, аннотация, описание изобретения и многое другие.
Основная проблема при анализе патентов заключается в том, что они содержат большое количество данных, и, при использовании стандартных алгоритмов кластеризации, таких как метод K—средних [7], появляются проблемы, связанные с большой размерностью. Однако существуют различные методы для кластеризации данных большой размерности. В частности, в 2012 году был построен алгоритм кластеризации патентов, который базировался на Байесовском анализе [6]. Проблемой данного подхода является вычислительная сложность и сложность в подготовке и обработке данных, связанная с выбором распределения и функции правдоподобия.
В 2008 году был предложен новый метод визуализации для анализа патентов [21]. Данный метод извлекал из патентов слова, связанные с определённой технологией. После этого с помощью метода K-средних производилась кластеризация патентов. Далее, используя полученные кластеры, строилась семантическая сеть ключевых слов без использования данных о дате подачи заявки на патент. Затем формировалась карта патентов, в которой каждое ключевое слово перестраивалось в соответствии с наиболее ранней датой подачи заявки и частоты встречаемости данного термина в коллекции патентов.
Поиск дубликатов среди больших массивов данных также является большой проблемой. В 2007 году были рассмотрены различные методы для поиска дубликатов в базе данных, начиная от простых методов, таких как посимвольное сравнение, до более сложных, например, построение классификаторов
В данной работе удалось построить алгоритм кластеризации, который использовался как составная часть алгоритма для поиска дубликатов в базе патентов. Было показано, что задачу поиска дубликатов можно решить используя алгоритм кластеризации. Было проанализировано 100000 патентов, полученных с помощью сбора данных из Google Patents. Найдены патенты, подозрительные на дубликат и вычислены оценки схожести между парами оригинал-дубликат.
В качестве направлений дальнейших исследований отметим задачу нахождения оценки точности полученного алгоритма, например, с помощью проверочного множества, разработанного экспертами в патентной области, а также разработку поисковой системы, используя результаты кластеризации.
1. Ahmed K. Elmagarmid, Panagiotis G. Ipeirotis, Vassilios S. Verykios. Duplicate Record Detection: A Survey. IEEE Transactions on Knowledge and Data // Engineering, Volume 19 Issue 1, January 2007
2. Bird, Steven, Edward Loper and Ewan Klein, Natural Language Processing with Python. // O'Reilly Media Inc., 2009
3. Christopher I., Lin S., Spieckermann S., Automated Patent Classification
4. Davies, David L.; Bouldin, Donald W, A Cluster Separation Measure // IEEE Transactions on Pattern Analysis and Machine Intelligence. PAMI-1 (2): p. 224-227, 1979.
5. Dunn, J. C., A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters // Journal of Cybernetics 3 (3): p. 32-57, 1973.
6. Jun S., A Clustering Method of Highly Dimensional Patent Data Using Bayesian Approach // IJCSI International Journal of Computer Science Issues, Vol. 9, Issue 1, No 1, January 2012.
7. Lloyd S. Least square quantization in PCM’s // Bell Telephone Laboratories Paper. 1957.
9. Manning C. D., Raghavan P., Schutze H. Introduction to Information Retrieval // "Scoring, term weighting, and the vector space model". p. 100
10. Medvedev T., Ulanov A., Company Names Matching in the Large Patents Dataset // HP Laboratories HPL-2011-90R1
11. McCallum, A., Nigam, K., Ungar L.H. "Efficient Clustering of High Dimensional Data Sets with Application to Reference Matching"// Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, p. 169-178. 2000.
12. Rousseeuw P. Jr., Silhouettes: A graphical aid to the interpretation and validation of cluster analysis // Journal of Computational and Applied Mathematics, Volume 20, p 53-65, November 1987.
13. Salton G., Wong A., Yang C. S., A Vector Space Model for Automatic Indexing // Communications of the ACM, vol. 18, nr. 11, p. 613-620.
14. Sharma A., A Survey On Different Text Clustering Techniques For Patent Analysis // International Journal of Engineering Research & Technology. 2012.
15. Shivakumar N., Garcia-Molina H. SCAM: A Copy Detection Mechanism for Digital Documents // 2nd International Conference in Theory and Practice of Digital Libraries (DL 1995), June 11-13, 1995.
16. Sculley D., Web-scale k-means clustering // WWW ’10 Proceedings of the 19th international conference on World wide web, p. 1177-1178. 2010.
17. Trupti M. Kodinariya, Dr. Prashant R. Makwana, Review on determining number of Cluster in K-Means Clustering // International Journal of Advance
18. United States Patent and Trademark Office http://www.uspto.gov
19. United States Patent and Trademark Office Bulk Downloads https://www.google.com/googlebooks/uspto-patents-grants-text.html
20. WordNet https://wordnet.princeton.edu/
21. Young Gil Kim, Visualization of patent analysis for emerging technology // Expert Systems with Applications, Volume 34, Issue 3, p. 1804-1812, April 2008.