Тип работы:
Предмет:
Язык работы:


Кластеризация с поиском дубликатов на примере патентов

Работа №125264

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы29
Год сдачи2016
Стоимость4550 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
14
Не подходит работа?

Узнай цену на написание


1. Введение 3
2. Постановка задачи 5
3. Основные понятия и определения 6
4. Кластеризация с поиском дубликатов на примере патентов 7
4.1. Предобработка данных 7
4.2. Кластеризация 9
4.3. Оценка качества кластеризации 12
4.4. Поиск дубликатов 15
5. Эксперимент 17
5.1. Инициализация 17
5.2. Кластеризация 20
5.3. Поиск дубликатов 23
6. Заключение 24
Список литературы 25
Приложение 28
Приложение 1 28
Приложение 2 29

Патент — документ, удостоверяющий исключительное право и авторство на изобретение. Патент содержит следующие данные:
• Библиографические данные (номер патента, дата подачи заявки, дата выдачи патента, категории и т.д.);
• Название;
• Описание изобретения;
• Патентную формулу;
• Чертежи;
• Аннотацию.
Предметом данной работы является поиск дубликатов в патентной базе с помощью кластеризации. Количество поданных заявок на патенты каждый год неуклонно увеличивается в соответствии с прогрессом в защите интел­лектуальной собственности. Многие правительства и компании оформляют результаты своих исследований и разработанных устройств в виде патентов. Отделы научно-исследовательской деятельности постоянно анализируют ба­зы патентов, чтобы отслеживать текущие тенденции и вектор развития но­вых технологий. Это позволяет корректировать исследовательскую политику и развивать приоритетные направления. Однако патенты содержат огромное количество технической и юридической терминологии, что затрудняет про­цесс анализа изобретения или технологии для тех, кто не знаком с данной областью. Необходимы простые методы для нахождения полезной информа­ции среди такого количества документов. Классификация и кластеризация являются популярными методами в анализе патентов. Техники анализа па­тентов базируются на структурированной информации, которая доступна в информации о патенте. Например, название, дата подачи заявки, аннотация, описание изобретения и многое другие.
Основная проблема при анализе патентов заключается в том, что они со­держат большое количество данных, и, при использовании стандартных ал­горитмов кластеризации, таких как метод K—средних [7], появляются про­блемы, связанные с большой размерностью. Однако существуют различные методы для кластеризации данных большой размерности. В частности, в 2012 году был построен алгоритм кластеризации патентов, который базировался на Байесовском анализе [6]. Проблемой данного подхода является вычисли­тельная сложность и сложность в подготовке и обработке данных, связанная с выбором распределения и функции правдоподобия.
В 2008 году был предложен новый метод визуализации для анализа патен­тов [21]. Данный метод извлекал из патентов слова, связанные с определён­ной технологией. После этого с помощью метода K-средних производилась кластеризация патентов. Далее, используя полученные кластеры, строилась семантическая сеть ключевых слов без использования данных о дате подачи заявки на патент. Затем формировалась карта патентов, в которой каждое ключевое слово перестраивалось в соответствии с наиболее ранней датой по­дачи заявки и частоты встречаемости данного термина в коллекции патентов.
Поиск дубликатов среди больших массивов данных также является боль­шой проблемой. В 2007 году были рассмотрены различные методы для поиска дубликатов в базе данных, начиная от простых методов, таких как посимволь­ное сравнение, до более сложных, например, построение классификаторов [1].

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе удалось построить алгоритм кластеризации, который ис­пользовался как составная часть алгоритма для поиска дубликатов в базе патентов. Было показано, что задачу поиска дубликатов можно решить ис­пользуя алгоритм кластеризации. Было проанализировано 100000 патентов, полученных с помощью сбора данных из Google Patents. Найдены патенты, подозрительные на дубликат и вычислены оценки схожести между парами оригинал—дубликат.
В качестве направлений дальнейших исследований отметим задачу нахож­дения оценки точности полученного алгоритма, например, с помощью прове­рочного множества, разработанного экспертами в патентной области, а также разработку поисковой системы, используя результаты кластеризации.


1. Ahmed K. Elmagarmid, Panagiotis G. Ipeirotis, Vassilios S. Verykios. Duplicate Record Detection: A Survey. IEEE Transactions on Knowledge and Data // Engineering, Volume 19 Issue 1, January 2007
2. Bird, Steven, Edward Loper and Ewan Klein, Natural Language Processing with Python. // O’Reilly Media Inc., 2009
3. Christopher I., Lin S., Spieckermann S., Automated Patent Classification
4. Davies, David L.; Bouldin, Donald W, A Cluster Separation Measure // IEEE Transactions on Pattern Analysis and Machine Intelligence. PAMI-1 (2): p. 224-227, 1979.
5. Dunn, J. C., A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters // Journal of Cybernetics 3 (3): p. 32-57, 1973.
6. Jun S., A Clustering Method of Highly Dimensional Patent Data Using Bayesian Approach // IJCSI International Journal of Computer Science Issues, Vol. 9, Issue 1, No 1, January 2012.
7. Lloyd S. Least square quantization in PCM’s // Bell Telephone Laboratories Paper. 1957.
8. L.J.P. van der Maaten, G.E. Hinton. Visualizing High-Dimensional Data Using t-SNE. // Journal of Machine Learning Research 9 November, p. 2579-2605, 2008.
9. Manning C. D., Raghavan P., Schutze H. Introduction to Information Retrieval // "Scoring, term weighting, and the vector space model". p. 100
10. Medvedev T., Ulanov A., Company Names Matching in the Large Patents Dataset //HP Laboratories HPL-2011-90R1
11. McCallum, A., Nigam, K., Ungar L.H. "Efficient Clustering of High Dimensional Data Sets with Application to Reference Matching"// Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, p. 169-178. 2000.
12. Rousseeuw P. Jr., Silhouettes: A graphical aid to the interpretation and validation of cluster analysis // Journal of Computational and Applied Mathematics, Volume 20, p 53-65, November 1987.
13. Salton G., Wong A., Yang C. S., A Vector Space Model for Automatic Indexing // Communications of the ACM, vol. 18, nr. 11, p. 613-620.
14. Sharma A., A Survey On Different Text Clustering Techniques For Patent Analysis // International Journal of Engineering Research & Technology. 2012.
15. Shivakumar N., Garcia-Molina H. SCAM: A Copy Detection Mechanism for Digital Documents // 2nd International Conference in Theory and Practice of Digital Libraries (DL 1995), June 11-13, 1995.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ