📄Работа №125264

Тема: Кластеризация с поиском дубликатов на примере патентов

📝

Тип работы Бакалаврская работа

📚

Предмет программирование

📄

Объем: 29 листов

📅

Год: 2016

👁️

4550 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

1. Введение 3
2. Постановка задачи 5
3. Основные понятия и определения 6
4. Кластеризация с поиском дубликатов на примере патентов 7
4.1. Предобработка данных 7
4.2. Кластеризация 9
4.3. Оценка качества кластеризации 12
4.4. Поиск дубликатов 15
5. Эксперимент 17
5.1. Инициализация 17
5.2. Кластеризация 20
5.3. Поиск дубликатов 23
6. Заключение 24
Список литературы 25
Приложение 28
Приложение 1 28
Приложение 2 29

📖 Введение

Патент — документ, удостоверяющий исключительное право и авторство на изобретение. Патент содержит следующие данные:
• Библиографические данные (номер патента, дата подачи заявки, дата выдачи патента, категории и т.д.);
• Название;
• Описание изобретения;
• Патентную формулу;
• Чертежи;
• Аннотацию.
Предметом данной работы является поиск дубликатов в патентной базе с помощью кластеризации. Количество поданных заявок на патенты каждый год неуклонно увеличивается в соответствии с прогрессом в защите интеллектуальной собственности. Многие правительства и компании оформляют результаты своих исследований и разработанных устройств в виде патентов. Отделы научно-исследовательской деятельности постоянно анализируют базы патентов, чтобы отслеживать текущие тенденции и вектор развития новых технологий. Это позволяет корректировать исследовательскую политику и развивать приоритетные направления. Однако патенты содержат огромное количество технической и юридической терминологии, что затрудняет процесс анализа изобретения или технологии для тех, кто не знаком с данной областью. Необходимы простые методы для нахождения полезной информации среди такого количества документов. Классификация и кластеризация являются популярными методами в анализе патентов. Техники анализа патентов базируются на структурированной информации, которая доступна в информации о патенте. Например, название, дата подачи заявки, аннотация, описание изобретения и многое другие.
Основная проблема при анализе патентов заключается в том, что они содержат большое количество данных, и, при использовании стандартных алгоритмов кластеризации, таких как метод K—средних [7], появляются проблемы, связанные с большой размерностью. Однако существуют различные методы для кластеризации данных большой размерности. В частности, в 2012 году был построен алгоритм кластеризации патентов, который базировался на Байесовском анализе [6]. Проблемой данного подхода является вычислительная сложность и сложность в подготовке и обработке данных, связанная с выбором распределения и функции правдоподобия.
В 2008 году был предложен новый метод визуализации для анализа патентов [21]. Данный метод извлекал из патентов слова, связанные с определённой технологией. После этого с помощью метода K-средних производилась кластеризация патентов. Далее, используя полученные кластеры, строилась семантическая сеть ключевых слов без использования данных о дате подачи заявки на патент. Затем формировалась карта патентов, в которой каждое ключевое слово перестраивалось в соответствии с наиболее ранней датой подачи заявки и частоты встречаемости данного термина в коллекции патентов.
Поиск дубликатов среди больших массивов данных также является большой проблемой. В 2007 году были рассмотрены различные методы для поиска дубликатов в базе данных, начиная от простых методов, таких как посимвольное сравнение, до более сложных, например, построение классификаторов [1].

✅ Заключение

В данной работе удалось построить алгоритм кластеризации, который использовался как составная часть алгоритма для поиска дубликатов в базе патентов. Было показано, что задачу поиска дубликатов можно решить используя алгоритм кластеризации. Было проанализировано 100000 патентов, полученных с помощью сбора данных из Google Patents. Найдены патенты, подозрительные на дубликат и вычислены оценки схожести между парами оригинал—дубликат.
В качестве направлений дальнейших исследований отметим задачу нахождения оценки точности полученного алгоритма, например, с помощью проверочного множества, разработанного экспертами в патентной области, а также разработку поисковой системы, используя результаты кластеризации.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Ahmed K. Elmagarmid, Panagiotis G. Ipeirotis, Vassilios S. Verykios. Duplicate Record Detection: A Survey. IEEE Transactions on Knowledge and Data // Engineering, Volume 19 Issue 1, January 2007
2. Bird, Steven, Edward Loper and Ewan Klein, Natural Language Processing with Python. // O’Reilly Media Inc., 2009
3. Christopher I., Lin S., Spieckermann S., Automated Patent Classification
4. Davies, David L.; Bouldin, Donald W, A Cluster Separation Measure // IEEE Transactions on Pattern Analysis and Machine Intelligence. PAMI-1 (2): p. 224-227, 1979.
5. Dunn, J. C., A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters // Journal of Cybernetics 3 (3): p. 32-57, 1973.
6. Jun S., A Clustering Method of Highly Dimensional Patent Data Using Bayesian Approach // IJCSI International Journal of Computer Science Issues, Vol. 9, Issue 1, No 1, January 2012.
7. Lloyd S. Least square quantization in PCM’s // Bell Telephone Laboratories Paper. 1957.
8. L.J.P. van der Maaten, G.E. Hinton. Visualizing High-Dimensional Data Using t-SNE. // Journal of Machine Learning Research 9 November, p. 2579-2605, 2008.
9. Manning C. D., Raghavan P., Schutze H. Introduction to Information Retrieval // "Scoring, term weighting, and the vector space model". p. 100
10. Medvedev T., Ulanov A., Company Names Matching in the Large Patents Dataset //HP Laboratories HPL-2011-90R1
11. McCallum, A., Nigam, K., Ungar L.H. "Efficient Clustering of High Dimensional Data Sets with Application to Reference Matching"// Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, p. 169-178. 2000.
12. Rousseeuw P. Jr., Silhouettes: A graphical aid to the interpretation and validation of cluster analysis // Journal of Computational and Applied Mathematics, Volume 20, p 53-65, November 1987.
13. Salton G., Wong A., Yang C. S., A Vector Space Model for Automatic Indexing // Communications of the ACM, vol. 18, nr. 11, p. 613-620.
14. Sharma A., A Survey On Different Text Clustering Techniques For Patent Analysis // International Journal of Engineering Research & Technology. 2012.
15. Shivakumar N., Garcia-Molina H. SCAM: A Copy Detection Mechanism for Digital Documents // 2nd International Conference in Theory and Practice of Digital Libraries (DL 1995), June 11-13, 1995.
...

🖼 Скриншоты

Содержание с началом введения

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (208935)

Статьи

»» Все статьи

Вход в личный кабинет