🔍 Поиск готовых работ

🔍 Поиск работ

РЕШЕНИЕ ЗАДАЧИ ИЗВЛЕЧЕНИЯ КЛЮЧЕВЫХ НАВЫКОВ ИЗ ТЕКСТОВОГО ОПИСАНИЯ ВАКАНСИИ

Работа №191806

Тип работы

Дипломные работы, ВКР

Предмет

программирование

Объем работы49
Год сдачи2023
Стоимость4500 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
26
Не подходит работа?

Узнай цену на написание


Аннотация
Перечень условных обозначений, символов, сокращений, терминов 4
Введение 6
1 Анализ задачи извлечения ключевых навыков из текстового описания
вакансии 8
1.1 Формальная постановка задачи 9
1.2 Состав данных 10
2 Существующие подходы к решению задачи 14
2.1 Подходы основанные на таксономии или фолксономии 14
2.2 Подходы основанные на машинном обучении 15
2.2.1 Подходы в рамках маркировки последовательности 17
2.2.2 Подходы в рамках multi-label классификации 18
3 Реализация 20
3.1 Предобработка данных 20
3.2 Используемые инструменты 20
3.3 Разделение на обучающую и тестовые выборки 21
3.4 Метрики и оценка точности 22
3.5 Подход на основе поиска с учетом форм слова 24
3.6 Подход на основе BERT-XMLC 24
3.7 Подход на основе архитектуры T5 29
3.8 Подход на основе на анализе семантической близости предложений и
ключевых навыков 33
3.8.1 Выделение предложений содержащих ключевые навыки 33
3.8.2 Подбор упомянутого в предложении ключевого навыка 35
3.9 Результаты 36
Заключение 39
Список литературы 40

Навыки играют центральную роль на рынке труда и во многих процессах управления персоналом. В современном онлайн-рынке труда кандидаты хотели бы видеть видеть свои реальные возможности на основе набора навыков. Аналогично, предприятия все больше нуждаются в использовании подобные данные о навыках, чтобы гарантировать, что навыки их рабочей силы останутся актуальными в будущем. Однако структурированная информация о навыках часто отсутствует, а самостоятельная оценка навыков работодателями или кандидатами может быть неполной или неточной.
Задача извлечения ключевых навыков заключается в автоматизации процесса идентификации наиболее важных навыков, требуемых для конкретной должности. Для этого используются методы технологии обработки естественного языка и машинного обучения. Извлечение навыков является очень сложной задачей из-за огромного количество возможных навыков, которые могут быть упомянуты в тексте вакансии как явно так и неявно
Результатом выполнения задачи по извлечению ключевых навыков является список профессиональных навыков, упомянутых в тексте вакансии.
Сложность решения данной задачи на английском языке тесно связана с небольшим количеством размеченных датасетов и их постоянным устареванием в связи с постоянным появлением новых технологий и соответствующих профессиональных навыков. А также с определением методологии разметки [3].
Для русского же языка и вовсе отсутствуют открытые, вручную размеченные датасеты. Поэтому для решения данной задачи на русском языке было принято использовать открытые данные текстов вакансий и проставленных работодателями ключевых навыков с hh.ru [1].
В рамках решения извлечения текстовых навыков из текстового описания вакансии были поставлены следующие задачи:
Задачи работы:
1. Проанализировать существующие подходы к решению задачи извлечению ключевых навыков;
2. Провести предварительный анализ данных и определить параметры выборки подходящей для обучения и тестирования;
3. Подготовить датасет, сформировать обучающую и тестовые выборки;
4. Реализовать подходы, решающие данную задачу;
5. Подобрать подходящие метрики оценки точности алгоритмов на тестовой выборке;
6. Выбрать лучший подход на основе сравнительного анализа подходов на тестовой выборке.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе работы были реализованы 4 различие подхода к задачи извлечения ключевых навыков из текстового описания вакансий на русском языке:
• Наивный подход поиска ключевых навыков с учетом форм слова
• Существующий подход BERT-XMLC, адаптированный для русского языка
• Подход на основе архитектуры T5, ранее не использованный в задаче извлечения ключевых навыков
• Подход на основе выделения в тексте предложений, содержащих информацию о ключевых навыков и приведение их к ключевым навыкам посредстовм анализа семантический близости с ними, который также ранее не был использован в этой задаче в таком виде.
На данный момент нейросеть полученная в рамках реализации подхода основанного на архитектуре T5 была принята заказчиком и находится на стадии внедрения в проект по агрегации и визуальному представлению вакансий России.


1. hh ru [Электронный ресурс] //hh.ru [сайт]. [2023]. URL: https://hh.ru (дата обращения: 20.01.2023).
2. Chen Y. Y. et al. Design and implementation of cloud analytics-assisted smart power meters considering advanced artificial intelligence as edge analytics in demand-side management for smart homes //Sensors. - 2019. - Т. 19. - №. 9. - С. 2047.
3. Mike Zhang, Kristian Norgaard Jensen, Sif Dam Sonniks, Barbara Plank. SkillSpan: Hard and Soft Skill Extraction from English Job Postings //arXiv preprint arXiv:2204.12811. - 2022.
4. PostgreSQL: The World's Most Advanced Open-Source Relational Database [Электронный ресурс] //postgresql.org [сайт]. [2023]. URL: https://www.postgresql.org (дата обращения: 25.01.2023).
5. Madely du Preez. Taxonomies, folksonomies, ontologies: what are they and how do they support information retrieval? The Indexer The International Journal of Indexing 33.-2015.
6. Martin le Vrang, Agis Papantoniou, Erika Pauwels, Pieter Fannes, Dominique Vandensteen, and Johan De Smedt. Esco: Boosting job matching in europe with semantic interoperability. Computer, 47(10):57-64. 2014.
7. ESCO: European Skills, Competences, Qualifications and Occupations [Электронный ресурс] //ec.europa.eu [сайт]. [2023]. URL: https://ec.europa.eu/esco/. (дата обращения: 15.03.2023).
8. Mathieu Bastian , Matthew Hayes , William Vaughan , Sam Shah , Peter Skomoroch , Hyungjin Kim , Sal Uryasev , Christopher Lloyd. LinkedIn Skills: Large-Scale Topic Extraction and Inference. The 8th ACM Conference on Recommender Systems, 1-8. New York: Association for Computing Machinery. - 2014.
9. Domingos, Pedro, Michael Pazzani. On the optimality of the simple Bayesian classifier under zero-one loss. Machine Learning, 29:103-137. - 1997.
10. Машинное обучение [Электронный ресурс] //calltouch.ru: [сайт]. [2023]. URL: https://www.calltouch.ru/glossary/mashinnoe-obuchenie/ (дата обращения: 05.05.2023)
11. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python - Analyzing Text with the Natural Language Toolkit. O’Reilly Media. С. 261-265. - 2009.
12. Mariia Chernova. Occupational skills extraction with FinBERT. Магистерская диссертация - 2020.
13. Joulin, Armand; Grave, Edouard; Bojanowski, Piotr; Douze, Matthijs; Jegou, Herve; Mikolov, Tomas FastText.zip: Compressing text classification models
• 2016 — arXiv preprint arXiv:1612.03651
14. Mikolov, Tomas Distributed representations of words and phrases and their compositionality //Advances in Neural Information Processing Systems — 2013
• arXiv preprint arXiv:1310.4546
15. Akshay Bhola, Kishaloy Halder, Animesh Prasad, and Min-Yen Kan. Retrieving skills from job descriptions: A language model based extreme multi-label classification framework. The 28th International Conference on Computational Linguistics, С. 5832-5842. - 2020.
... всего 43 источников


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ