Тип работы:
Предмет:
Язык работы:


ИЗВЛЕЧЕНИЕ НАВЫКОВ ИЗ ОПИСАНИЯ ВАКАНСИИ С СЕРВИСОВ ПО ПОДБОРУ ПЕРСОНАЛА

Работа №190452

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы47
Год сдачи2024
Стоимость4470 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
3
Не подходит работа?

Узнай цену на написание


АННОТАЦИЯ 3
Перечень условных обозначений, символов, сокращений, терминов 3
ВВЕДЕНИЕ 5
1 Анализ задачи извлечения требуемых навыков из текстового описания
вакансии 7
1.1 Формальная постановка задачи 8
1.2 Состав данных 8
2 Подходы, основанные на машинном обучении 10
2.1 Подходы в рамках маркировки последовательности 11
2.2 Подходы в рамках multi-label классификации 13
3 Реализация 15
3.1 Предобработка данных 15
3.2 Используемые инструменты 15
3.3 Разделение на обучающую и тестовую выборки 15
3.4 Метрики и оценка точности 16
3.5 Анализ и классификация эмбеддингов n-грамм навыков и не
навыков, построенных при помощи трансформеров 18
3.6 Распознавание навыков при помощи ChatGPT 25
3.7 Распознавание именованных сущностей (навыков) при помощи
трансформеров 29
3.8 Выделение навыков с использованием encoder-decoder моделей и
решением задачи text-to-text (модель T5) 32
4 Интерфейс системы и ее контейнеризация 36
ЗАКЛЮЧЕНИЕ 39
ЛИТЕРАТУРА 40


В современном мире наличие определенных навыков является важнейшим параметром при отборе кандидатов на некоторую должность. Некоторые навыки являются достаточно редкими, некоторые более распространенными. К тому же, некоторые навыки более востребованы в отличии от других. Распространенность и востребованность - 2 основных параметра стоимости того или иного навыка. Для анализа рынка труда необходимо автоматически выделять навыки из описаний вакансий, поскольку самих вакансий очень большое количество и количество навыков также постоянно растет.
Чаще всего работодатель, указывая ключевые навыки в специальном разделе вакансии указывает неполный список, что приводит к недостоверности результатов анализа рынка труда. Для предотвращения ошибок при анализе рынка следует опираться не только на ключевые навыки, указанные в разделе вакансии, но и на навыки, которые находятся в описании вакансии.
Результатом выполнения задачи по распознаванию навыков в описаниях вакансий будет список профессиональных навыков, которые были упомянуты в описании этой вакансии.
Для английского языка существуют как датасеты, в которых уже были размечены навыки в описаниях вакансий, так и обученные на таких данных модели. Однако для русского языка нет ни подобных датасетов, ни, как следствие, обученных моделей.
Для того, чтобы не опираться на специальный раздел ключевых навыков в вакансиях, было принято решение разметить небольшое количество вакансий различных профессий (приблизительно 1000). Вакансии были получены с сайта hh.ru.
Задачи работы:
1) Провести обзор и анализ существующих методов и подходов к распознаванию требуемых навыков в тексте вакансий
2) Провести обзор существующих алгоритмов машинного обучения, включая нейронные сети, для решения задачи распознавания навыков в тексте вакансий.
3) Провести исследование применяемых метрик, таких как F1-strict, F1-loose и их подходящих вариаций для данной задачи
4) Сформировать требования к разрабатываемой системе
5) Провести анализ размеченных данных, содержащих описания вакансий, а также размеченные навыки
6) Предобработать набор данных, содержащий описания вакансий, а также размеченные навыки
7) Провести интеграцию модели GPT для универсальной обработки текстов и выделения ключевых навыков
8) Провести исследование границ применимости Named Entity Recognition
9) Создать baseline модели глубокого обучения
10) Определить наиболее подходящую модель и произвести ее дообучение
11) Разработать интерфейс
12) Провести тесты системы


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Для достижения целей работы были реализованы 3 из 4 описанных ранее подходов. Выделение навыков с использованием encoder-decoder моделей и решением задачи text-to-text (модель T5) был реализован предыдущим выпускником до передачи данной задачи нынешнему исполнителю (мне) и описывается в данной работе с целью демонстрации недостатков и преимуществ данного подхода.
Лучшим подходом можно назвать подход с распознаванием именованных сущностей (навыков) при помощи трансформеров, так как одновременно с более простой архитектурой, удалось получить наилучшее значение метрик по сравнению с другими подходами.
Данный подход решает проблемы, которые возникают при работе с подходом “выделение навыков с использованием encoder-decoder моделей и решением задачи text-to-text (модель T5)”, а именно:
• Навыки: наполнены контекстом, достаточно подробны, к тому же их число значительно увеличилось
• Метрики: существуют оптимальные метрики для проверки качества работы модели, такие как F1-strict, F1-loose
• Качество разметки не зависит от работодателя



1. hh ru [Электронный ресурс] //hh.ru [сайт]. [2024]. URL: https://hh.ru (дата обращения: 20.01.2024).
2. Chen Y. Y. et al. Design and implementation of cloud analytics- assisted smart power meters considering advanced artificial intelligence as edge analytics in demand-side management for smart homes //Sensors. - 2019. - Т. 19. - №. 9. - С. 2047.
3. Mike Zhang, Kristian Norgaard Jensen, Sif Dam Sonniks, Barbara Plank. SkillSpan: Hard and Soft Skill Extraction from English Job Postings //arXiv preprint arXiv:2204.12811. - 2022.
4. Madely du Preez. Taxonomies, folksonomies, ontologies: what are they and how do they support information retrieval? The Indexer The International Journal of Indexing 33. - 2015.
5. Martin le Vrang, Agis Papantoniou, Erika Pauwels, Pieter Fannes, Dominique Vandensteen, and Johan De Smedt. Esco: Boosting job matching in europe with semantic interoperability. Computer, 47(10):57-64. 2014.
6. ESCO: European Skills, Competences, Qualifications and
Occupations [Электронный ресурс] //ec.europa.eu [сайт]. [2024]. URL: https://ec.europa.eu/esco/. (дата обращения: 15.03.2024).
7. Mathieu Bastian , Matthew Hayes , William Vaughan , Sam Shah , Peter Skomoroch , Hyungjin Kim , Sal Uryasev , Christopher Lloyd. LinkedIn Skills: Large-Scale Topic Extraction and Inference. The 8th ACM Conference on Recommender Systems, 1-8. New York: Association for Computing Machinery. - 2014.
8. Domingos, Pedro, Michael Pazzani. On the optimality of the simple Bayesian classifier under zero-one loss. Machine Learning, 29:103-137. - 1997.
9. Машинное обучение [Электронный ресурс] //calltouch.ru: [сайт]. [2024]. URL: https://www.calltouch.ru/glossary/mashinnoe-obuchenie/ (дата обращения: 05.05.2024)
10. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python - Analyzing Text with the Natural Language Toolkit. O’Reilly Media. С. 261-265. - 2009.
11. Mariia Chernova. Occupational skills extraction with FinBERT. Магистерская диссертация - 2020.
12. Joulin, Armand; Grave, Edouard; Bojanowski, Piotr; Douze, Matthijs; Jegou, Herve; Mikolov, Tomas FastText.zip: Compressing text classification models — 2016 — arXiv preprint arXiv:1612.03651
13. Mikolov, Tomas Distributed representations of words and phrases and their compositionality //Advances in Neural Information Processing Systems — 2013 — arXiv preprint arXiv:1310.4546
14. Akshay Bhola, Kishaloy Halder, Animesh Prasad, and Min-Yen Kan. Retrieving skills from job descriptions: A language model based extreme multilabel classification framework. The 28th International Conference on Computational Linguistics, С. 5832-5842. - 2020.
15. Mariyam Ansari, Prof. N. M. Shahane. A Review on Multi-label Classification. IJRAR- International Journal of Research and Analytical Reviews. С. 816-819. - 2019.
..35

Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ