Тип работы:
Предмет:
Язык работы:


РЕШЕНИЕ ЗАДАЧИ ИЗВЛЕЧЕНИЯ КЛЮЧЕВЫХ НАВЫКОВ ИЗ ТЕКСТОВОГО ОПИСАНИЯ ВАКАНСИИ

Работа №191806

Тип работы

Дипломные работы, ВКР

Предмет

программирование

Объем работы49
Год сдачи2023
Стоимость4500 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
7
Не подходит работа?

Узнай цену на написание


Аннотация
Перечень условных обозначений, символов, сокращений, терминов 4
Введение 6
1 Анализ задачи извлечения ключевых навыков из текстового описания
вакансии 8
1.1 Формальная постановка задачи 9
1.2 Состав данных 10
2 Существующие подходы к решению задачи 14
2.1 Подходы основанные на таксономии или фолксономии 14
2.2 Подходы основанные на машинном обучении 15
2.2.1 Подходы в рамках маркировки последовательности 17
2.2.2 Подходы в рамках multi-label классификации 18
3 Реализация 20
3.1 Предобработка данных 20
3.2 Используемые инструменты 20
3.3 Разделение на обучающую и тестовые выборки 21
3.4 Метрики и оценка точности 22
3.5 Подход на основе поиска с учетом форм слова 24
3.6 Подход на основе BERT-XMLC 24
3.7 Подход на основе архитектуры T5 29
3.8 Подход на основе на анализе семантической близости предложений и
ключевых навыков 33
3.8.1 Выделение предложений содержащих ключевые навыки 33
3.8.2 Подбор упомянутого в предложении ключевого навыка 35
3.9 Результаты 36
Заключение 39
Список литературы 40

Навыки играют центральную роль на рынке труда и во многих процессах управления персоналом. В современном онлайн-рынке труда кандидаты хотели бы видеть видеть свои реальные возможности на основе набора навыков. Аналогично, предприятия все больше нуждаются в использовании подобные данные о навыках, чтобы гарантировать, что навыки их рабочей силы останутся актуальными в будущем. Однако структурированная информация о навыках часто отсутствует, а самостоятельная оценка навыков работодателями или кандидатами может быть неполной или неточной.
Задача извлечения ключевых навыков заключается в автоматизации процесса идентификации наиболее важных навыков, требуемых для конкретной должности. Для этого используются методы технологии обработки естественного языка и машинного обучения. Извлечение навыков является очень сложной задачей из-за огромного количество возможных навыков, которые могут быть упомянуты в тексте вакансии как явно так и неявно
Результатом выполнения задачи по извлечению ключевых навыков является список профессиональных навыков, упомянутых в тексте вакансии.
Сложность решения данной задачи на английском языке тесно связана с небольшим количеством размеченных датасетов и их постоянным устареванием в связи с постоянным появлением новых технологий и соответствующих профессиональных навыков. А также с определением методологии разметки [3].
Для русского же языка и вовсе отсутствуют открытые, вручную размеченные датасеты. Поэтому для решения данной задачи на русском языке было принято использовать открытые данные текстов вакансий и проставленных работодателями ключевых навыков с hh.ru [1].
В рамках решения извлечения текстовых навыков из текстового описания вакансии были поставлены следующие задачи:
Задачи работы:
1. Проанализировать существующие подходы к решению задачи извлечению ключевых навыков;
2. Провести предварительный анализ данных и определить параметры выборки подходящей для обучения и тестирования;
3. Подготовить датасет, сформировать обучающую и тестовые выборки;
4. Реализовать подходы, решающие данную задачу;
5. Подобрать подходящие метрики оценки точности алгоритмов на тестовой выборке;
6. Выбрать лучший подход на основе сравнительного анализа подходов на тестовой выборке.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе работы были реализованы 4 различие подхода к задачи извлечения ключевых навыков из текстового описания вакансий на русском языке:
• Наивный подход поиска ключевых навыков с учетом форм слова
• Существующий подход BERT-XMLC, адаптированный для русского языка
• Подход на основе архитектуры T5, ранее не использованный в задаче извлечения ключевых навыков
• Подход на основе выделения в тексте предложений, содержащих информацию о ключевых навыков и приведение их к ключевым навыкам посредстовм анализа семантический близости с ними, который также ранее не был использован в этой задаче в таком виде.
На данный момент нейросеть полученная в рамках реализации подхода основанного на архитектуре T5 была принята заказчиком и находится на стадии внедрения в проект по агрегации и визуальному представлению вакансий России.


1. hh ru [Электронный ресурс] //hh.ru [сайт]. [2023]. URL: https://hh.ru (дата обращения: 20.01.2023).
2. Chen Y. Y. et al. Design and implementation of cloud analytics-assisted smart power meters considering advanced artificial intelligence as edge analytics in demand-side management for smart homes //Sensors. - 2019. - Т. 19. - №. 9. - С. 2047.
3. Mike Zhang, Kristian Norgaard Jensen, Sif Dam Sonniks, Barbara Plank. SkillSpan: Hard and Soft Skill Extraction from English Job Postings //arXiv preprint arXiv:2204.12811. - 2022.
4. PostgreSQL: The World's Most Advanced Open-Source Relational Database [Электронный ресурс] //postgresql.org [сайт]. [2023]. URL: https://www.postgresql.org (дата обращения: 25.01.2023).
5. Madely du Preez. Taxonomies, folksonomies, ontologies: what are they and how do they support information retrieval? The Indexer The International Journal of Indexing 33.-2015.
6. Martin le Vrang, Agis Papantoniou, Erika Pauwels, Pieter Fannes, Dominique Vandensteen, and Johan De Smedt. Esco: Boosting job matching in europe with semantic interoperability. Computer, 47(10):57-64. 2014.
7. ESCO: European Skills, Competences, Qualifications and Occupations [Электронный ресурс] //ec.europa.eu [сайт]. [2023]. URL: https://ec.europa.eu/esco/. (дата обращения: 15.03.2023).
8. Mathieu Bastian , Matthew Hayes , William Vaughan , Sam Shah , Peter Skomoroch , Hyungjin Kim , Sal Uryasev , Christopher Lloyd. LinkedIn Skills: Large-Scale Topic Extraction and Inference. The 8th ACM Conference on Recommender Systems, 1-8. New York: Association for Computing Machinery. - 2014.
9. Domingos, Pedro, Michael Pazzani. On the optimality of the simple Bayesian classifier under zero-one loss. Machine Learning, 29:103-137. - 1997.
10. Машинное обучение [Электронный ресурс] //calltouch.ru: [сайт]. [2023]. URL: https://www.calltouch.ru/glossary/mashinnoe-obuchenie/ (дата обращения: 05.05.2023)
11. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python - Analyzing Text with the Natural Language Toolkit. O’Reilly Media. С. 261-265. - 2009.
12. Mariia Chernova. Occupational skills extraction with FinBERT. Магистерская диссертация - 2020.
13. Joulin, Armand; Grave, Edouard; Bojanowski, Piotr; Douze, Matthijs; Jegou, Herve; Mikolov, Tomas FastText.zip: Compressing text classification models
• 2016 — arXiv preprint arXiv:1612.03651
14. Mikolov, Tomas Distributed representations of words and phrases and their compositionality //Advances in Neural Information Processing Systems — 2013
• arXiv preprint arXiv:1310.4546
15. Akshay Bhola, Kishaloy Halder, Animesh Prasad, and Min-Yen Kan. Retrieving skills from job descriptions: A language model based extreme multi-label classification framework. The 28th International Conference on Computational Linguistics, С. 5832-5842. - 2020.
... всего 43 источников


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ