Тема: Разработка технологии автоматического построения справочника сотрудников организации из слабоструктурированных массивов информации в Web
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Актуальность 4
Постановка задачи 6
Разработка метода извлечения сущностей 7
Разработка метода построения справочника сотрудников 14
Разработка тестового набора данных 19
Программная реализация 20
Экспериментальная проверка полученных методов и получение численных мер эффективности 24
Заключение 26
Список использованной литературы 28
Приложения должны быть в работе, но в данный момент отсутствуют
📖 Введение
Альтернативным решением было бы иметь программный инструмент для пополнения своих собственных справочников / баз данных контактами из Web, в таком случае пользователь мог бы поддерживать в базе самые актуальные для него данные без дополнительных расходов и значительных трудозатрат.
Целью данной работы является исследовать применение методов обработки естественного языка для извлечения структурированной контактной информации о сотрудниках организации из web-страниц. Результатом дипломной работы ожидается прототип программы, автоматизирующей извлечение контактной информации о сотрудниках компании из слабоструктурированных html-страниц на русском языке.
✅ Заключение
• Разработан метод извлечения сущностей из русскоязычных html-страниц с сайтов компаний
• Разработан метод построения справочника сотрудников из русскоязычных html-страниц с сайтов компаний
• Разработан тестовый набора данных
• Создано консольное приложение на языке C#, реализующее вышеупомянутые методы
• Проверена работоспособность и эффективность приложения на тестовом наборе данных. При этом значения численных мер работы приложения составили:
О Precision (точность): 0.43
О Recall (полнота): 0.55
О F-мера: 0.48
В планах дальнейшей работы над проектом предлагается следующее:
• Оптимизация времени работы приложения:
О Использование частичного синтаксического разбора вместо полного
О Фильтрация неактуальных данных, например при помощи стоп- слов
О Оптимизация структур для хранения сущностей
• Увеличение эффективности работы приложения (увеличение точности построения справочника):
О Использование близости полей html-документа в мере “близости” сущностей (например, когда Ф.И.О. и контакт находятся визуально близко на html-страницу, но при извлечении текста, они оказываются “далеко” друг от друга - разделены предложениями и т.д.)
О Нахождение связи между сущностями в разных предложениях
О Использование машинного обучения для вычисления принадлежности сущности к Ф.И.О.
О Улучшение метода извлечения данных из html, а именно извлечение данных не только из листьев, но и из текстов гиперссылок, заголовков (title)
Полученный программный продукт рекомендуется к внедрению в отделах организаций, нуждающихся в контактах заинтересованных лиц, например, в отделах по продажам.



