📄Работа №84524

Тема: Разработка технологии автоматического построения справочника сотрудников организации из слабоструктурированных массивов информации в Web

Характеристики работы

Тип работы Дипломные работы, ВКР
Информатика и вычислительная техника
Предмет Информатика и вычислительная техника
📄
Объем: 30 листов
📅
Год: 2016
👁️
Просмотров: 72
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Введение 3
Актуальность 4
Постановка задачи 6
Разработка метода извлечения сущностей 7
Разработка метода построения справочника сотрудников 14
Разработка тестового набора данных 19
Программная реализация 20
Экспериментальная проверка полученных методов и получение численных мер эффективности 24
Заключение 26
Список использованной литературы 28

Приложения должны быть в работе, но в данный момент отсутствуют

📖 Введение

На данный момент более десятка способов связаться с другим человеком. Для коммуникации всегда требуется некоторый “ключ”, которым может являться номер телефона, адрес электронной почты, id или ФИО в социальной сети. Набор (кортеж) этих данных, который может дополнительно включать еще несколько атрибутов, традиционно называется контактом. Поиск различных контактов является рутиной для определенных категорий работников. Однако в некоторых отраслях экономики и производства поиск контактов заинтересованных лиц используется особенно часто, и её эффективность непосредственно влияет на эффективность работы организации, вследствие чего предпринимаются попытки упрощения и автоматизации этой процедуры. Например, можно отметить одно из существующих решений - LinkedIn SalesNavigator[1] - англоязычный инструмент с платными учетными записями, созданный для специалистов по продажам, который обладает большим набором специфических функций, таких как поиск непосредственно членов руководств компаний с сопутствующей информацией, такой как телефонные номера, должности и т.д.
Альтернативным решением было бы иметь программный инструмент для пополнения своих собственных справочников / баз данных контактами из Web, в таком случае пользователь мог бы поддерживать в базе самые актуальные для него данные без дополнительных расходов и значительных трудозатрат.
Целью данной работы является исследовать применение методов обработки естественного языка для извлечения структурированной контактной информации о сотрудниках организации из web-страниц. Результатом дипломной работы ожидается прототип программы, автоматизирующей извлечение контактной информации о сотрудниках компании из слабоструктурированных html-страниц на русском языке.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Достигнута поставленная цель работы - создание программного продукта, способного из слабоструктурированных массивов информации в виде текстовых html страниц с текстом на естественном языке автоматически строить справочники сотрудников. Основными результатами работы являются следующие:
• Разработан метод извлечения сущностей из русскоязычных html-страниц с сайтов компаний
• Разработан метод построения справочника сотрудников из русскоязычных html-страниц с сайтов компаний
• Разработан тестовый набора данных
• Создано консольное приложение на языке C#, реализующее вышеупомянутые методы
• Проверена работоспособность и эффективность приложения на тестовом наборе данных. При этом значения численных мер работы приложения составили:
О Precision (точность): 0.43
О Recall (полнота): 0.55
О F-мера: 0.48
В планах дальнейшей работы над проектом предлагается следующее:
• Оптимизация времени работы приложения:
О Использование частичного синтаксического разбора вместо полного
О Фильтрация неактуальных данных, например при помощи стоп- слов
О Оптимизация структур для хранения сущностей
• Увеличение эффективности работы приложения (увеличение точности построения справочника):
О Использование близости полей html-документа в мере “близости” сущностей (например, когда Ф.И.О. и контакт находятся визуально близко на html-страницу, но при извлечении текста, они оказываются “далеко” друг от друга - разделены предложениями и т.д.)
О Нахождение связи между сущностями в разных предложениях
О Использование машинного обучения для вычисления принадлежности сущности к Ф.И.О.
О Улучшение метода извлечения данных из html, а именно извлечение данных не только из листьев, но и из текстов гиперссылок, заголовков (title)
Полученный программный продукт рекомендуется к внедрению в отделах организаций, нуждающихся в контактах заинтересованных лиц, например, в отделах по продажам.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. https://business.linkedin.com/sales-solutions/sales-navigator
2. http://expert.ru/northwest/2015/15/dostupnyie-instrumentyi-povyisheniya- prodazh/
3. http://www. crmexperts.ru/2012/05/05/poisk-delovyh-kontaktov/
4. https: //datahq.co. uk/
5. http: //www. inte grumworld. com/rus/personsearch.html
6. http://www.salespring.ru
7. И. Некрестьянов, Е. Павлова. Обнаружение структурного подобия HTML-документов
http: //masters. dgtu. donetsk. ua/2011 /fknt/krinitskaya/library/article5. pdf
8. David W. Embley, Douglas M. Campbell, Y. S. Jiang, Stephen W. Liddle,Yiu-Kai Ng, Dallan Quass, Randy D. Smith: Conceptual-Model-Based Data Extraction from Multiple-Record Web Pages.
9. http: //www.xml. com/pub/rg/XML Parsers
10. https://en.wikipedia. org/wiki/Regular expression
11. https://ru.wikipedia.org/wiki/.NET_Framework
12. OpenCorporahttp://opencorpora.org/
13. https: //github .com/MindT ouch/ SGMLReader
14. Точность и полнотаhttps://en.wikipedia.org/wiki/Precision and recall
15. Методы оценивания_
http: //datamin. ubbcluj. ro/wiki/index.php/Evaluation methods in text cate gorization
16. https: //nlpub. ш/Обработка текста
17. Большакова Е.И., Клышинский Э.С., 2011. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика.
18. Современные аспекты представления текстов при анализе естественного языка: классические и альтернативные подходы
https: //habrahabr.ru/post/227199
19. Парсинг русского языка https://habrahabr.ru/post/148124/

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ