Тип работы:
Предмет:
Язык работы:


Разработка технологии автоматического построения справочника сотрудников организации из слабоструктурированных массивов информации в Web

Работа №84524

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы30
Год сдачи2016
Стоимость4220 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
29
Не подходит работа?

Узнай цену на написание


Введение 3
Актуальность 4
Постановка задачи 6
Разработка метода извлечения сущностей 7
Разработка метода построения справочника сотрудников 14
Разработка тестового набора данных 19
Программная реализация 20
Экспериментальная проверка полученных методов и получение численных мер эффективности 24
Заключение 26
Список использованной литературы 28

Приложения должны быть в работе, но в данный момент отсутствуют

На данный момент более десятка способов связаться с другим человеком. Для коммуникации всегда требуется некоторый “ключ”, которым может являться номер телефона, адрес электронной почты, id или ФИО в социальной сети. Набор (кортеж) этих данных, который может дополнительно включать еще несколько атрибутов, традиционно называется контактом. Поиск различных контактов является рутиной для определенных категорий работников. Однако в некоторых отраслях экономики и производства поиск контактов заинтересованных лиц используется особенно часто, и её эффективность непосредственно влияет на эффективность работы организации, вследствие чего предпринимаются попытки упрощения и автоматизации этой процедуры. Например, можно отметить одно из существующих решений - LinkedIn SalesNavigator[1] - англоязычный инструмент с платными учетными записями, созданный для специалистов по продажам, который обладает большим набором специфических функций, таких как поиск непосредственно членов руководств компаний с сопутствующей информацией, такой как телефонные номера, должности и т.д.
Альтернативным решением было бы иметь программный инструмент для пополнения своих собственных справочников / баз данных контактами из Web, в таком случае пользователь мог бы поддерживать в базе самые актуальные для него данные без дополнительных расходов и значительных трудозатрат.
Целью данной работы является исследовать применение методов обработки естественного языка для извлечения структурированной контактной информации о сотрудниках организации из web-страниц. Результатом дипломной работы ожидается прототип программы, автоматизирующей извлечение контактной информации о сотрудниках компании из слабоструктурированных html-страниц на русском языке.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Достигнута поставленная цель работы - создание программного продукта, способного из слабоструктурированных массивов информации в виде текстовых html страниц с текстом на естественном языке автоматически строить справочники сотрудников. Основными результатами работы являются следующие:
• Разработан метод извлечения сущностей из русскоязычных html-страниц с сайтов компаний
• Разработан метод построения справочника сотрудников из русскоязычных html-страниц с сайтов компаний
• Разработан тестовый набора данных
• Создано консольное приложение на языке C#, реализующее вышеупомянутые методы
• Проверена работоспособность и эффективность приложения на тестовом наборе данных. При этом значения численных мер работы приложения составили:
О Precision (точность): 0.43
О Recall (полнота): 0.55
О F-мера: 0.48
В планах дальнейшей работы над проектом предлагается следующее:
• Оптимизация времени работы приложения:
О Использование частичного синтаксического разбора вместо полного
О Фильтрация неактуальных данных, например при помощи стоп- слов
О Оптимизация структур для хранения сущностей
• Увеличение эффективности работы приложения (увеличение точности построения справочника):
О Использование близости полей html-документа в мере “близости” сущностей (например, когда Ф.И.О. и контакт находятся визуально близко на html-страницу, но при извлечении текста, они оказываются “далеко” друг от друга - разделены предложениями и т.д.)
О Нахождение связи между сущностями в разных предложениях
О Использование машинного обучения для вычисления принадлежности сущности к Ф.И.О.
О Улучшение метода извлечения данных из html, а именно извлечение данных не только из листьев, но и из текстов гиперссылок, заголовков (title)
Полученный программный продукт рекомендуется к внедрению в отделах организаций, нуждающихся в контактах заинтересованных лиц, например, в отделах по продажам.



1. https://business.linkedin.com/sales-solutions/sales-navigator
2. http://expert.ru/northwest/2015/15/dostupnyie-instrumentyi-povyisheniya- prodazh/
3. http://www. crmexperts.ru/2012/05/05/poisk-delovyh-kontaktov/
4. https: //datahq.co. uk/
5. http: //www. inte grumworld. com/rus/personsearch.html
6. http://www.salespring.ru
7. И. Некрестьянов, Е. Павлова. Обнаружение структурного подобия HTML-документов
http: //masters. dgtu. donetsk. ua/2011 /fknt/krinitskaya/library/article5. pdf
8. David W. Embley, Douglas M. Campbell, Y. S. Jiang, Stephen W. Liddle,Yiu-Kai Ng, Dallan Quass, Randy D. Smith: Conceptual-Model-Based Data Extraction from Multiple-Record Web Pages.
9. http: //www.xml. com/pub/rg/XML Parsers
10. https://en.wikipedia. org/wiki/Regular expression
11. https://ru.wikipedia.org/wiki/.NET_Framework
12. OpenCorporahttp://opencorpora.org/
13. https: //github .com/MindT ouch/ SGMLReader
14. Точность и полнотаhttps://en.wikipedia.org/wiki/Precision and recall
15. Методы оценивания_
http: //datamin. ubbcluj. ro/wiki/index.php/Evaluation methods in text cate gorization
16. https: //nlpub. ш/Обработка текста
17. Большакова Е.И., Клышинский Э.С., 2011. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика.
18. Современные аспекты представления текстов при анализе естественного языка: классические и альтернативные подходы
https: //habrahabr.ru/post/227199
19. Парсинг русского языка https://habrahabr.ru/post/148124/


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ