Введение 3
Постановка задачи 6
Обзор литературы 7
Глава 1. Описание инструментария 9
1.1. Извлечение данных 9
1.2. Предобработка данных 12
1.3. Анализ данных 13
Глава 2. Реализация 17
2.1. Архитектура 17
2.2 Логика работы 17
Глава 3. Обзор работы приложения 19
Выводы 24
Заключение 25
Список литературы 26
Приложения 28
Приложение 1 28
Приложение 2 30
Приложение 3 32
Одной из важнейших тенденций современной мировой нефтедобывающей промышленности является снижение производства на легкодоступных и высокопроизводительных нефтяных месторождениях. Чтобы сохранить и увеличить текущие объемы производства, необходимо проводить более подробный анализ проблемы глубокого бурения. В нашей стране тяжелая нефть имеет особое значение.
За последние пятнадцать лет истощение запасов легкой нефти привело к снижению темпов и осложнениям условий добычи, а, следовательно, к сокращению объемов добычи нефти и уменьшению периода капитального ремонта и срока эксплуатации оборудования. Частая смена и использование малопродуктивного оборудования сопровождается ростом себестоимости. Следствием этих процессов является устойчивое снижение рентабельности добычи нефти [1].
В России легкие нефтяные месторождения разрабатываются более чем наполовину, тогда как геологические запасы высоковязкой и тяжелой нефти достигают 6-7 млрд. тонн (40-50 млрд. Баррелей). Однако использование и производство этих запасов требуют специализированных дорогостоящих технологий [2]. Эксплуатационные расходы на добычу тяжелой нефти и природного битума превышают темпы добычи легкой нефти в 3-4 раза. Это связано не только с высокой плотностью и вязкостью тяжелых масел, но и с недостаточным развитием технологий для их производства и переработки. Таким образом, исследование и применение новых технологий производства тяжелой и высоковязкой нефти является приоритетным направлением развития нефтедобывающего сектора.
Методы увеличения нефтеотдачи (МУН) выбираются в зависимости от геолого-физических характеристик и свойств месторождения. Не существует полностью идентичных месторождений, они могут различаться по плотности, вязкости и составу нефти; по нефтенасыщенности, литологическому составу, смачиваемости, глубине и толщине, горизонтальной проницаемости коллектора и т.д. При этом на части залежи технология может быть применима, а в целом по пласту - нет. Следовательно, для каждой скважины необходимо оптимальным образом спрогнозировать соответствующую технологию.
Скрининг обеспечивает поиск наиболее подходящих технологий путем анализа существующих МУН для заданных характеристик конкретной залежи. В настоящее время большинство результатов исследований храниться в различных электронных базах в виде научных публикаций. Таким образом, скрининг технологий МУН сводится к изучению статей, посвященных повышению нефтедобычи.
В 2007 году американским ученым Джимом Греем было введено понятие четвертой парадигмы научных исследований, которая встает в один ряд с двумя классическими - теорией и экспериментом, а также третьей - крупномасштабным компьютерным моделированием. Четвертая парадигма подразумевает совместное использование моделирования, теории и эксперимента в условиях огромных объемов данных [3], с последующей обработкой и хранением полученной информации (так называемый архив науки).
Архив науки возможно использовать в большом масштабе, как корпус текстов и набор взаимосвязанных источников данных. При применении вычислительных технологий, производится поиск удовлетворяющих источников и выдвижение гипотез на основе комбинаций найденных данных об экспериментах, теориях и моделировании. Таким образом, согласно парадигме Грея, можно сказать, что все уже заранее известно и посчитано, нужно лишь только найти. Для этого существуют различные распределенные базы данных, электронные библиотеки, облачные хранилища и т.п. Они содержат огромный цифровой ресурс, который стал важной архитектурой веб-приложений.
Данные цифровых библиотек и баз данных огромны, неоднородны, динамичны. Точка доступа к данным — это способ представления запроса гетерогенной информации и предоставления интеллектуальных услуг пользователям. Электронные базы направлены на создание широкомасштабной расширяемой и распределенной системы знаний путем интеграции и использования новейших компьютерных, коммуникационных и мультимедийных технологий. Благодаря системе знаний электронная база может обеспечить высокоскоростной унифицированный поиск услуги электронного доступа для своих пользователей.
Основой данной работы является исследование методов извлечения информации из электронных ресурсов, а также проведение анализа полученной информации для выявления наиболее релевантных источников. Работа выполнена по заказу ООО «Газпромнефть НТЦ»; в качестве метода анализа источников компанией предложен поиск центров компетенций. Под данным поиском понимается выделение компаний, наиболее грамотных и экспертных в определённой области знаний.
С целью автоматизации подготовки данных для скрининга методов повышения нефтедобычи была разработана система извлечения и анализа данных из электронных ресурсов.
Разработанная система может быть удобным инструментом для повышения качества и скорости работы по выбору технологий МУН. Приложение значительно снизит время на обработку больших объемов информации сотрудниками нефтедобывающей компании, что позволит сфокусироваться на более приоритетной части скрининга - выборе технологии. Кроме того, хранение данных в электронном виде позволит значительно снизить затрачиваемые усилия на повторный поиск.
1. Кузьмичев Н. П. КЭС - новый подход к повышению рентабельности добычи нефти // Бурение и нефть, 2005. № 6. С. 16-17.
2. Тяжелые нефти в России [Электронный ресурс]: URL: http://one_vision.jofo.ru/241887.html (дата обращения 19.12.2017).
3. Линч К. Четвертая парадигма Джима Грея и формирование архива науки // Четвертая парадигма / под ред. Хея Т., Тэнсли С., Толле К. Microsoft research. 2014. C. 175-182.
4. Sleiman H. A., Corchuelo R. A Survey on region extractors from web documents // IEEE Transactions on Knowledge and Data Engineering. 2013. Vol. 25. No 9. P. 1960-1980.
5. Embley D.W., Jiang Y.S., Ngy Y.-K. Record-Boundary Discovery in Web Documents // ACM SIGMOD Record. 1999. Vol. 28. No 2. P. 467-478.
6. Buttler D., Liu L., Pu C. A fully automated object extraction system for the World Wide Web // Proc. Int’l Conf. Distributed Computing Systems (ICDCS). 2001. P. 361-370.
7. Wang J., Lochovsky F.H. Data-rich section extraction from HTML pages // Proc. Third Int’l Conf. Web Information Systems Eng. (WISE). 2002. P. 313-322.
8. Holten D. Hierarchical edge bundles: visualization of adjacency relations in hierarchical data // IEEE Transactions on Visualization and Computer Graphics. 2006. Vol. 12. No 5. P. 741-748.
9. Huang W., Hong S., Eades P. Layout Effects on Sociogram Perception // Proc. 12th Int’l Symp. Graph Drawing. 2006. P. 262-273.
10. Kamada T., Kawai S. An algorithm for drawing general undirected graphs // Information Processing Letters. 1989. Vol. 31. No 1. P. 7-15.
11. Апанович З.В. Современные силовые алгоритмы для визуализации информации большого объема // Институт систем информатики им. А.П. Ершова СО РАН. С. 164-171.
12. Igraph [Электронный ресурс]: URL: http://igraph.org/python/ (Дата обращения 12.04.2018).
13. Plotly [Электронный ресурс]: URL: https://plot.ly/ (Дата обращения 12.04.2018).
14. OnePetro.org [Электронный ресурс]: URL: https://www.onepetro.org/ (дата обращения 20.03.2018).
15. Song Y., Wei R. Research on application of data mining based on FP-growth algorithm for digital library // Second International Conference on Mechanic Automation and Control Engineering (MACE). 2011. P. 1525-1528.
...