ВВЕДЕНИЕ 3
1 Статистические методы анализа и визуализации данных 6
2 Обработка данных с нефтяных месторождений Республики Татарстан 20
ЗАКЛЮЧЕНИЕ 24
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Статистический анализ данных — область математики, занимающаяся построением и исследованием математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных данных [17].
Статистический анализ широко применяются в разных областях человеческой деятельности. Анализ данных тесно связан с построением математических моделей. Математические модели полезны для более полного понимания сущности происходящих процессов, их анализа. Модель, построенная и верифицированная на основе (уже имеющихся) наблюденных значений объясняющих переменных, может быть использована для прогноза значений зависимой переменной в будущем или для других наборов значений объясняющих переменных [12].
Одной из областей применения статистического анализа является нефтяная сфера. В нефтегазовой отрасли очень большую роль играет математический аппарат, в частности такие дисциплины как: дифференциальные уравнения, математическая статистика, численные методы, тензорный анализ, а так же стохастическое моделирование [18, 4]. На сегодняшний день нефтяная промышленность мира представляет собой одну из важнейших составляющих мирового хозяйства, а также оказывает большое влияние на развитие других отраслей. Для многих государств добыча и переработка нефти является основным источником доходов и отраслью, определяющую стабильность валюты страны и внутренней экономики.
Одной из главных проблем современного развития нефтяного комплекса России является проблема нерационального недропользования (низкий уровень извлечения запасов нефти) [14]. Создание новых технологий для разработки трудноизвлекаемых запасов нефти становится одним из перспективных направлений в нефтегазовой области.
Выявление зависимости между качественными характеристиками нефти и физическими свойствами пласта дает возможность сэкономить на дорогостоящих лабораторных исследованиях и помогает в создании новых технологий для разработки трудноизвлекаемых запасов нефти.
Цель работы: на основе предоставленных данных провести статистический анализ качественных и количественных характеристик нефтяных месторождений Республики Татарстан.
В работе решаются следующие задачи: изучить современные методы и подходы, используемые при статистической обработке данных; изучить пакеты прикладных программ, в которых возможна численная реализация алгоритмов анализа данных; провести первичный анализ предоставленных данных; проверить ряд гипотез о выборках и выявить возможные зависимости между показателями пласта; анализ получившихся результатов; сделать выводы и рекомендации.
Данная работа состоит из введения, двух разделов, заключения, списка литературы, приложений. Первый раздел содержит в себе теоретические сведения, описание основных определений, теорем и статистических критериев, используемых при анализе и обработке информации. Во втором разделе приводятся расчеты в среде программирования R и пакете MS Excel для следующих показателей: глубина залегания нефти, коэффициент извлечения нефти, нефтенасыщенность, проницаемость, содержание серы, содержание парафина, содержание смол и асфальтенов, пластовая температура, плотность и вязкость нефти в пластовых условиях. В заключении приводятся основные результаты, выводы и рекомендации. Список литературы содержит 23 источника. В приложениях представлены таблица исследуемых данных и листинги программ.
По итогам проделанной работы были изучены современные методы и подходы, используемые при статистической обработке данных. Также была изучена среда программирования R. Все вычисления проводились в программах RStudio и MS Excel.
При проведении первичного анализа исследуемых данных и проверки гипотез о выборках была отвергнута нормальность данных. Выборки принадлежат одному классу распределений. Гипотеза о независимости выборок была принята, но исходя из диаграмм рассеяния подобрать вид распределения не представляется возможным.
При замене недостающих данных средними значениями по выборке возникает явление мультиколлинеарности. Нарушается предпосылка об идентифицируемости модели или, другими словами, регрессионная модель становится неидентифицируемой.
На последнем этапе работы данные проверялись на случайность. Гипотеза о случайности данных была отвергнута.
В результате проведенного анализа рекомендуется уточнение параметров на основе новых данных, полученных при бурении скважин, с целью дальнейшего использования их в подсчете запасов и при проектировании, а также для выявления зависимостей между показателями.
[1] Айвазян С.А. Методы эконометрики. — М. Магистр, 2010. — 512 с.
[2] Боровков А.А. Математическая статистика. — Учебник. — М.: Наука, 1984. - 472 с.
[3] Боровков А.А. Теория вероятностей: Учеб, пособие для вузов. — 2-е изд., перераб. и доп. — М.: Наука. Гл. ред. физ.-мат. лит 1986. — 432 с.
[4] Вистелиус А. Б. Математическая геология и ее вклад в фундаментальные геологические разработки. — Л., 1986. — 27 с
[5] Ивченко Г.И. Введение в математическую статистику / Ивченко Г.И., Медведев Ю.И. — М.: Издателвство ЛКИ, 2010. — 600 с.
[6] Кендалл М. Статистические выводы и связи / М. Кендалл, А. Ствюарт; Пер. с англ. Л. И. Галвчука, А. Т. Терехина; Под ред. А. Н. Колмогорова. - М.: Наука, 1973. - 899с.
[7] Кобзарв А.И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 238 с.
[8] Козлов М.В. Введение в математическую статистику / Козлов М.В., Прохоров А.В. — М.: Изд-во МГУ, 1987. — 264 с.
[9] Колмагоров А.И. Теория вероятностей и математическая статистика. — М.: Наука, 1986. Т.2. — 585 .
[10] Кристофер Доугерти. Введение в эконометрику. — 2-е, пер. с англ. — М.: ИНФРА-М, 2004. — 419 с.
[11] Лагутин М. Б. Наглядная математическая статистика. (Том 2, стр. 174) — М.: П-центр, 2003.
[12] Магнус Я.Р. Эконометрика. Начальный курс / Магнус Я.Р., Катышев П.К., Пересецкий А.А. — 6-е изд., перераб. и доп. — М. Дело, 2004. - 576 с.
[13] Мастицкий С.Э. Статистический анализ и визуализация данных с помощью R / Мастицкий С.Э., Мастицкий С.Э. — Электронная книга, адрес доступа: http://r-analytic.blogspot.com(Дата обращения: 30.03.2019)
[14] Саенко В.В. Нефтяная промышленность России — сценарии сбалансированного развития / Саенко В.В., Крюков В.А., Шмат В.В., Силкин В. К)., Шафраник Ю.К., Бушуев В.В., Токарев А.Н. — М.: Энергия, 2010. — 160 с.
[15] Ширяев А.Н. Вероятность. — 4-е изд., перераб. и доп. — М.: 2007. — Кн.1 — 552 с.
[16] Ширяев А.Н. Основы стохастической финансовой математики. Том 1. Факты. Модели. — Москва: ФАЗИС, 1998. — 512 с.
[17] Шитиков В.К. Классификация, регрессия и другие алгоритмы Data Mining с использованием R / Шитиков В.К., Мастицкий С.Э. — Электронная книга, адрес доступа: http://github.com/ranalytics/data-mining, 2017. — 351 с. (Дата обращения: 30.03.2019)
[18] Armstrong М. Common Problems Seen in Variograms // Mathematical Geology. — 1984. — Vol. 16, N 3. — p. 305—313.
[19] Gibbons J. D., Chakraborti S. Nonparametric Statistical Inference, 4th Ed. - CRC, 2003 - 608 p.
[20] Kruskal W. H. and Wallis W. A. Use of ranks in one-criterion variance analysis. // Journal of the American Statistical Association. — 1952, 47 №260. - Pp. 583-621.
[21] Mann H. B., Whitney D. R. On a test of whether one of two random variables is stochastically larger than the other. // Annals of Mathematical Statistics. — 1947, №18. — Pp. 50-60
[22] Shapiro S. S., Wilk M. B. An analysis of variance test for normality. — Biometrika, 1965, 52, №3 - p. 591-611.
[23] www.rdocumentation.org