📄Работа №128979

Тема: О применении методов обнаружения выбросов к задаче исследования проб нефти

📝

Тип работы Дипломные работы, ВКР

📚

Предмет информатика

📄

Объем: 50 листов

📅

Год: 2020

👁️

4270 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
Постановка задачи 4
Обзор литературы 6
Глава 1. Исследование проб нефти 8
1.1. Нефтеносный пласт 8
1.2. Метод газовой хроматографии при исследовании проб нефти 10
Глава 2. Обработка данных 16
2.1. Первичный анализ результатов 16
2.2. Проверка данных на нормальность распределения 19
2.3. Приведение распределения отличного от нормального 22
2.4. Определение взаимосвязи между пробами 24
2.5. Обнаружение выбросов 28
Глава 3. Кластеризация 31
3.1. Постановка задачи и проблемы 31
3.2. Методы снижения размерности данных 32
3.3. Метрика качества кластеризации 34
3.4. Метод k-means 36
3.5. Результаты 38
Заключение 40
Список литературы 42
Приложение 1 Фрагмент данных газовой хроматографии 44
Приложение 2 Код программы 46

📖 Введение

Методы многомерного анализа данных тесно связаны с математической статистикой, она широко используется в физическом и химическом анализе, в частности, для вычисления средних, отклонений, пределов обнаружения, проверки гипотез. Проблема обнаружения измерений, негативно влияющих на обеспечение чистоты анализа данных - одна из основных проблем анализа данных.
Данная работа посвящена анализу проб нефти с целью обнаружения выбросов - результатов измерения, выделяющихся из общей выборки [4] - и дальнейшей кластеризации полученных проб. По результатам лабораторных анализов судят о среднем составе и параметрах добытой нефти. Достоверность выявленных параметров нефти зависит не только от точности лабораторного оборудования и тщательности соблюдения методик измерений физико-химических свойств нефти, но и от правильности отбора проб. Если проба оказалась случайной и не характеризует средний состав прошедшей нефти, то и её анализ не может отразить действительного физико-химического состава. Под погрешностью отбора проб понимают отклонение значения величины, характеризующей состав, свойства пробы вещества от значения этой же величины характеризующей состав, свойства объекта аналитического контроля в целом.
В данной работе описан и модифицирован один из методов обнаружения выбросов в одномерных наборах данных, проведен корреляционный анализ, описан кластерный анализ, применимый к задаче исследования проб нефти, введена метрика для оценки качества кластеризации.

✅ Заключение

Целью данной работы был анализ проб нефти на наличие выбросов, а также кластеризация найденных проб.
При первичном анализе данных с помощью инструментов дескриптивной статистики был описан характер распределения проб, построенные графики квантиль-квантиль показали рассогласование исследуемого и нормального распределения в каждой пробе.
Построенные корреляционные матрицы Спирмена, Пирсона, Кендала показали, что полученные данные проб сильно коррелируют между собой.
На последующем этапе обработки полученных данных с помощью тестов Шапиро-Уилка, Колмогорова-Смирнова и Адерсона-Дарлинга нулевая гипотеза Н0 «случайная величина распределена нормально» была отклонена.
Универсальные преобразования логарифмирования и метод Бокса- Кокса не привели распределение данных к нормальному, поэтому, для следующего этапа работы - обнаружения выбросов, - был выбран метод Тьюки, использующийся в таких задачах, где распределение неизвестно или не соответствует нормальному. На основе экспериментов была произведена его модификация, определены подходящие границы для обнаружения и удаления выбросов.
Для снижения размерности данных был использован метод главных компонент (PCA) и агломеративный метод иерархической кластеризации (Feature Agglomeration).
Далее для «очищенных» данных была произведена кластеризация 3 способами: методом k-means без уменьшения размерности данных (метод 1), методом k-means c уменьшением размерности данных при помощи PCA (метод 2); методом k-means c уменьшением размерности данных при помощи Feature Agglomeration (метод 3).
Для оценки качества алгоритма была введена метрика оценки кластеризации Rand. На ее основе наиболее подходящий из рассмотренных в работе алгоритмов кластеризации оказалась кластеризация методом 3.
Тем не менее, рассмотренные алгоритмы не сгруппировали все пробы по кластерам, соответствующим пластам. Это может быть связано со специфичностью данных - малый объем выборки, зависимость результатов химического эксперимента от таких составляющих как точность оборудования, способ забора проб и другого. Альтернативными методами кластеризации являются метод нечеткой кластеризации c-means и Expectation-maximization (ЕМ)-алгоритм. На большей выборке данных возможно использовать иерархические методы классификации.
Таким образом, пробы № 1-2 отнесены к пласту АС10.4(6) (кластер 1), пробы № 3-4, 6-9 отнесены к пласту АС10.1-3(1) (кластер 1) с вероятность 0.83. Проба № 5 так же отнесена к кластеру 1, но взята из пласта АС10.4(1). Проба № 23 отнесена к пласту АС12.1(2) (кластер 4). Пробы № 10-12, 14-16 отнесены к пласту АС10.0.1(1) (кластер 4) с вероятностью 0.5. С вероятностью 0.33 пробы № 17-22 отнесены к пласту АС12.3-5(4) (кластер 5).

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. ГОСТ 17567-81. Хроматография газовая. Термины и определения. - М.: Издательство стандартов, 1981. - с. 12.
2. Буре В.М., Парилина Е.М. Т еория вероятностей и математическая статистика. - СПб.: Лань, 2013. - с. 334-338.
3. Гиматудинов Ш.К. Физика нефтяного и газового пласта. - M.: Недра, 1971. - 310 с.
4. Зейдель А.Н. Элементарные оценки ошибок измерений. - М.: Наука, 1965. - 96 с.
5. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: ФИЗМАТЛИТ., 2006. - с. 220-221, 233, 238-241, 278.
6. Мандель И.Д. Кластерный анализ. - М.: Финансы и статистика, 1988. - 176 с.
7. Руденко Б.А., Руденко Г.И. Высокоэффективные
хроматографические процессы. - М.: Наука, 2003. - 425 с.
8. Шакирова Д.И., Рождественский Д.А. Газовая хроматография -
Режим доступа: https://eurasiancommission.org/ru/act/texnreg/deptexreg/
LS 1/Documents/2.2.28%20Газовая%20хроматография.pdf (дата обращения 02.05.2020).
9. Шакирова Д.И., Рождественский Д.А. Хроматографические
методы разделения. - Режим доступа: eurasiancommission.org/ru/act/
texnreg/deptexreg/LS 1/Documents/2.2.46%20Хроматографические%20методы %20разделения.р4Г (дата обращения 02.05.2020).
10. Bellman R.E. Adaptive Control Processes. - Princeton University Press, Princeton, NJ, 1961. - 255 p.
11. Frigge M., Hoaglin, D., Iglewicz, B. Some Implementations of the Boxplot. - The American Statistician, 1989. - p. 120.
12. Iglewicz B., Hoaglin, D. How to detect and handle outliers. - ASQC Quality Press, 1993. - 458 p.
13. Kleinberg J. An impossibility theorem for clustering. - Режим доступа:https://www.cs.cornell.edu/home/kleinber/nips15.pdf (дата обращения 02.05.2020).
14. Lance G.N., Williams W.T. A General Theory of Classificatory Sorting Strategies: 1. Hierarchical Systems. - The Computer Journal, V.9, 1.4, 1967. -
p. 373-380.
15. Rand W.M. Objective criteria for the evaluation of clustering methods. - Journal of the American Statistical Association. American Statistical Association, 1971. - p. 846-850.
16. Shapiro S.S., Wilk M.B. An analysis of variance test for normality (complete samples). - Biometrika, 1965. - 611 p.
17. Tukey J. Exploratory Data Analysis. - Addison Wesley Publishing Company, 1970. - 722 p.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (208538)

Статьи

»» Все статьи

Вход в личный кабинет