ГЛАВА 1. ИНТЕРВАЛЬНЫЙ АНАЛИЗ ДАННЫХ: МЕТОДЫ И
ПРОГРАММНЫЕ СРЕДСТВА 7
1.1. Интервальный анализ и его применение 7
1.2. Интервальные программные средства 14
1.3. Метод граничных интервалов для визуализации множеств решений
интервальных систем линейных алгебраический уравнений 18
ГЛАВА 2. ФУНКЦИОНАЛЬНЫЕ УЗЛЫ СИСТЕМЫ KNIME ДЛЯ
ИНТЕРВАЛЬНОГО АНАЛИЗА ДАННЫХ 21
2.1. Требования к разрабатываемому узлу 21
2.2. Создание функциональных модулей среды KNIME 22
2.3. Узел визуализации множеств решений ИСЛАУ 25
2.4. Запуск визуализатора 29
2.5. Адаптация созданных ранее узлов в KNIME 31
ГЛАВА 3. РЕШЕНИЕ ПРИКЛАДНЫХ ЗАДАЧ ИНТЕРВАЛЬНОГО АНАЛИЗА
ДАННЫХ В СИСТЕМЕ KNIME 35
3.1. Пример работы пользователя с узлом-визуализатором 35
3.2. Примеры работы узла визуализатора с ИСЛАУ 38
3.3. Решение прикладных задач с помощью функциональных узлов 40
ЗАКЛЮЧЕНИЕ 46
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 47
ПРИЛОЖЕНИЕ 51
РЕФЕРАТ
Выпускная квалификационная работа магистра: 52 страницы, 18 рисунков, три листинга кода, две таблицы, приложение, 30 слайдов, 39 источников литературы.
Объект исследования: методы интервального анализа данных и их практическое применение.
Цель работы: адаптация существующих модулей расширения аналитической платформы KNIME, реализующих методы построения и анализа интервальной регрессии, и разработка модуля, для визуализации множеств решений интервальных систем линейных алгебраических уравнений.
Задачи:
- Проанализировать существующие функциональные узлы, входящие в пакет KNIME Interval Tools, и провести доработку, позволяющую использование узлов на актуальной версии платформы KNIME;
- Разработать модуль расширения системы KNIME, позволяющий визуализировать множество решений интервальных систем линейных алгебраических уравнений;
- Провести опытную эксплуатацию разработанных и адаптированных программных инструментов, в том числе, при решении прикладных задач обработки данных с интервальной неопределенностью.
В выпускной работе проведен анализ существующих функциональных узлов для интервального анализа данных в системе KNIME, который выявил необходимость их адаптации под текущие обновления системы KNIME и библиотек, которые эти узлы используют. Проведена адаптация узлов, входящих в пакет KNIME Interval Tools. Разработан самостоятельный узел, который позволяет визуализировать множество решений интервальных систем линейных алгебраических уравнений. Готовые узлы могут использоваться для решения прикладных и учебных задач интервального анализа данных.
Актуальность. В подавляющем большинстве прикладных задач исследователь имеет дело с неточными исходными данными, неопределенность которых порождается различными факторами. В зависимости от источника неточности и неопределенности данных в настоящее время используются различные модели описания неопределенных данных, включая вероятностную, нечеткую и интервальную модели. Каждая из этих моделей имеет свою парадигму, опирается на соответствующий теоретический аппарат, имеет свои методы анализа и область применения. Ряд работ А.Ф. Бочкова, А.П. Вощинина, Л.В. Канторовича, А.В. Максимова, Н.М. Оскорбина, С.И. Жилина и других показывают, что применение именно интервального анализа к широкому спектру прикладных задач с ограниченными ошибками и неопределенностью в данных имеет большие перспективы.
Применение интервального анализа позволяет снять многие проблемы и методические сложности, возникающие при решении прикладных задач статистическими методами. В рамках интервального анализа неопределенность исходных данных может иметь разные источники и природу. Интервал неопределенности позволяет описать широкий класс неопределенных, неоднозначных, вариабельных и неточных исходных данных. Значения ошибок в исходных данных могут колебаться в широких пределах. Результаты, полученные с помощью парадигмы интервального анализа, имеют ясную и четкую интерпретацию в терминах интервалов и областей неопределенности.
Набор интервальных программных средств довольно широк, однако, у каждого типа программных средств есть своя специфика, свои библиотеки и прочее. В задачах анализа данных наиболее целесообразно использовать специальные платформы, которые сочетают в себе разнородные инструменты упрощающие программирование за счет использования графического интерфейса, различных сценариев и т.п.
На сегодняшний момент существует немало систем анализа данных или аналитических платформ (KNIME, RapidMiner и др.). В составе платформы KNIME реализованы инструменты для интервального анализа данных в рамках проекта KNIME Interval Tools. Однако эти инструменты требуют адаптации под нынешние обновления системы KNIME, есть потребность пополнения новыми инструментами, в частности для визуализации.
Целью настоящей работы является адаптация существующих модулей расширения аналитической платформы KNIME, реализующих методы построения и анализа интервальной регрессии , и разработка модуля, для визуализации множеств решений интервальных систем линейных алгебраических уравнений.
Для реализации поставленной цели необходимо решить следующие задачи:
- Проанализировать существующие функциональные узлы, входящие в пакет KNIME Interval Tools, и провести доработку, позволяющую использование узлов на актуальной версии платформы KNIME;
- Разработать модуль расширения системы KNIME, позволяющий
визуализировать множество решений интервальных систем линейных алгебраических уравнений;
- Провести опытную эксплуатацию разработанных и адаптированных программных инструментов, в том числе, при решении прикладных задач обработки данных с интервальной неопределенностью.
Объектом исследования работы являются методы интервального анализа данных и их практическое применение.
Предметом исследования данной работы является программная реализация функциональных узлов в системе KNIME, позволяющих использовать методы интервального анализа в сценариях анализа данных.
Практическая значимость: функциональные узлы могут использоваться в практических и учебных задачах интервального анализа данных
Апробация работы. Основные положения и отдельные результаты работы докладывались и обсуждались на Всероссийской конференции “Математика и её приложения: фундаментальные проблемы науки и техники” (Барнаул, 2015), Третьей Региональной конференции “Мой выбор - НАУКА!” (Барнаул, 2016).
Публикации. По теме диссертации опубликована работа [39].
Структура и объём работы. Выпускная квалификационная работа состоит из введения, трех глав, заключения, 18 рисунков, списка литературы из 39 источников, приложения. Полный объём 52 страницы.
В первой главе рассматриваются основные понятия, методы и программные средства интервального анализа данных. Вторая глава посвящена разработке функциональных расширений системы KNIME для интервального анализа данных. В третьей главе приведены краткое руководство пользователя и примеры решения задач анализа данных с использованием разработанных модулей расширения KNIME.
В ходе настоящей работы был разработан пакет функциональных узлов для интервального анализа данных в системе KNIME.
Результаты работы могут быть сформулированы следующим образом:
1. Проанализированы существующие узлы для интервального анализа данных в рамках проекта KNIME Interval Tools в системе KNIME;
2. Произведена адаптация модулей расширения платформы KNIME, позволяющих исследовать данные с помощью метода интервальной регрессии, отыскивать выбросы в данных (IR Outlier Detector), строить модели (IR Learner), предсказывать отклик регрессии (IR Predictor), решать задачи линейного программирования (ILS Solver), проверять является ли данные для интервала регрессии совместимыми (IR Consistency);
3. Разработан узел (ILS Visualizer) для визуализации множеств решений ИСЛАУ, который пополнил проект KNIME Interval Tools;
4. Проведена опытная эксплуатация разработанных и адаптированных программных инструментов в сценариях KNIME, свидетельствующая о работоспособности созданного пакета.
Созданный пакет функциональных узлов для интервального анализа данных на аналитической платформе KNIME позволит применять метод интервального анализа данных не только самостоятельно, но и в совокупности с уже имеющимся набором не интервальных инструментов.
Основные положения и отдельные результаты работы докладывались и обсуждались на Всероссийской конференции “Математика и её приложения: фундаментальные проблемы науки и техники” (Барнаул, 2015), третьей Региональной конференции “Мой выбор - НАУКА!” (Барнаул, 2016), и опубликованы в [39].
1. Шарый C. П. Конечномерный интервальный анализ. - Новосибирск: XYZ, 2014.
2. Шарый C. П. Разрешимость интервальных линейных уравнений и анализ данных с неопределенностями, Автомат и телемех., 2012, выпуск 2, 111-125.
3. Канторович, Л. В. О некоторых новых подходах к вычислительным методам и обработке наблюдений. Сиб. мат. журн., 3, 701 (1962).
4. Жилин С. И. Нестатистические модели и методы построения и анализа
зависимостей: дис. канд. физико-математ. наук. Алтайский. гос.
университет, Барнаул, 2004
5. Максимов А. В., Оскорбин Н.М. Многопользовательские информационные системы: основы теории и методы исследования: монография. - Барнаул: Изд-во Алтайского университета, 2005. — 250с.
6. Акулич И. Л. Задачи линейного программирования// Математическое программирование в примерах и задачах. - М.: Высшая школа, 1986. - 319 с.
7. Оскорбин Н. М. Некоторые задачи обработки информации в управляемых системах // Синтез и проектирование многоуровневых иерархических систем. Материалы конференции. Барнаул: Алтайский государственный университет, 1983.
8. Beard K., Buttenfield B., Clapham S. Visualization of Spatial Data Quality. Technical Paper 91-26, 1991.: Tech. Rep.: Castine, Maine: National Center for Geographic Information and Analysis, 1991.
9. Chil J.-P., Delfiner P. Geostatistics: Modeling Spatial Uncertainty. Wiley- Interscience, 1999. 720 p.
10. Ehlschlaeger C., Goodchild M. Uncertainty in Spatial Data: Defining, Visualizing, and Managing Data Errors // Proc. of Conference GIS/LIS. Phoenix: 1994. P. 246-253.
11. Автоматизация построения экологических карт. / Т. В. Байкалова, А. В. Евтюшкин, С. И. Жилин [и др.] // Методы дистанционного зондирования и ГИС-технологии для контроля и диагностики состояния окружающей среды: Тезисы докладов 3-й Международной конференции. Москва: МИИГАиК, 1996.
12. Информационные технологии автоматизации построения экологических карт. / Т. В. Байкалова, А. В. Евтюшкин, С. И. Жилин [и др.] // Проблемы предотвращения деградации земель Западной Сибири и осуществление государственного контроля за их использованием и охраной: Сб. науч. тр. Барнаул: Минсельхозпрод РФ, 1997. С. 108-113.
13. Prolubnikov A. An Interval Approach to Pattern Recognition of Numerical Matrices // Reliable Computing. 2013. Vol. 19, no. 1. P. 107-119.
14. Пролубников А. В. Интервальный подход к решению задачи распознавания числовых матриц // Вычислительные технологии. 2012. Т. 17, № 4. С. 77-87.
15. Kolev L. Interval Methods for Circuit Analysis. World Scientific Publishing Co. Pte. Ltd, 1993. 322 p.
16. Шайдуров В. В., Шарый С. П. Решение интервальной алгебраической задачи о допусках. (Препринт / ВЦ СО АН СССР; №5). Красноярск, 1988. 27 с.
17. Добронец Б. С., Шайдуров В. В. Двусторонние численные методы. Новосибирск: Наука, 1990.
18. Interval and Related Software [Электронный ресурс] / Ред. Kreinovich V. - Электрон. дан. - El Paso, 2009. - Режим доступа: http://www.cs.utep.edu/ interval-comp/intsoft.html, свободный. - Загл. с экрана.
19. Pryce J., Keil C. (Tech Eds.) P1788: IEEE Draft Standard for Interval Arithmetic, Version 8.1.
20. JInterval. Java library for interval computations. [Электронный ресурс]. - Заголовок с экрана. Режим доступа: www.jinterval.java.net.
...