Разработка математического и программного обеспечения аналитической системы оценки потенциала футболистов на трансферном рынке
|
АННОТАЦИЯ 2
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ 1
ВВЕДЕНИЕ 5
ГЛОССАРИЙ 9
ГЛАВА 1 ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЕ СИСТЕМЫ 11
1.1 Анализ информационно аналитических систем 11
1.1.1 Хранилища данных 13
1.1.2 OLAP-средства 14
1.1.3 Информационно-аналитические системы 15
1.1.4 Средства интеллектуальной добычи данных 15
1.1.5 Инструменты конечного пользователя 16
1.1.6 Итоги классификации информационно-аналитических систем 17
1.2 Классификация задач, посвящённых методам анализа данных 18
1.3 Описание задачи 21
Вывод по главе 1 21
ГЛАВА 2 МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА 24
2.1 Обзор существующих методов интеллектуального анализа данных 24
2.2 Примеры использования инструментов Data mining 26
Выводы по главе 2 30
ГЛАВА 3 РАЗРАБОТКА МАТЕМАТИЧЕСКОГО И ПРОГРАММНОГО
ОБЕСПЕЧЕНИЯ СИСТЕМЫ АНАЛИЗА ДАННЫХ 31
3.1 Разработка программного обеспечения системы анализа данных 31
3.2 Исходные данные 32
3.3 Подготовка данных к анализу 44
3.4 Первичный анализ данных 45
3.5 Оценка математического обеспечения механизма прогнозирования 55
3.6 Выбор определяющих признаков и определение математического
обеспечения механизма прогнозирования 61
Выводы по главе 3 64
ГЛАВА 4 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 66
4.1 Актуальность коммерциализации 66
4.2 Оценка рисков 66
4.3 Дорожная карта коммерциализации проекта 72
4.4 Цели и задачи 75
4.5 Функционал системы 77
Выводы по главе 4 82
ЗАКЛЮЧЕНИЕ 83
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 85
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ 1
ВВЕДЕНИЕ 5
ГЛОССАРИЙ 9
ГЛАВА 1 ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЕ СИСТЕМЫ 11
1.1 Анализ информационно аналитических систем 11
1.1.1 Хранилища данных 13
1.1.2 OLAP-средства 14
1.1.3 Информационно-аналитические системы 15
1.1.4 Средства интеллектуальной добычи данных 15
1.1.5 Инструменты конечного пользователя 16
1.1.6 Итоги классификации информационно-аналитических систем 17
1.2 Классификация задач, посвящённых методам анализа данных 18
1.3 Описание задачи 21
Вывод по главе 1 21
ГЛАВА 2 МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА 24
2.1 Обзор существующих методов интеллектуального анализа данных 24
2.2 Примеры использования инструментов Data mining 26
Выводы по главе 2 30
ГЛАВА 3 РАЗРАБОТКА МАТЕМАТИЧЕСКОГО И ПРОГРАММНОГО
ОБЕСПЕЧЕНИЯ СИСТЕМЫ АНАЛИЗА ДАННЫХ 31
3.1 Разработка программного обеспечения системы анализа данных 31
3.2 Исходные данные 32
3.3 Подготовка данных к анализу 44
3.4 Первичный анализ данных 45
3.5 Оценка математического обеспечения механизма прогнозирования 55
3.6 Выбор определяющих признаков и определение математического
обеспечения механизма прогнозирования 61
Выводы по главе 3 64
ГЛАВА 4 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 66
4.1 Актуальность коммерциализации 66
4.2 Оценка рисков 66
4.3 Дорожная карта коммерциализации проекта 72
4.4 Цели и задачи 75
4.5 Функционал системы 77
Выводы по главе 4 82
ЗАКЛЮЧЕНИЕ 83
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 85
В рамках осуществления политики Международной федерации футбола по оцифровке спортивных показателей футболистов с 2006 года при содействии Российской федерации футбола и президента федерации Виталия Мутко в России был принят к исполнению приказ о создании российских «электронно-статистических дневников» футболистов [2]. С этого момента каждого человека, занимающегося организованным футболом, необходимо внести в единую базу, с помощью которой было бы возможно определить его принадлежность к школе или клубу, узнать состояние здоровья, игровую форму и т.д. Подобную статистическую базу ведут не только в России, но и по всему миру, а контролем занимается Международная федерация футбола
Футбол является самым популярным видом спорта и генерирует все большую сумму денег из года в год. Отчет Forbes 2016 года свидетельствует, что суммарная прибыль 20 топ клубов одной только Европы составила €7,417 млрд, что почти на €800 млн (12%) больше 2015 года [3]. Причем футбольный сегмент показывает устойчивый рост даже в кризисный период. Основным ресурсом футбола, как и любого другого вида спорта, являются игроки. На их приобретение футбольные клубы тратят огромные суммы денег. Например, самый дорогой трансфер произошел в августе 2017 года, когда французский футбольный клуб Пари Сен-Жермен купил у испанского клуба Барселона бразильского футболиста Неймара за рекордные €222 млн [4]. И какого было разочарование клуба, когда спустя всего сезон показатели футболиста сильно упали и на начало 2019 года клуб Пари Сен-Жермен подумывает об его очередной продаже [5], пока футболист еще в оптимальном возрасте и имеет хорошую репутацию и потенциал. Как видно из описания выше рынок игроков в футболе представляет собой аналог биржи, эффективные вложения на которой обеспечивают клубы новыми ресурсами.
Каждого игрока оценивают по массе показателей, причём интуиция очень часто ошибается. С помощью аналитики можно в разы увеличить эффективность тренировок, найти новых игроков, которые помогут команде и просто смогут повысить уровень игры. Но при анализе футболистов возникает проблема - ведь только сейчас насчитывается около 18000 игроков в 1 дивизионе в одной только Европе, а еще есть американская, африканская и азиатская футбольные лиги. Просмотреть характеристики каждого, провести их анализ и определиться с приобретением в подобных условиях будет стоить огромных усилий и месяцы кропотливой работы.
Таким образом, вполне очевидным видится применение технологии интеллектуального анализа данных для определения потенциала игроков на трансферном рынке. Каждый игрок характеризуется огромный массивом информации, начиная с его рабочей ноги и скорости бега, заканчивая общей репутацией и формой.
Выполнение такой работы человеком не всегда рентабельно, поскольку анализ может оказаться трудоемким и требовать привлечения специалистов высокой квалификации. Кроме того, закономерности, скрытые в данных, не всегда могут быть обнаружены человеком. Частичная автоматизация процесса, которую обеспечивают методы машинного обучения, позволяет сократить время на выполнение анализа, а значит сделать его дешевле, что подтверждает практическую значимость работы. Снижение цены благоприятно сказывается на распространении технологии интеллектуального анализа Больших данных, особенно в сфере прогнозирования.
В свою очередь открытые для бесплатного использования библиотеки машинного обучения (например, Scickit Learn, TensorFlow, Pandas, и т.д.) на сегодняшний день при грамотном использовании позволяют достичь высоких результатов [6] без глубоких научных изысканий и программирования сложных систем. Для анализа потенциала футболистов использовалась открытая информация Международной федерации футбола (FIFA), содержащая около 18200 записей по 87 показателям игроков.
Таким образом, целесообразно создание статистическо-аналитической системы оценки потенциала футболистов на основе алгоритмов машинного обучения, которая поможет футбольным клубам совершать более выгодные вложения, что в свою очередь увеличивает их прибыль и популярность, а также позволяет получить доступ к современным мощным и бесплатным библиотекам машинного обучения и использовать их в прогностической деятельности. При этом пользователям системы не будут требоваться дополнительные знания языков программирования таких как Python или R.
Аналитические системы на основе алгоритмов машинного обучения успешно применяются для решения подобных задача прогностической аналитики. Такие системы позволяют обрабатывать большой объем самых разных показателей человека и применяются не только в спорте при оценке результативности игроков, предсказании результатов матчей и анализе технико-тактических действий, но и в медицине, ведь физическое состояние спортсмена является залогом его успешного выступления. На основе полученных закономерностей можно прогнозировать потенциал игрока, показатели, которые на него влияют, а также наиболее выгодную для него позицию на поле.
Объектом исследования является информационно-аналитическая система на основе алгоритмов машинного обучения. Предметом исследования - методы интеллектуального анализа данных для решения поставленных задач.
Целью работы является разработка проекта математического и программного и обеспечения аналитической системы оценки потенциала футболистов на трансферном рынке.
Задачи магистерской работы:
1) анализ существующих методов оценки потенциала футболистов;
2) классификация задач и обзор научных работ, посвящённых анализу данных;
3) постановка задачи для проведения исследования и разработки математического и программного обеспечений;
4) обзор существующих методов интеллектуального анализа данных;
5) анализ научных работ по использованию механизмов машинного обучения;
6) разработка математического и программного обеспечений аналитической системы;
7) разработка плана коммерциализации проекта.
При работе над магистерской работой использовались научная и научно-исследовательская литература, данные Международной федерации футбола.
Футбол является самым популярным видом спорта и генерирует все большую сумму денег из года в год. Отчет Forbes 2016 года свидетельствует, что суммарная прибыль 20 топ клубов одной только Европы составила €7,417 млрд, что почти на €800 млн (12%) больше 2015 года [3]. Причем футбольный сегмент показывает устойчивый рост даже в кризисный период. Основным ресурсом футбола, как и любого другого вида спорта, являются игроки. На их приобретение футбольные клубы тратят огромные суммы денег. Например, самый дорогой трансфер произошел в августе 2017 года, когда французский футбольный клуб Пари Сен-Жермен купил у испанского клуба Барселона бразильского футболиста Неймара за рекордные €222 млн [4]. И какого было разочарование клуба, когда спустя всего сезон показатели футболиста сильно упали и на начало 2019 года клуб Пари Сен-Жермен подумывает об его очередной продаже [5], пока футболист еще в оптимальном возрасте и имеет хорошую репутацию и потенциал. Как видно из описания выше рынок игроков в футболе представляет собой аналог биржи, эффективные вложения на которой обеспечивают клубы новыми ресурсами.
Каждого игрока оценивают по массе показателей, причём интуиция очень часто ошибается. С помощью аналитики можно в разы увеличить эффективность тренировок, найти новых игроков, которые помогут команде и просто смогут повысить уровень игры. Но при анализе футболистов возникает проблема - ведь только сейчас насчитывается около 18000 игроков в 1 дивизионе в одной только Европе, а еще есть американская, африканская и азиатская футбольные лиги. Просмотреть характеристики каждого, провести их анализ и определиться с приобретением в подобных условиях будет стоить огромных усилий и месяцы кропотливой работы.
Таким образом, вполне очевидным видится применение технологии интеллектуального анализа данных для определения потенциала игроков на трансферном рынке. Каждый игрок характеризуется огромный массивом информации, начиная с его рабочей ноги и скорости бега, заканчивая общей репутацией и формой.
Выполнение такой работы человеком не всегда рентабельно, поскольку анализ может оказаться трудоемким и требовать привлечения специалистов высокой квалификации. Кроме того, закономерности, скрытые в данных, не всегда могут быть обнаружены человеком. Частичная автоматизация процесса, которую обеспечивают методы машинного обучения, позволяет сократить время на выполнение анализа, а значит сделать его дешевле, что подтверждает практическую значимость работы. Снижение цены благоприятно сказывается на распространении технологии интеллектуального анализа Больших данных, особенно в сфере прогнозирования.
В свою очередь открытые для бесплатного использования библиотеки машинного обучения (например, Scickit Learn, TensorFlow, Pandas, и т.д.) на сегодняшний день при грамотном использовании позволяют достичь высоких результатов [6] без глубоких научных изысканий и программирования сложных систем. Для анализа потенциала футболистов использовалась открытая информация Международной федерации футбола (FIFA), содержащая около 18200 записей по 87 показателям игроков.
Таким образом, целесообразно создание статистическо-аналитической системы оценки потенциала футболистов на основе алгоритмов машинного обучения, которая поможет футбольным клубам совершать более выгодные вложения, что в свою очередь увеличивает их прибыль и популярность, а также позволяет получить доступ к современным мощным и бесплатным библиотекам машинного обучения и использовать их в прогностической деятельности. При этом пользователям системы не будут требоваться дополнительные знания языков программирования таких как Python или R.
Аналитические системы на основе алгоритмов машинного обучения успешно применяются для решения подобных задача прогностической аналитики. Такие системы позволяют обрабатывать большой объем самых разных показателей человека и применяются не только в спорте при оценке результативности игроков, предсказании результатов матчей и анализе технико-тактических действий, но и в медицине, ведь физическое состояние спортсмена является залогом его успешного выступления. На основе полученных закономерностей можно прогнозировать потенциал игрока, показатели, которые на него влияют, а также наиболее выгодную для него позицию на поле.
Объектом исследования является информационно-аналитическая система на основе алгоритмов машинного обучения. Предметом исследования - методы интеллектуального анализа данных для решения поставленных задач.
Целью работы является разработка проекта математического и программного и обеспечения аналитической системы оценки потенциала футболистов на трансферном рынке.
Задачи магистерской работы:
1) анализ существующих методов оценки потенциала футболистов;
2) классификация задач и обзор научных работ, посвящённых анализу данных;
3) постановка задачи для проведения исследования и разработки математического и программного обеспечений;
4) обзор существующих методов интеллектуального анализа данных;
5) анализ научных работ по использованию механизмов машинного обучения;
6) разработка математического и программного обеспечений аналитической системы;
7) разработка плана коммерциализации проекта.
При работе над магистерской работой использовались научная и научно-исследовательская литература, данные Международной федерации футбола.
На основе полученных знаний во время обучения по направлению «Бизнес- информатика» и анализа научной и научно-исследовательской литературы и публикаций была проведена работа над разработкой математического и программного обеспечений аналитической системы оценки потенциала футболистов на трансферном рынке.
В рамках проведённого исследования:
1. Определено понятие информационно-аналитической системы - комплекс аппаратных, программных средств, информационных ресурсов, методик, которые используются для обеспечения автоматизации аналитических работ для решения задачи сферы медицины. Проведён анализ аналитического программного обеспечения.
2. Проведён анализ задач и обзор научных работ, посвящённых анализу данных в сфере спорта, в ходе которого выделено четыре основных класса задач:
- Задачи анализа изображений.
- Задачи классификации и кластеризации.
- Задачи предсказания.
- Задачи оптимизации тренировочного процесса.
3. Определенна задача для проведения исследования, на примере решения которой разработан проект математического и программного обеспечения информационно-аналитической системы: прогнозирование потенциала футболистов на трансферном рынке на основе базы данных с информацией о характеристиках футболистов в совокупности с сопутствующими физическими показателями, репутацией, позицией, на которой играет игрок, его навыками и возможностями, а также клуб, в котором играет футболист.
4. Проведено исследование существующих методов интеллектуального анализа данных для разработки математического программного обеспечения. Проведён анализ научных работ по использованию механизмов машинного обучения в спорте и описаны примеры их использования.
5. Разработан проект реализации программного обеспечения информационно-аналитической системы: система разделена на две основные части:
- подсистема ввода, хранения и управления данными;
- подсистема анализа данных.
В качестве СУБД для хранения данных выбрана PostgreSQL, подсистема ввода, хранения и управления данными будет реализована на основе фреймворка Django работающего на основе Python 3. Подсистема анализа данных реализуется, с использованием различных библиотек для решения конкретных задач в контексте системы.
6. Определено математическое обеспечение системы: наиболее эффективными на примере решаемой задачи показал себя алгоритм Neural Network с параметрами 50, 20 (F-мера 0,895762).
7. Составлена дорожная карта коммерциализации проекта на два года и составлен календарный план работ на первый год коммерциализации проекта. Предполагаемый срок разработки и тестирования такого программного продукта - 1 год.
Таким образом, решены все поставленные в данной работе задачи и цель магистерской работы можно считать достигнутой.
Направление дальнейшего исследования: повышение эффективности механизмов анализа данных, расширение потенциала использования информационно-аналитической системы.
В рамках проведённого исследования:
1. Определено понятие информационно-аналитической системы - комплекс аппаратных, программных средств, информационных ресурсов, методик, которые используются для обеспечения автоматизации аналитических работ для решения задачи сферы медицины. Проведён анализ аналитического программного обеспечения.
2. Проведён анализ задач и обзор научных работ, посвящённых анализу данных в сфере спорта, в ходе которого выделено четыре основных класса задач:
- Задачи анализа изображений.
- Задачи классификации и кластеризации.
- Задачи предсказания.
- Задачи оптимизации тренировочного процесса.
3. Определенна задача для проведения исследования, на примере решения которой разработан проект математического и программного обеспечения информационно-аналитической системы: прогнозирование потенциала футболистов на трансферном рынке на основе базы данных с информацией о характеристиках футболистов в совокупности с сопутствующими физическими показателями, репутацией, позицией, на которой играет игрок, его навыками и возможностями, а также клуб, в котором играет футболист.
4. Проведено исследование существующих методов интеллектуального анализа данных для разработки математического программного обеспечения. Проведён анализ научных работ по использованию механизмов машинного обучения в спорте и описаны примеры их использования.
5. Разработан проект реализации программного обеспечения информационно-аналитической системы: система разделена на две основные части:
- подсистема ввода, хранения и управления данными;
- подсистема анализа данных.
В качестве СУБД для хранения данных выбрана PostgreSQL, подсистема ввода, хранения и управления данными будет реализована на основе фреймворка Django работающего на основе Python 3. Подсистема анализа данных реализуется, с использованием различных библиотек для решения конкретных задач в контексте системы.
6. Определено математическое обеспечение системы: наиболее эффективными на примере решаемой задачи показал себя алгоритм Neural Network с параметрами 50, 20 (F-мера 0,895762).
7. Составлена дорожная карта коммерциализации проекта на два года и составлен календарный план работ на первый год коммерциализации проекта. Предполагаемый срок разработки и тестирования такого программного продукта - 1 год.
Таким образом, решены все поставленные в данной работе задачи и цель магистерской работы можно считать достигнутой.
Направление дальнейшего исследования: повышение эффективности механизмов анализа данных, расширение потенциала использования информационно-аналитической системы.





