РЕФЕРАТ 9
Введение 11
1. Обзор литературы 13
2. Объект и методы исследования 15
2.1 Случайный лес (Random forest) 16
2.2 Линейная регрессия 17
2.3 Многослойный перцептрон (MLP) 18
3. Практические расчеты и анализ результатов 20
3.1 Сопоставление данных 20
3.2 Анализ набора данных 24
3.3 Описание реализации 25
3.4 Анализ моделей 27
4. Результаты проведенного исследования 34
5. Раздел «Стартап как диплом» 39
5.1 Описание продукта 39
5.2 Интеллектуальная собственность 39
5.3 Объем и емкость рынка. Анализ современного состояния и перспектив 40
5.4 Планируемая стоимость 46
5.5 Конкурентные преимущества 47
5.6 Целевые сегменты потребителей 48
5.7 Бизнес модель проекта 50
5.8 Итог 52
6. Раздел «Социальная ответственность» 53
6.1 Введение 53
6.2 Правовые и организационные вопросы обеспечения безопасности 54
6.4 Экологическая безопасность 61
6.5 Безопасность в чрезвычайных ситуациях 63
6.6 Выводы по разделу 64
Заключение 66
Список литературы 67
Приложение А 70
Приложение Б 71
Реализация сельскохозяйственных работ подразумевает под собой не только определенные алгоритмы действий для посадок, но и так же анализ различных факторов, влияющих на рост урожая, эти параметры являются индивидуальными в зависимости от местности. Как следствие, с увеличением объемов проекта, увеличивается объем и обрабатываемой информации, с которой необходимо работать. Под влиянием человеческого фактора это может неизбежно привести к увеличению количества ошибок в оценке урожайности продукции.
Для того чтобы значительно сократить разброс оценки, человек может собрать как можно большее количество данных, влажность, химический состав почвы, уровень зрелости и т.д. После чего провести кропотливую работу над общим анализом. Но при подобной работе выделяются ряд недостатков:
• Человеческий фактор: всегда существует вероятность, что человек, который проводит анализ, может допустить ошибку или пропустить определенный набор данных
• Большое количество времени, затраченное на поиск проблем и составление оценки.
Есть альтернативный вариант выполнения поставленной задачи - доверить оценку машине. Но до относительно недавнего времени данному способу препятствовало ряд причин:
• Машина не была способна сама систематизировать данные по степени их важности, а при «объяснении» вручную человек затратил бы гораздо больше времени чем при анализе параметров и составлении выводов своими силами
• Недоступность достаточно мощных систем для «кустарной» обработки подобных алгоритмов
На данный момент мы обладаем необходимыми алгоритмами для выявления наиболее влиятельных факторов, независимо от предоставляемых данных, а также большая доступность вычислительных мощностей, позволяет вести расчеты не только на теоретическом уровне, но и дает возможность производить моделирование на основе существующих данных.
Исходя из вышесказанного ставится цель по решению проблемы оценки урожайности картофеля с использованием алгоритмов регрессионного анализа. Мы предлагаем использовать три метода: а) Random Forest (случайные деревья), б) Linear regression (линейная регрессия), в) MLP (многослойный перцептрон).
Для достижения поставленной цели выявлены следующие задачи:
1) Анализ датасета и его подготовка для дальнейшей работы и использования в обучении.
2) Анализ нескольких регрессионных алгоритмов, с целью выяснения наиболее оптимального для реализации проекта.
3) Обучение модели.
4) Написание кода, работающего с параметрами модели и со стартовым датасетом с целью формирования предсказанных данных.
5) Проведение сравнения предсказанных характеристик с реальными.
В данной работе предоставлен пример решаемой проблемы по оценке урожайности картофеля, на основе многомерного регрессионного анализа, опирающегося на параметры химического состава почвы, а также сорта и группы зрелости картофеля.
В данной работе проведен подробный анализ набора данных. Продемонстрирована целесообразность его применения в климатических зонах России. Проанализированы три регрессионные модели - случайные деревья, линейная регрессия и многослойный перцептрон, и исходя из оценок их эффективности выбрана наиболее точная - RandomForest со средними показателями:
• R2 (Коэффициент детерминации) - 0,67;
• Средняя абсолютная ошибка в процентах (MAPE) - 0,35
• средняя абсолютная ошибка (MAE) - 4
• средняя квадратичная ошибка (RMSE) - 5
• Абсолютная ошибка - 16
Оформлен конечный вывод данных в таблицу, проведены сравнения данных предсказанных с реальными.
При анализе проделанной работы модель показала свою работоспособность, а также достаточно приемлемую точность, благодаря чему её можно использовать как алгоритм построения оценки урожайности картофеля с опорой на химический состав почвы и характеристики сорта .