Применение методов машинного обучения при оценке и картографировании природных ресурсов
|
Введение 2
Глава 1. Машинное обучение в решении задач использования природных ресурсов ...5
1.1. Искусственный интеллект и алгоритмы машинного обучения 5
1.2. Цели, задачи и функции машинного обучения 7
1.3. Модели машинного обучения в задачах классификации 11
1.4. Применение МО в задачах оценки природных ресурсов 14
1.5. Язык программирования Python и МО 18
Глава 2. Природные ресурсы как объект исследования и пространственной
оценки 20
2.1. Виды природных ресурсов и особенности их исследования и оценки 20
2.2. Лесные ресурсы и лесное хозяйство: общая характеристика 22
2.3. Оценка лесных ресурсов 28
2.4. Зарубежный научный и практический опыт по оценке лесов с применением
МО 31
2.5. Становление применения МО в российском лесном секторе 33
Глава 3. Изученность, использование, мониторинг бореальных лесов Северо-Запада
России 36
3.1. Общая характеристика лесов 36
3.2. Экономическая значимость лесов Северо-Запада России 38
3.3. Действующие системы учета лесов Северо-Запада России 46
Глава 4. Создание модели классификации бореальных лесов с деградациями 49
4.1. Цели и задачи исследования 49
4.2. Выбор алгоритмов 50
4.3. Формирование набора исходных пространственных данных 50
4.4. Подготовка набора данных 53
4.4.1. Создание обучающей выборки для SAM и классификация 58
4.4.2. Создание обучающей выборки для Random Forest 64
4.4.3. Создание модели Random Forest и классификация 65
4.5. Оценка работоспособности модели МО 66
4.6. Обсуждение выявления повреждений древостоя методами МО 69
Заключение 72
Список использованных источников 74
Приложение. Модель RF (по национальному парку «Паанаярви») 85
Глава 1. Машинное обучение в решении задач использования природных ресурсов ...5
1.1. Искусственный интеллект и алгоритмы машинного обучения 5
1.2. Цели, задачи и функции машинного обучения 7
1.3. Модели машинного обучения в задачах классификации 11
1.4. Применение МО в задачах оценки природных ресурсов 14
1.5. Язык программирования Python и МО 18
Глава 2. Природные ресурсы как объект исследования и пространственной
оценки 20
2.1. Виды природных ресурсов и особенности их исследования и оценки 20
2.2. Лесные ресурсы и лесное хозяйство: общая характеристика 22
2.3. Оценка лесных ресурсов 28
2.4. Зарубежный научный и практический опыт по оценке лесов с применением
МО 31
2.5. Становление применения МО в российском лесном секторе 33
Глава 3. Изученность, использование, мониторинг бореальных лесов Северо-Запада
России 36
3.1. Общая характеристика лесов 36
3.2. Экономическая значимость лесов Северо-Запада России 38
3.3. Действующие системы учета лесов Северо-Запада России 46
Глава 4. Создание модели классификации бореальных лесов с деградациями 49
4.1. Цели и задачи исследования 49
4.2. Выбор алгоритмов 50
4.3. Формирование набора исходных пространственных данных 50
4.4. Подготовка набора данных 53
4.4.1. Создание обучающей выборки для SAM и классификация 58
4.4.2. Создание обучающей выборки для Random Forest 64
4.4.3. Создание модели Random Forest и классификация 65
4.5. Оценка работоспособности модели МО 66
4.6. Обсуждение выявления повреждений древостоя методами МО 69
Заключение 72
Список использованных источников 74
Приложение. Модель RF (по национальному парку «Паанаярви») 85
Вовлеченность данных дистанционного зондирования Земли (ДЗЗ) в исследование и использование природных ресурсов постоянно растет, и в рамках этого процесса все более расширяется применение машинного обучения (МО). Особенно перспективными и эффективными эти технологии могут стать в отношении лесов - одних из самых высокопродуктивных и легкоранимых наземных экосистем, выполняющих средообразующие, защитные, эстетические функции. Злоупотребление сырьевой функцией лесов на протяжении долгого времени создало проблему обезлесения, усугубляемую неправильным упрощенным хозяйством, пожарами, болезнями леса, погодными условиями. Одновременно сохранить функции леса, а также увеличить выход деловой древесины позволяет рациональное лесное хозяйство, в основе которого лежит оперативный учет леса и его ресурсов. Частным примером успешного ведения лесного хозяйства является скандинавская модель. Внедрение именно такой модели инициировано органами государственной власти, природоохранными организациями и лесопромышленниками на Северо-Западе России, в историческом районе лесозаготовок. В связи с необходимостью интенсификации лесного хозяйства растёт спрос на технологии ускоренного получения пространственной информации о лесах и их состояния. Если для организаций, производящих лесохозяйственные обследования традиционными методами, обширные территории представляют проблему, то при применении дистанционного зондирования и методов МО они, наоборот, являются преимуществом и означают наличие больших данных для обучения моделей. «Умная» обработка больших пространственных данных позволит минимизировать время- и финансово-затратные полевые обследования лесов.
Большинство предлагаемых исследователями методов обработки данных ДЗЗ с помощью МО носят локальный характер, однако в Скандинавии, Канаде, США отдельные алгоритмы включены в процедуры государственной инвентаризации. В лесной отрасли МО имеет существенный уклон в сторону прогнозирования пожаров и классификации пород. Вопрос обнаружения нарушений, влияющих экологическую и практическую ценность леса, освещается гораздо реже.
Возможности интеграции МО и данных ДЗЗ для выявления деградации лесного покрова изучали Крылов А.М. (Московская обл., Ленинградская обл., Вологодская обл.), Князева С.В. (Красноярский край), Карпачев А.П. (Орловская обл.), Abdi A. M. (Швеция).
Настоящее исследования является локальной трактовкой упомянутых выше разработанных технологий и открывает возможности выявления нарушений в бореальных лесах Северо-Запада РФ на основе оперативных данных спутниковых наблюдений и алгоритмов МО.
Объектом исследования является нарушенный лесной покров в бореальных лесах Карелии на Северо-Западе России, предметом исследования - применение алгоритмов машинного обучения и спутниковых данных для обнаружения и оценки деградировавших древостоев в среде ГИС и в среде разработки Python.
Цель исследования состоит в применении алгоритмов машинного обучения к спутниковым данным для выявления нарушений в лесном покрове Северо-Запада России, а также в оценке работоспособности полученных моделей. Для достижения цели исследования требуется решить следующие задачи:
- ознакомиться с предшествующими исследованиями и выявить алгоритмы МО, наиболее часто применяемые для оценки природных ресурсов, и лесов в частности;
- изучить предметную область, основные причины деградации бореальных лесов Северо-Запада России и существующие методы идентификации таких участков;
- изучить алгоритмы МО на предмет требований, предъявляемых к данным и выделить оптимальные для анализа лесного покрова;
- сформировать набор пространственных данных о территории, включающие материалы спутниковой съёмки, тематические карты территории, материалы лесоустройства;
- с учётом особенностей алгоритмов МО создать обучающие выборки средствами геоинформационных систем и языка Python;
- осуществить программную реализацию модели классификации лесного покрова с деградацией древостоя;
- с помощью обученной модели получить информацию о состоянии лесного покрова, интерпретировать её в картографическом виде;
- сделать вывод о применимости исследованных моделей для классификации повреждений в лесах и об их действенности для оценки лесных ресурсов;
- разработать рекомендации по результатам исследования.
Научная новизна исследования заключается в наборе алгоритмов, которые были применены для решения задачи детектирования поврежденного древостоя, а также в том, что впервые были использовании материалы лесопатологоических обследований для формирования контрольных данных о бореальных лесах Северо-Запада России.
В настоящем магистерском исследовании использованы методы интеллектуальной обработки данных, алгоритмы машинного обучения. В качестве информационной основы использованы открытые мультиспектральные снимки с космических аппаратов Sentinel-2 и Landsat-8 за ряд дат 2016 - 2019 годов.
Теоретическая и практическая значимость исследования состоит в развитии подходов в применении методов МО совместно с данными ДЗЗ для обследования лесов и обнаружения их повреждений. Именно это может иметь большое значение для составления лесных карт, оценки биомассы с учетом пород, сопоставления имеющихся пород со спросом на них, управления лесом для повышения производительности отрасли и, конечно, для принятия мер по защите лесных экосистем.
Научно-исследовательская работа состоит из введения, четырех глав, заключения и списка литературы. Объем работы - 91 страница, 37 рисунков, 10 таблиц и 1 приложение. Список литературы содержит 144 наименования, в том числе Интернет- источники и иностранные публикации.
Работа выполнена на кафедре Картографии и геоинформатики СПбГУ.
Автор благодарен Евгению Геннадьевичу Капралову за влияние, оказанное при выборе предмета и объекта исследования, Ольге Анатольевне Лазебник за чуткое руководство, помощь в структуризации и грамотном изложении материалов работы, Разумовскому Владимиру Михайловичу за разъяснение подходов к оценке природных ресурсов, а также Орлову Василию за консультации по работе с лесоустроительными материалами.
Большинство предлагаемых исследователями методов обработки данных ДЗЗ с помощью МО носят локальный характер, однако в Скандинавии, Канаде, США отдельные алгоритмы включены в процедуры государственной инвентаризации. В лесной отрасли МО имеет существенный уклон в сторону прогнозирования пожаров и классификации пород. Вопрос обнаружения нарушений, влияющих экологическую и практическую ценность леса, освещается гораздо реже.
Возможности интеграции МО и данных ДЗЗ для выявления деградации лесного покрова изучали Крылов А.М. (Московская обл., Ленинградская обл., Вологодская обл.), Князева С.В. (Красноярский край), Карпачев А.П. (Орловская обл.), Abdi A. M. (Швеция).
Настоящее исследования является локальной трактовкой упомянутых выше разработанных технологий и открывает возможности выявления нарушений в бореальных лесах Северо-Запада РФ на основе оперативных данных спутниковых наблюдений и алгоритмов МО.
Объектом исследования является нарушенный лесной покров в бореальных лесах Карелии на Северо-Западе России, предметом исследования - применение алгоритмов машинного обучения и спутниковых данных для обнаружения и оценки деградировавших древостоев в среде ГИС и в среде разработки Python.
Цель исследования состоит в применении алгоритмов машинного обучения к спутниковым данным для выявления нарушений в лесном покрове Северо-Запада России, а также в оценке работоспособности полученных моделей. Для достижения цели исследования требуется решить следующие задачи:
- ознакомиться с предшествующими исследованиями и выявить алгоритмы МО, наиболее часто применяемые для оценки природных ресурсов, и лесов в частности;
- изучить предметную область, основные причины деградации бореальных лесов Северо-Запада России и существующие методы идентификации таких участков;
- изучить алгоритмы МО на предмет требований, предъявляемых к данным и выделить оптимальные для анализа лесного покрова;
- сформировать набор пространственных данных о территории, включающие материалы спутниковой съёмки, тематические карты территории, материалы лесоустройства;
- с учётом особенностей алгоритмов МО создать обучающие выборки средствами геоинформационных систем и языка Python;
- осуществить программную реализацию модели классификации лесного покрова с деградацией древостоя;
- с помощью обученной модели получить информацию о состоянии лесного покрова, интерпретировать её в картографическом виде;
- сделать вывод о применимости исследованных моделей для классификации повреждений в лесах и об их действенности для оценки лесных ресурсов;
- разработать рекомендации по результатам исследования.
Научная новизна исследования заключается в наборе алгоритмов, которые были применены для решения задачи детектирования поврежденного древостоя, а также в том, что впервые были использовании материалы лесопатологоических обследований для формирования контрольных данных о бореальных лесах Северо-Запада России.
В настоящем магистерском исследовании использованы методы интеллектуальной обработки данных, алгоритмы машинного обучения. В качестве информационной основы использованы открытые мультиспектральные снимки с космических аппаратов Sentinel-2 и Landsat-8 за ряд дат 2016 - 2019 годов.
Теоретическая и практическая значимость исследования состоит в развитии подходов в применении методов МО совместно с данными ДЗЗ для обследования лесов и обнаружения их повреждений. Именно это может иметь большое значение для составления лесных карт, оценки биомассы с учетом пород, сопоставления имеющихся пород со спросом на них, управления лесом для повышения производительности отрасли и, конечно, для принятия мер по защите лесных экосистем.
Научно-исследовательская работа состоит из введения, четырех глав, заключения и списка литературы. Объем работы - 91 страница, 37 рисунков, 10 таблиц и 1 приложение. Список литературы содержит 144 наименования, в том числе Интернет- источники и иностранные публикации.
Работа выполнена на кафедре Картографии и геоинформатики СПбГУ.
Автор благодарен Евгению Геннадьевичу Капралову за влияние, оказанное при выборе предмета и объекта исследования, Ольге Анатольевне Лазебник за чуткое руководство, помощь в структуризации и грамотном изложении материалов работы, Разумовскому Владимиру Михайловичу за разъяснение подходов к оценке природных ресурсов, а также Орлову Василию за консультации по работе с лесоустроительными материалами.
Обстоятельное знакомство с методами исследования, оценки и картографирования природных ресурсов позволило выделить актуальное направление - применение данных дистанционного зондирования совместно с машинным обучением в их обработке. Нам представилось возможным рассмотреть сущность и возможности МО, как реализации искусственного интеллекта, его разных алгоритмов в контексте использования пространственных данных средствами ГИС (Глава 1) в выявлении нарушений леса. Для этого рассмотрены многочисленные аспекты лесной отрасли - экологическая и экономическая значимость леса, его функции, управление, инвентаризация, мониторинг, основные причины нарушений или отсутствия древостоя на лесных территориях, в том числе в зоне бореальных лесов северо-западной части России, имеющей географические сходства с северо-европейскими зарубежными лесами, где ведение лесного хозяйства считается успешным (Глава 2).
Анализ опыта применения МО в лесном секторе показал, что чаще всего выбор исследователей падает на алгоритмы k-NN, SVM, Деревья решений и ансамбль Деревьев решений - Random Forest, а также глубокое обучение. В ходе фокусирования на состоянии лесной промышленности и системах учета лесов Карелии (в пределах особо охраняемых территорий) обнаружилось, что необходимость получения оперативной информации о состоянии лесов в регионе трактуется не только общими разумными соображениями, но и официальным переходом на другую модель ведения лесного хозяйства (Глава 3). Показано, какие методы обработки открытых спутниковых изображений позволяют идентифицировать сухостои, образовавшиеся на ветровалах, и какие части спектра являются наиболее репрезентативными.
В основу набора данных о повреждениях древостоя легли материалы спутниковой съемки Sentinel-2 и Landsat-8, документальные акты лесопатологических обследований и тематические карты растительного покрова. В исследовании тестировали два принципиально разных алгоритма - Spectral Angle Mapper (SAM, реализованный в плагине SCP под QGIS) и Random Forest (RF), модель на основе которого была написана нами на языке Python. Для сравнения качества классификации лесного покрова двумя моделями был разработан и написан также на Python способ оценки полученных результатов. Рассчитанная относительная погрешность детектирования «сухостойных» пикселей оказалась очень большой для алгоритма SAM. Модель RF, показавшая точность 81 %, сработала лучше в отношении выбранной территории. Для обоих алгоритмов «камнем преткновения» стали массивы лишайниковой сосны, под которой слишком хорошо видна поверхность. Из этого следует, что в данном случае необходимо либо объединить похожие категории растительного покрова в один класс, либо активно работать над разделением чрезвычайно похожих классов путем увеличения размера их обучающей выборки.
Исходя из масштабного ряда и детальности растровых карт, продиктованными нормативно-правовой базой, было оценено, насколько применение космических снимков Sentinel-2 вкупе с точностью работы самой модели МО, применимо для выявления нарушенного древостоя. Результаты классификации по алгоритму SAM можно считать удовлетворительными с точки зрения общего распознавания типов покрытий для ускорения картографирования территории, но на уровне лесных выделов он видится малопригодным. По результатам работы модели RF удалось составить карту в масштабе 1:25 000, которая может служить основанием для инициирования полевых
инструментальных обследований проблемных участков. Также, полученное изображение при совместном анализе с другими информационными источниками (карт породного состава леса и запасов) может быть полезно для ориентировочной оценки потерь древесины или ущерба углеродному балансу.
Оценивая применимость алгоритмов машинного обучения для картографирования лесов надо сказать, что точность создаваемых карт зависит от качества и объёма обучающей выборки. На снимках с разрешением 10 м спектральная информация одного пикселя это сложная комбинация излучения, отраженного от нескольких деревьев, возможно разных пород, и от подстилающей поверхности. Это, и тот факт, что для подготовки контрольных данных были использованы акты ЛПО и лесоустроительные материалы, где показатели приводятся на неоднородные по своему составу выделы, говорят о том, что обучающие данные сложно назвать оптимальными. Несмотря на это, модель RF позволяет создавать интерпретируемое картографическое изображение.
Таким образом в исследовании все поставленные задачи выполнены. Полученные результаты дают основания полагать, что, обучая ансамблевые алгоритмы на данных более высокого пространственного разрешения и выделяя экземпляры целевого класса с большей достоверностью можно добиться более точной классификации. Одним из идейных продолжений работы видится классификация лесных массивов по отдельным типам повреждений с применением ансамблевого алгоритма LightGBM.
Анализ опыта применения МО в лесном секторе показал, что чаще всего выбор исследователей падает на алгоритмы k-NN, SVM, Деревья решений и ансамбль Деревьев решений - Random Forest, а также глубокое обучение. В ходе фокусирования на состоянии лесной промышленности и системах учета лесов Карелии (в пределах особо охраняемых территорий) обнаружилось, что необходимость получения оперативной информации о состоянии лесов в регионе трактуется не только общими разумными соображениями, но и официальным переходом на другую модель ведения лесного хозяйства (Глава 3). Показано, какие методы обработки открытых спутниковых изображений позволяют идентифицировать сухостои, образовавшиеся на ветровалах, и какие части спектра являются наиболее репрезентативными.
В основу набора данных о повреждениях древостоя легли материалы спутниковой съемки Sentinel-2 и Landsat-8, документальные акты лесопатологических обследований и тематические карты растительного покрова. В исследовании тестировали два принципиально разных алгоритма - Spectral Angle Mapper (SAM, реализованный в плагине SCP под QGIS) и Random Forest (RF), модель на основе которого была написана нами на языке Python. Для сравнения качества классификации лесного покрова двумя моделями был разработан и написан также на Python способ оценки полученных результатов. Рассчитанная относительная погрешность детектирования «сухостойных» пикселей оказалась очень большой для алгоритма SAM. Модель RF, показавшая точность 81 %, сработала лучше в отношении выбранной территории. Для обоих алгоритмов «камнем преткновения» стали массивы лишайниковой сосны, под которой слишком хорошо видна поверхность. Из этого следует, что в данном случае необходимо либо объединить похожие категории растительного покрова в один класс, либо активно работать над разделением чрезвычайно похожих классов путем увеличения размера их обучающей выборки.
Исходя из масштабного ряда и детальности растровых карт, продиктованными нормативно-правовой базой, было оценено, насколько применение космических снимков Sentinel-2 вкупе с точностью работы самой модели МО, применимо для выявления нарушенного древостоя. Результаты классификации по алгоритму SAM можно считать удовлетворительными с точки зрения общего распознавания типов покрытий для ускорения картографирования территории, но на уровне лесных выделов он видится малопригодным. По результатам работы модели RF удалось составить карту в масштабе 1:25 000, которая может служить основанием для инициирования полевых
инструментальных обследований проблемных участков. Также, полученное изображение при совместном анализе с другими информационными источниками (карт породного состава леса и запасов) может быть полезно для ориентировочной оценки потерь древесины или ущерба углеродному балансу.
Оценивая применимость алгоритмов машинного обучения для картографирования лесов надо сказать, что точность создаваемых карт зависит от качества и объёма обучающей выборки. На снимках с разрешением 10 м спектральная информация одного пикселя это сложная комбинация излучения, отраженного от нескольких деревьев, возможно разных пород, и от подстилающей поверхности. Это, и тот факт, что для подготовки контрольных данных были использованы акты ЛПО и лесоустроительные материалы, где показатели приводятся на неоднородные по своему составу выделы, говорят о том, что обучающие данные сложно назвать оптимальными. Несмотря на это, модель RF позволяет создавать интерпретируемое картографическое изображение.
Таким образом в исследовании все поставленные задачи выполнены. Полученные результаты дают основания полагать, что, обучая ансамблевые алгоритмы на данных более высокого пространственного разрешения и выделяя экземпляры целевого класса с большей достоверностью можно добиться более точной классификации. Одним из идейных продолжений работы видится классификация лесных массивов по отдельным типам повреждений с применением ансамблевого алгоритма LightGBM.



