Тип работы:
Предмет:
Язык работы:


АНАЛИЗ ЗАВИСИМОСТИ ТОЧНОСТИ БИНАРНОЙ КЛАССИФИКАЦИИ ТЕКСТОВОТ ПРИМЕНЕНИЯ МЕТА-ФУНКЦИЙ ДЛЯ РАЗЛИЧНЫХ АЛГОРИТМОВ КЛАССИФИКАЦИИ

Работа №188497

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы78
Год сдачи2021
Стоимость4800 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
7
Не подходит работа?

Узнай цену на написание


Аннотация
ВВЕДЕНИЕ 3
1 Обзор актуальных исследований в области мета-обучения 7
1.1 Введение в область выбора алгоритма 7
1.2 Введение в область мета-обучения 8
1.2.1 Понятие мета-обучения с точки зрения исследователей этой области 8
1.2.2 Виды мета-функций в зависимости от построения 9
1.3 Автоматическая классификация текстов (ATC) с использованием мета-функций ....10
1.3.1 Введение в область и ее проблематика 10
1.3.2 Подходы к выбору стратегии использования мета-функций 11
1.3.2.1 Формулирование основных вопросов для анализа подходов 11
1.3.2.2 Полный перебор и генетические алгоритмы 12
1.3.2.3 Подходы на основе фильтрации и оболочек 13
1.3.2.4 SPEA2 и подходы на его основе 13
1.3.2.5 Автоматическая генерация пайплайна с помощью мета-функций как
один из подходов к ATC 15
1.3.2.6 Мета-обучение с использованием характеристик документа (MUDOF)
для задачи ATC 16
1.4 Критерии правильности классификатора 16
1.5 Теоретическое представление мета-функций, используемых в работе 18
2 Описание используемых данных, классификаторов и метрик 19
2.1 Описание созданной библиотеки и внедренных функций 19
2.2 Описание исходного набора данных и его преобразования 19
2.3 Описание используемых классификаторов и сравнение результатов без 21
использования мета-функций 21
3 Подходы к применению мета-функций на практике 24
3.1 Описание идеи применения мета-функций как исходного пространства 25
ввода для классификатора для дальнейших экспериментов 25
3.2 Исследование и анализ применяемых мета-функций 25
3.2.1 Centroid мета-функция 25
3.2.2 Cnt мета-функция 29
3.2.3 Ncnt мета-функция 32
3.2.4 Quartile мета-функция 34
3.3 Составление системы условий с помощью мета-функций 36
3.4 Описание идеи применения мета-функций как системы условий 38
3.5 Формирование принципов отбора мета-функций для дальнейших экспериментов ...39
3.5.1 Метод полного перебора 40
3.5.2 Жадный алгоритм 40
3.5.3 Задача оптимизации по Парето 41
4 Правомочность использования мета-функций со статистической точки зрения 43
4.1 Сравнение тестовой и тренировочной выборок 43
4.2 Сравнение выборок нулевого и первого классов 45
5 Проведение экспериментов и сравнение полученных результатов 47
5.1 Применение мета-функций как исходного пространства ввода для 47
классификатора 47
5.1.1 Внедрение принципов отбора мета-функций: полный перебор 47
5.1.2 Внедрение принципов отбора мета-функций: жадные алгоритмы 50
5.1.3 Внедрение принципов отбора мета-функций: оптимизация по Парето 51
5.2 Применение мета-функций как системы условий для формирования обучающей
выборки для классификатора 53
5.2.1 Внедрение принципов отбора мета-функций: полный перебор 54
5.2.2 Внедрение принципов отбора мета-функций: жадные алгоритмы 56
5.2.3 Внедрение принципов отбора мета-функций: оптимизация по Парето 57
5.3 Сводная таблица результатов и выводы 60
ЗАКЛЮЧЕНИЕ 62
ЛИТЕРАТУРА 64
ПРИЛОЖЕНИЕ А Исследование мета-функции Centroid 66
ПРИЛОЖЕНИЕ Б Исследование мета-функции Cnt 67
ПРИЛОЖЕНИЕ В Исследование мета-функции Ncnt 69
ПРИЛОЖЕНИЕ Г Исследование мета-функции Quartile 70
ПРИЛОЖЕНИЕ Д Подход «полный перебор» 71
ПРИЛОЖЕНИЕ Е Подход «жадный алгоритм» 72
ПРИЛОЖЕНИЕ Ж Подход «граница Парето» 73


Информация всегда имела большую значимость для человечества. Постоянное дополнение имеющейся информации и её дальнейшая систематизация позволяли передавать опыт и знания, позволяя переходить на более высокие уровни изучения различных вопросов без необходимости заново исследовать базовые. Со временем её роль в нашем обществе только усилилась, и информация, как фундамент результативной деятельности и совершенствования экономики, встала в один ряд с такими ресурсами, как труд и капитал.
Взаимодействуя с окружающим его миром, человек безостановочно работает с информацией - оценивая события и анализируя полученные извне данные, он пытается определить стратегию своего поведения как в долгосрочной перспективе, так и в конкретной ситуации. Человеку становятся доступными не только источники информации для использования в своих целях, но и возможность её генерации для других людей. А что еще важнее - благодаря техническому прорыву появилась возможность хранить и обрабатывать массивы данных, во много превосходящие по объему те, что общество могло позволить себе еще несколько десятилетий назад.
В данной работе будет рассматриваться информация в текстовой форме, поэтому стоит уточнить, что в современном мире в режиме реального времени и ограниченного количества ресурсов происходят процессы создания, обработки и анализа огромного количества неструктурированной текстовой информации - новостей, записей в блогах, научных статей, обучающих материалов. Потребности общества в подобной информации растут с каждым годом, однако вместе с этим растет и необходимость в её классификации, так как это упрощает её поиск и делает его более быстрым.
Классификация текстов может быть необходима для решения следующих проблем:
• определения эмоциональной окраски текста, что позволит определить отношение объекта к описываемому явлению/товару, в случае бинарной классификации, например, понять настроение индивида относительно чего-то - положительное или отрицательное;
• сортировки сайтов по тематике;
• персонификации рекламы;
• выявление противоправной или опасной для общества информации;
Чаще всего источниками информации для обучения моделей классификаторов являются различные отзывы как на специализированных платформах для обратной связи, так и на сайтах онлайн-магазинов, контент, который создали пользователи социальных сетей и форумов (твиты, посты в Инстаграм и Фейсбук), запросы пользователей на поисковых сайтах (Гугл поиск, Яндекс поиск), логи чатов. Особенностью информации из данных источников является необходимость в её структурировании по тематикам, областям применения и группам пользователей, для которых она может пригодиться.
Говоря об исходных данных, стоит отметить, что их свойства с течением времени могут меняться. То есть данные, на которых строился классификатор и на которых он должен будет работать, могут не только не совпасть, находясь в некоторой гомогенной выборке, но и изменить свою структуру. То есть существует потребность обучения классификатора в режиме реального времени при постоянном поступлении обучающих примеров для более гибкой работы, однако это усложнит общую настройку системы, а дополнительная оценка результатов при непрекращающемся обучении модели скорее всего сделает весь процесс работы с данными дороже. Здесь можно выделить следующую проблему: различные входные данные приводят к неповторяющимся результатам, что затрудняет улучшение результатов работы классификатора. Еще одной из проблем является редкость некоторых данных в общем потоке, что затрудняет их обнаружение и в дальнейшем верную классификацию.
Анализ результатов деятельности моделей классификации в большинстве случаев остается на уровне подсчета метрик качества, к примеру, точности, что не дает точного ответа на вопрос о том, в каких случаях можно использовать данную модель и для каких данных она при хороших результатах метрик будет выдавать логически не адекватные результаты, хотя именно эти вопросы определяют дальнейшее использование модели.
В работах многих исследователей одним из подходов к решению данного вопроса является внедрение мета-обучения как возможности самих алгоритмов обучения улучшить свою производительность за счет опыта, такое определение дали в своей работе Вивалта и Дрисси [1]. О возможных способах применения мета-обучения к проблемам классификации текстов будет написано в практической части дипломной работы.
Также стоит отметить, что в работе будут рассмотрены рассуждения на тему того, каким образом увеличить эффективность применяемых мета-функций за счет грамотного выбора нескольких из общей совокупности таким образом, чтобы максимизировать их полезность в рамках поставленной задачи и при этом не сократить исследуемое пространство текстов до критически нерезультативного минимума.
В экспериментальной части работы будет реализована сводная таблица по способам применения мета-функций для бинарной текстовой классификации, которая не только соберет в себе различные подходы исследователей этой темы, но и предоставит численные результаты в виде подсчитанных метрик. Экспериментальная часть работы будет связана со статьей С. Кануто [2], в которой рассмотрены статистические метафункции на основе метода ближайших соседей. Эти мета-функции будут использованы в качестве базы для дальнейших экспериментов и рассуждений.
Актуальность данной работы заключается в том, что классификация текстов с помощью имеющихся в открытом доступе библиотек и статей стала достаточно популярным в своей области инструментом, используемым как в различных исследованиях, так и просто в процессе производства. Однако у пользователей часто отсутствует возможность проверить результаты применяемой классификации, что в свою очередь ведет к отсутствию полного доверия к инструменту. Внедрение метапространства над процессом классификации это шаг к решению данной проблемы путем использования методов различных областей математики для получения новой полезной дискриминационной информации.
Целью данного исследования является выявление, экспериментальная проверка и анализ возможных подходов к применению мета-обучения для задач бинарной текстовой классификации. Для данной дипломной работы были поставлены следующие задачи:
1. Обзор существующих методов и подходов к автоматическому решению классификационной задачи в области текстовых данных с описанием подходов к определению и применению мета-функций.
2. Алгоритмическое представление, реализация в виде кода на языке программирования Python и анализ различных стратегий использования мета-функций на основе ранее проведенного исследования о применении мета-функций для задач уменьшения количества ошибок в процессе бинарной текстовой классификации.
3. Составление сводной таблицы с результатами экспериментов по различному применению мета-функций для заданных классификаторов с целью определения оптимального с точки зрения решаемой задачи алгоритма использования мета-функций для улучшения точности классификации.
Объектом исследования является качество бинарной текстовой классификации, а предметом исследования - применение мета-обучения для анализа и улучшения качества классификации. Методы исследования: анализ научных источников, эксперимент, проверка статистических гипотез, обобщение и анализ полученных результатов.
Степень разработанности темы находится на уровне научных статей с различными гипотезами о возможных способах применения мета-обучения, подтвержденными и опровергнутыми экспериментально. Практическая значимость данного исследования заключается в обобщении уже существующих гипотез, выдвижении новых и их экспериментальной проверке.
В результате анализа научных источников удалось найти разные варианты определения задачи мета-обучения, создания мета-пространства и идеи для применения их к задаче классификации текстов. В работе было предложено два подхода к использованию мета-обучения - применение мета-функций как исходного пространства ввода для классификатора и применение мета-функций для создания системы условий. Были внедрены процедуры отбора наиболее эффективных мета-функций. В результате удалось добиться улучшения качества классификации и найти подход для дополнительного анализа данных.
Работа содержит 74 страницы, 33 рисунка, 8 таблиц, 25 источников, 7 приложений.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках литературного обзора был прочитан ряд статей преимущественно на английском языке. Целью литературного обзора было определить, какие исследования были проведены в отношении применения мета-обучения к задаче автоматической классификации данных. В результате обзора не было выявлено единого утвержденного или доказанного в своей эффективности подхода, однако удалось найти большое количество исследований на эту тему, где предлагаются разные варианты определения задачи мета-обучения как таковой, построения мета-функций и создания из них метапространства, а также многообещающие идеи для применения их к задаче классификации текстов. В частности, можно выделить три категории идей, которые встречались в нескольких статьях: анализ с помощью графиков, метрик и построения и последующей проверки гипотез, генетические алгоритмы и ряд именных алгоритмов.
В данной дипломной работе было предложено два подхода к использованию метаобучения - применение мета-функций как исходного пространства ввода для классификатора и применение мета-функций для создания системы условий. Идея первого была заимствована в одной из статей, а в рамках данной работы был продуман алгоритм и идея была реализована для проверки на дальнейших экспериментах. Вторая идея является продолжением исследования курсовой работы, в которой анализировались мета-функции и для их проверки осуществлялось формирование системы условий. Данная идея была также продумана алгоритмически и реализована в виде кода.
В результате экспериментов можно составить следующий вывод: при поставленной задаче улучшения результатов классификации применение мета-функций даст стабильно положительные результаты как пространство для ввода классификатора. К тому же данный процесс не требует дополнительного участия эксперта в процессе работы. Однако если стоит задача проанализировать данные, то мета-пространство лучше использовать для построения системы условий, и как в процессе поиска граничных значений экспертом, так и в процессе применения этой системы условий к данным можно извлечь новую информацию о данных.
В дополнение к изучению данных подходов в работе был изучен вопрос об оптимальности использования не всех реализуемых мета-функций, а какой-то их подгруппы. Эта идея возникла в процессе экспериментов, и выяснилось, что метафункции при обоих подходах обладают разной степенью эффективности. И для того, чтобы тратить меньше ресурсов на процесс обработки и подсчетов, но при этом получать результаты метрик лучше, чем при использовании всех реализуемых мета-функций, было 62
принято решение внедрить процедуры их отбора: полный перебор, жадный алгоритм и построение границы Парето.
Полный перебор очень прост с точки зрения реализации и не требует введения дополнительных программных модулей или библиотек, однако обработка данных может быть достаточно продолжительной по времени. Использование полного перебора позволяет увидеть картину целиком, и понять, какие именно условия (для каких метафункций) позволяют значительно улучшить результат метрик. С помощью жадного алгоритма можно получить однозначный вывод о том, какие мета-функции для какого классификатора дают лучший результат. Это сокращает время на анализ полученных сведений в отличие от метода полного перебора. Благодаря введению порогового значения в процессе исследования можно контролировать переход на следующий уровень алгоритма, то есть удаление используемых мета-функций. Стоит отметить, что реализация данного алгоритма оказалась не сложнее, чем реализация полного перебора. А благодаря графическому построению границы Парето анализировать исходы, полученные для каждой из комбинаций мета-функций, становится гораздо проще, это сокращает время на формулирование выводов и принятие дальнейших решений, связанных с задачей.
Таким образом, в рамках данной дипломной работы был проведен литературный обзор, алгоритмически сформулированы и реализованы в виде кода два подхода к применению мета-обучения к задаче автоматической текстовой классификации, и реализовано три подхода к отбору мета-функций с целью повышения эффективности их применения.
По результатам работы были представлены доклады на двух конференциях:
1. На Международной молодежной научной конференции «Математическое и программное обеспечение информационных, технических и экономических систем» 28 - 30 мая 2020 г. (Диплом 1 степени)
2. На Международной молодежной научной конференции «Математическое и программное обеспечение информационных, технических и экономических систем» 26 - 30 мая 2021 г. (Диплом 1 степени)
Результаты исследований были опубликованы: Павлюченко М. Анализ ошибок бинарного классификатора текстов с применением мета-признаков М.В. Павлюченко, Т.В. Кабанова Материалы Международной научной конференции «Математическое и программное обеспечение информационных, технических и экономических систем». - 2020. - С. 57-66. Публикация с материалами конференции этого года находится в печати.



1. Drissi Y. A Perspective View and Survey of Meta-Learning / Y. Drissi, R. Vilalta // Artificial Intelligence Review. — 2002. — Vol. 18, no. 2. — P. 77-95.
2. Gon M. On efficient meta-level features for effective text classification / M. Gon, S. Canuto, T. Salles // CIKM. — 2014. — P. 1709-1718.
3. Rice J. The Algorithm Selection Problem // Advances in Computers. - 1975. - Vol. 15. - P. 65-118.
4. Thrun S. Lifelong Learning Algorithms // Learning to Learn. - 1998. - Vol. 8. - P. 181-209.
5. Utgoff P. Shift of Bias for Inductive Concept Learning // Machine Learning: An Artificial Intelligence Approach. - 1986. - P. 107-148.
6. Gordon D. Queries for Bias Testing // Proceedings of the Workshop on Change of Representationand Problem Reformulation. - 1992. - P. 53-65.
7. Aha W. Generalizing from Case Studies: A Case Study // Proceedings of the Ninth InternationalWorkshop on Machine Learning. - 1992. - P. 1-10.
8. Gama J. Characterization of Classification Algorithms / J. Gama, P. Brazdil // Proceedings of the seventh Portuguese Conference on Artificial Intelligence. - 1995. - P. 189-200.
9. Орлов А. А. Автоматическая система мета-обучения с поддержкой выбора оптимального алгоритма решения задачи и вычисления оптимальных параметров его функционирования // Известия Томского политехнического университета. Инжиниринг георесурсов. - 2016. - № 5. - С. 57-70.
10. Giraud-Carrier C. A Higher-order Approach to Meta-learning / C. Giraud-Carrier, H.Bensusan, C.J.Kennedy // Inductive Logic Programming, 10th International Conference. - 2000. - P. 1-10.
11. Kyriakopoulou A. Using clustering to enhance text classification / A. Kyriakopoulou, T. Kalamboukis // SIGIR. - 2007. - P. 805-806.
12. Ferra H. Using unlabelled data for text classification through addition of cluster parameters / H. Ferra, B. Raskutti, A. Kowalczyk // ICML. - 2002. - P. 514-521
13. Gopal S. Multilabel classification with meta-level features / S. Gopal, Y. Yang // SIGIR. - 2010. - P. 315-322
14. Jin H. Cenknn: a scalable and effective text classifier / H. Jin, G. Pang, S. Cenknn // DMKD. — 2015. — Vol. 29, no. 3. — P. 593-625.
15. Santos W. Efficient and scalable metafeature-based document classification using massively parallel computing / W. Santos, S. Canuto, G. Marcos // SIGIR. - 2015. - P.333-342....25



Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ