ВВЕДЕНИЕ 3
ГЛОССАРИЙ 5
ГЛАВА 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 8
1.1 Определение цифрового портрета 8
1.2 Определение источника сбора данных 8
1.2.1 Сообщества для сбора информации о пользователях 10
1.3 Описание модели собираемых данных 12
1.4 Данные, получаемые на основе анализа собранной модели 16
1.5 Группы обрабатываемых данных 17
1.6 Способы обработки данных 18
1.7 Анализ существующих решений 21
1.7.1 Технологии решающие схожие проблемы 21
1.7.2 Другие работы в данной предметной области 23
ГЛАВА 2. РАЗРАБОТКА СИСТЕМЫ 24
2.1 Проектирование системы 24
2.1.1 Описание разрабатываемой системы 24
2.1.2 Архитектура системы 25
2.2 Особенности разработки системы 32
2.2.1 Используемые технологии 32
2.2.2 Процесс реализации, последовательность выполнения задач 35
2.2.3 Основные проблемы и трудности реализации 36
ГЛАВА 3. ПОЛУЧЕННЫЕ РЕЗУЛЬТАТЫ 40
3.1 Разработанная система 40
3.2 Статистика по собранным данным 41
ГЛАВА 4. ПРИМЕНЕНИЯ СИСТЕМЫ 44
4.1 Самостоятельная система в рамках университета 44
ЗАКЛЮЧЕНИЕ 45
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 47
ПРИЛОЖЕНИЯ
Из этого факта следует проблема, заключающаяся в недостатке данных об абитуриентах, необходимых для индивидуализации высшего образования, особенно - на начальных этапах обучения. Данная информация необходима для получения представления о наклонностях и интересах абитуриента. Нехватка такого рода информации имеет место ввиду того, что при подаче документов на поступление в ВУЗы, абитуриенту не требуется подавать подробную информацию о себе. Также, не разработан инструмент, который позволил бы эффективно собрать и обработать информацию из уже имеющихся открытых источников данных, а также представить эту информацию в наглядном виде с целью по-строения эффективной модели индивидуализации образования.
Целью данной работы является разработка способа для получения учебными заведениями информации об абитуриентах, что в результате позволило бы повысить эффективность индивидуализации образования на начальных этапах обучения студентов в ВУЗах.
В качестве предполагаемого решения данной проблемы, была выдвинута гипотеза о том, что если осуществить разработку и внедрить инструмент, позволяющий проводить сбор и анализ данных об абитуриентах из открытых источников информации, то получится создать информационную базу, на основе которой можно будет делать выводы об индивидуальных наклонностях абитуриентов и эффективно разрабатывать, и строить систему реализующую подход к образованию, как к индивидуализированному процессу.
Актуальность данной проблемы обусловлена тем, что в настоящее время среди многих образовательных учреждений прослеживается тренд к индивидуализации образования [2], но нет инструмента, позволяющего эффективно реализовать такие подходы к образованию.
Новизна данного исследования состоит в том, что несмотря на высокую распространенность технологий по сбору и анализу данных и схожие принципы работы (например, методы для создания контекстной рекламы), эти технологии пока не используются для сферы образования, а именно, пока не разработана система, позволяющая собирать информацию из открытых источников и анализировать ее с целью определения интересов и склонностей абитуриентов как ВУЗов, так и прочих образовательных учреждений. Существуют системы, реализующий схожий функционал, но они находятся в собственности крупных компаний и поисковых систем, и используются для других целей, не связанных с образованием. [3]
В ходе работы, для достижения цели исследования потребуется решить следующие задачи:
1. Провести обзор существующих решений
2. Анализ существующих технологий, позволяющих решить проблему
3. Изучение источников информации, предоставляющих данные о целевой группе (абитуриентах)
4. Изучение документации к API социальных сетей
5. Выделение основных методов и способов для получения информации
6. Определение компетенций и характеристических данных, которые могут быть получены при анализе информации
7. Разработка архитектуры системы по сбору и анализу данных
8. Реализация системы
9. Сбор тренировочных данных, то есть таких данных, в которых известны как данные, которые могли бы быть собраны из открытых источников информации, так и данных которые должны быть получены на вы¬ходе из системы, как результат анализа
10. Проверка корректности работы системы и адекватности результата при использовании на реальных данных
В ходе выполнения данной работы был произведен обзор литературы и поиск существующих решений по предметной области, в ходе которого было выяснено, что на данный момент не разработано решение отвечающее всем по-ставленным в работе требованиям и решающим описанную проблему нехватки данных об абитуриентах в полной мере. Для решения данной проблемы, были поставлены задачи, решение которых было достигнуто в ходе данной работы.
Был определен источник открытой информации, в наибольшей степени подходящий для получения данных об абитуриентах. Кроме того, данный источник предоставляет подходящий инструментарий для удобства реализации системы сбора информации.
В качестве средства для анализа данных было использовано несколько подходов, такие как: агрегация и сопоставление различных полей собранных данных с целью выявления новых характеристик абитуриента, а также алгоритмы текстовой аналитики для определения интересов абитуриента.
Для проверки системы были использованы данные с 5 реальных сообществ «ВКонтакте», которые были сохранены и обработаны. Данный факт подтверждает пригодность системы к дальнейшему использованию и подтверждает успешность выполнения поставленных задач и достижения поставленной цели исследования - разработки системы, позволяющей учебным заведениям собирать информацию об абитуриентах, с целью повышения качества индивидуализации образования.
В дальнейшем, работа разработанной системы может быть улучшена за счет внедрения более совершенных алгоритмов текстовой аналитики, позволяющих получать более точные данные об интересах абитуриентов на основании содержимого записей на их страницах, а также доработана новыми модулями, позволяющими проводить аналитику данных по направлениям, требующимися учебным заведениям в конкретных ситуациях.