Тема: СОСТАВЛЕНИЕ ТЕКСТОВОГО ОПИСАНИЯ ЧЕЛОВЕКА ПО ИЗОБРАЖЕНИЮ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Анализ предметной области 5
1.1. Задача описания изображения 5
1.2 Подходы к описанию изображения 6
1.3 Задача описания человека 8
1.4 Машинное обучение в вопросе распознавания изображений 10
Глава 2. Модель, использованная в работе 12
2.1. Сверточные нейронные сети 12
2.2 Остаточные сверточные нейронные сети 14
2.3 Структура ResNet 16
Глава 3. Использованный набор данных 20
3.1. Набор данных PETA 20
3.2 Предобработка данных 21
Глава 4. Эксперименты по обучению нейронных сетей 23
4.1. Подготовка к экспериментам 23
4.2 Описание экспериментов 23
4.3 Использованные метрики 24
4.4 Целевая функция 27
4.5 Полученные результаты 27
4.6 Анализ полученных результатов 29
4.7 Интерпретация результатов 30
ЗАКЛЮЧЕНИЕ 32
СПИСОК ЛИТЕРАТУРЫ 33
ПРИЛОЖЕНИЯ 33
📖 Введение
Ввиду этого появляется интерес к преобразованию одного вида информации в другой. Создаются системы, которые совмещают в себе обработку как графической, так и текстовой информации. Пример отраслей, в которых требуются технологии по такой обработке информации:
1) помощь слабовидящим людям;
2) помощь иностранцам;
3) виртуальная реальность;
4) поиск изображений в больших объемах;
5) поиск информации на основе ее содержания;
6) работа человека с техникой;
7) контроль за безопасностью граждан;
8) системы управления технологическими процессами.
При переводе информации из одного вида в другую возможны проблемы. При недостатках системы может произойти потеря информации, нарушение целостности информации, изменение информации. Данные проблемы решает информационная безопасность. Следуя ее принципам нужно добиться того, чтобы максимально сократить ошибки, допускаемые при взаимодействии с информацией. Добиться этого можно, как и с помощью создания качественной системы, так и с помощью качественной обработки полученных результатов. В конечном итоге в рамках подобной системы нужно получить максимально качественный перевод данных из одного состояния в другое, а именно из графического формата в текстовый. На входе данной системы мы должны иметь какое-либо изображение, содержащее определенную информацию, а на выходе - текстовое отображение данной информации. Нюансы заключаются в выборе типа преобразования информации. Какая именно информация должна переноситься в текстовый вид. Как должен выглядеть текстовый формат изображения и т.д. Данные вопросы разобраны в главе «Анализ предметной области».
Целью данной работы является создание системы, способной составить какое-то текстовое описание человека по изображению этого человека. Задачи, которые нужно решить до достижения цели, это: разбор основных принципов построения подобных систем, разбор архитектур нейронных сетей, которые чаще всего встречаются в подобных системах, анализ статей, в которых описаны подходы к достижению целей, а также попытка достижение и улучшение результатов, описанных в подобных статьях.
✅ Заключение
В дальнейшем для улучшения работы модели можно сделать следующее.
Во-первых, можно улучшить датасет. Некоторые изображения в датасете имели очень низкое разрешение порядка 40х80 пикселей. После приведения изображений к стандарту конкретной модели некоторая часть информации искажалась, что в свою очередь тоже приводит к ухудшению результатов работы модели. Улучшение датасета, а именно увеличение количества образцов и улучшение качества изображений позволит улучшить работу модели. Во-вторых, можно более избирательнее подходить к атрибутам, с которыми проходит работа. В данной работе было 105 атрибутов, 20 из которых плохо угадывались, соответственно ухудшая общие результаты угадываний. Если избирательно подходить к выбору нужных атрибутов, то результаты работы тоже улучшаться. Но с другой стороны, плохие результаты на некоторых атрибутах показывают нам слабые места системы описания, направив свое внимание на ликвидацию этих слабых мест, мы, возможно, сможем решить проблему, не прибегая к избавлению от некоторых атрибутов.



