Тема: МЕТОДЫ ПОСТОБРАБОТКИ НЕЙРОСЕТЕВОГО OCR-РАСПОЗНАВАНИЯ ТЕКСТОВ ИСТОРИЧЕСКИХ ИСТОЧНИКОВ (НА МАТЕРИАЛЕ ГАЗЕТЫ «ТОМСКИЙ ВЕСТНИК»)
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. OCR для распознавания печатного текста газет в дореформенной орфографии 6
1.1 История технологии OCR 6
1.2 Распознавание текстов исторических газет инструментами OCR 8
1.3 Этапы распознавания символов 9
1.4 Особенности дореволюционных газетных текстов 10
1.4.1 Русские тексты в дореформенной орфографии 10
1.4.2 Организация газетного выпуска 11
1.5 Применение OCR-инструментов для распознавания газеты «Томский
вестник» 12
1.5.1 Газета «Томский вестник» 12
1.5.2 Модель Tesseract: особенности и применение 13
1.5.3 Модель EasyOCR: особенности и применение 15
1.5.4. Оценка качества распознавания текста и сравнение моделей 16
Выводы по первой главе 17
Глава 2. Постобработка распознанного текста в дореформенной орфографии 19
2.1 Постобработка OCR 19
2.2 Автоматизация исправления ошибок распознавания 21
2.2.1 Подходы постобработки распознанных текстов 21
2.2.2 Методы постобработки распознанных текстов 25
2.3 Классификация ошибок распознавания символов в текстах
дореформенной орфографии 27
2.4 Постобработка распознанного текста на примере газеты «Томский
вестник» 36
Выводы по второй главе 42
ЗАКЛЮЧЕНИЕ 44
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 45
ПРИЛОЖЕНИЕ А 52
ПРИЛОЖЕНИЕ Б 53
ПРИЛОЖЕНИЕ В 55
ПРИЛОЖЕНИЕ Г 59
ПРИЛОЖЕНИЕ Д
📖 Введение
На сервисе выложены оцифрованные копии изданий в формате сканов
- графических постраничных изображений документа. Для дальнейшей автоматической обработки требуется преобразовать тексты, имеющиеся на изображении, при помощи технологии OCR (англ. optical character recognition
- пер. ‘оптическое распознавание символов’) в машиночитаемый текстовый формат.
Повышение уровня автоматизации обработки исторических текстов представляет значимую задачу в контексте сохранения и изучения объектов культурного наследия. Особую важность этот процесс приобретает при работе с периодическими изданиями XIX - начала XX века, которые являются ценными источниками для исследований в области истории, филологии и социокультурных процессов.
Большинство коммерческих OCR-систем (ABBYY FineReader, Adobe Acrobat и др.) демонстрируют сниженную эффективность при работе с дореформенной русской орфографией (ять, ижица, фита), специфическими газетными шрифтами XIX века, дефектами печати, характерными для старых изданий. Кроме того, проприетарный характер ведущих решений создает барьеры для академических исследований (ограничения пробных версий), культурных учреждений с ограниченным бюджетом и масштабных проектов по оцифровке. Таким образом, исследование альтернативных подходов к оптическому распознаванию символов остаётся актуальным.
Газета «Томский вестник» представляет особый интерес из-за характерных особенностей сибирской периодики, смешанного содержания (официальные документы, объявления, литературные тексты), вариативности полиграфического качества. Государственная поддержка программ оцифровки (национальный проект «Культура», инициативы РНФ) подчеркивает социальную значимость разработки эффективных технологических решений в данной области.
Цель работы — оценить при помощи метрик качества результаты нейросетевого OCR-распознавания плохо сохранившихся текстов с дореформенной орфографией до и после применения методов постобработки.
Задачи обусловлены целью исследования:
1. Рассмотреть ключевые этапы процесса оптического распознавания символов (OCR) в контексте обработки исторических текстовых документов;
2. Применить нейросетевые модели для OCR-распознавания текстов дореволюционной газеты «Томский вестник»;
3. Выявить и классифицировать ошибки распознавания, связанные с дореформенной орфографией, для определения направлений оптимизации постобработки;
4. Обобщить и классифицировать существующие подходы и алгоритмы постобработки результатов OCR для повышения их точности в условиях дореформенной орфографии и физического износа исторических источников;
5. Применить методы постобработки для результатов нейросетевого OCR-распознавания текстов дореволюционной газеты «Томский вестник»;
6. Посчитать основные метрики для оценки качества OCR- распознавания текстов дореволюционной газеты «Томский вестник.
Материалом исследования послужила газета «Томский вестник», которая выходила ежедневно с августа 1912 года по декабрь 1915 года. Были взяты 8 выпусков газеты за 1912 год: № 1 от 21 августа, № 22 от 19 сентября, № 25 от 22 сентября, № 28 от 26 сентября, № 36 от 7 октября, № 40 от 12 октября, № 42 от 14 октября, № 46 от 19 октября. Фрагмент выпуска газеты № 36 приведен в Приложении А.
Объектом исследования является процессы автоматического OCR - распознавания плохо сохранившихся текстов с дореформенной орфографией.
Предмет исследования — процессы постобработки результатов OCR- распознавания плохо сохранившихся текстов с дореформенной орфографией.
Методы, применяемые в настоящей работе: методы сегментации изображений (подготовка коллекции изображений по отдельным газетным статьям внутри выпуска), методы машинного обучения (нейронные сети для распознавания текста и постобработки распознанного текста) и оценки качества работы нейронных сетей (метрики CER, WER).
При работе с кодом был использован язык программирования Python3.
Теоретическая значимость работы заключается в том, что полученный результат вносит вклад в решение проблемы автоматического распознавания текстов исторических источников в частности на материале русских дореволюционных газет, а также в развитии такого направления, как автоматическое распознавание текстов в целом.
Практическая значимость данной работы заключается в возможности применения результатов исследования для решения проблемы автоматического распознавания текстов в дореформенной орфографии путем их использования как базы для более комплексных и сложных исследований.
Работа состоит из введения, двух глав, заключения, списка использованной литературы и приложений, отражающих результаты исследования.
✅ Заключение
Важным этапом работы стало применение методов постобработки для улучшения качества распознанного текста. Выявленные типы ошибок, в частности, неверное распознавание дореформенной орфографии и пунктуации, подчеркивают необходимость комплексного подхода к постобработке. Применение различных методов, включая словарные проверки и нейросетевые подходы, позволило значительно повысить точность распознавания, однако не все метрики показали значительное улучшение, что указывает на необходимость дальнейших исследований в этой области.
К ближайшим перспективам следует отнести возможность расширения исследования в части постобработки результатов OCR-распознавания с дальнейшим применением языковых моделей (например, BERT, GPT), что позволит учитывать контекст и предсказывать вероятные слова. Также важной представляется возможность рассмотреть вариант дообучения модели на подготовленном датасете с дореформенной орфографией, что обеспечит более высокую точность распознавания.



