ВВЕДЕНИЕ 3
Глава 1. OCR для распознавания печатного текста газет в дореформенной орфографии 6
1.1 История технологии OCR 6
1.2 Распознавание текстов исторических газет инструментами OCR 8
1.3 Этапы распознавания символов 9
1.4 Особенности дореволюционных газетных текстов 10
1.4.1 Русские тексты в дореформенной орфографии 10
1.4.2 Организация газетного выпуска 11
1.5 Применение OCR-инструментов для распознавания газеты «Томский
вестник» 12
1.5.1 Газета «Томский вестник» 12
1.5.2 Модель Tesseract: особенности и применение 13
1.5.3 Модель EasyOCR: особенности и применение 15
1.5.4. Оценка качества распознавания текста и сравнение моделей 16
Выводы по первой главе 17
Глава 2. Постобработка распознанного текста в дореформенной орфографии 19
2.1 Постобработка OCR 19
2.2 Автоматизация исправления ошибок распознавания 21
2.2.1 Подходы постобработки распознанных текстов 21
2.2.2 Методы постобработки распознанных текстов 25
2.3 Классификация ошибок распознавания символов в текстах
дореформенной орфографии 27
2.4 Постобработка распознанного текста на примере газеты «Томский
вестник» 36
Выводы по второй главе 42
ЗАКЛЮЧЕНИЕ 44
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 45
ПРИЛОЖЕНИЕ А 52
ПРИЛОЖЕНИЕ Б 53
ПРИЛОЖЕНИЕ В 55
ПРИЛОЖЕНИЕ Г 59
ПРИЛОЖЕНИЕ Д
Научная библиотека Томского Государственного университета собирает уникальную коллекцию сибирской и дальневосточной периодики конца XIX - XX вв. В 2021 году библиотека запустила платформу «PRO Сибирь» [24] - сервис, на котором сегодня в открытом доступе представлено более 140 тыс. источников (включая периодические издания), отражающих территориальное, экономическое и культурно -историческое значение Сибири и Дальнего Востока.
На сервисе выложены оцифрованные копии изданий в формате сканов
- графических постраничных изображений документа. Для дальнейшей автоматической обработки требуется преобразовать тексты, имеющиеся на изображении, при помощи технологии OCR (англ. optical character recognition
- пер. ‘оптическое распознавание символов’) в машиночитаемый текстовый формат.
Повышение уровня автоматизации обработки исторических текстов представляет значимую задачу в контексте сохранения и изучения объектов культурного наследия. Особую важность этот процесс приобретает при работе с периодическими изданиями XIX - начала XX века, которые являются ценными источниками для исследований в области истории, филологии и социокультурных процессов.
Большинство коммерческих OCR-систем (ABBYY FineReader, Adobe Acrobat и др.) демонстрируют сниженную эффективность при работе с дореформенной русской орфографией (ять, ижица, фита), специфическими газетными шрифтами XIX века, дефектами печати, характерными для старых изданий. Кроме того, проприетарный характер ведущих решений создает барьеры для академических исследований (ограничения пробных версий), культурных учреждений с ограниченным бюджетом и масштабных проектов по оцифровке. Таким образом, исследование альтернативных подходов к оптическому распознаванию символов остаётся актуальным.
Газета «Томский вестник» представляет особый интерес из-за характерных особенностей сибирской периодики, смешанного содержания (официальные документы, объявления, литературные тексты), вариативности полиграфического качества. Государственная поддержка программ оцифровки (национальный проект «Культура», инициативы РНФ) подчеркивает социальную значимость разработки эффективных технологических решений в данной области.
Цель работы — оценить при помощи метрик качества результаты нейросетевого OCR-распознавания плохо сохранившихся текстов с дореформенной орфографией до и после применения методов постобработки.
Задачи обусловлены целью исследования:
1. Рассмотреть ключевые этапы процесса оптического распознавания символов (OCR) в контексте обработки исторических текстовых документов;
2. Применить нейросетевые модели для OCR-распознавания текстов дореволюционной газеты «Томский вестник»;
3. Выявить и классифицировать ошибки распознавания, связанные с дореформенной орфографией, для определения направлений оптимизации постобработки;
4. Обобщить и классифицировать существующие подходы и алгоритмы постобработки результатов OCR для повышения их точности в условиях дореформенной орфографии и физического износа исторических источников;
5. Применить методы постобработки для результатов нейросетевого OCR-распознавания текстов дореволюционной газеты «Томский вестник»;
6. Посчитать основные метрики для оценки качества OCR- распознавания текстов дореволюционной газеты «Томский вестник.
Материалом исследования послужила газета «Томский вестник», которая выходила ежедневно с августа 1912 года по декабрь 1915 года. Были взяты 8 выпусков газеты за 1912 год: № 1 от 21 августа, № 22 от 19 сентября, № 25 от 22 сентября, № 28 от 26 сентября, № 36 от 7 октября, № 40 от 12 октября, № 42 от 14 октября, № 46 от 19 октября. Фрагмент выпуска газеты № 36 приведен в Приложении А.
Объектом исследования является процессы автоматического OCR - распознавания плохо сохранившихся текстов с дореформенной орфографией.
Предмет исследования — процессы постобработки результатов OCR- распознавания плохо сохранившихся текстов с дореформенной орфографией.
Методы, применяемые в настоящей работе: методы сегментации изображений (подготовка коллекции изображений по отдельным газетным статьям внутри выпуска), методы машинного обучения (нейронные сети для распознавания текста и постобработки распознанного текста) и оценки качества работы нейронных сетей (метрики CER, WER).
При работе с кодом был использован язык программирования Python3.
Теоретическая значимость работы заключается в том, что полученный результат вносит вклад в решение проблемы автоматического распознавания текстов исторических источников в частности на материале русских дореволюционных газет, а также в развитии такого направления, как автоматическое распознавание текстов в целом.
Практическая значимость данной работы заключается в возможности применения результатов исследования для решения проблемы автоматического распознавания текстов в дореформенной орфографии путем их использования как базы для более комплексных и сложных исследований.
Работа состоит из введения, двух глав, заключения, списка использованной литературы и приложений, отражающих результаты исследования.
В ходе исследования нейросетевого подхода к распознаванию исторических текстов на примере газеты «Томский вестник» были выявлены ключевые аспекты, касающиеся как процесса распознавания, так и последующей постобработки результатов. Первая глава продемонстрировала, что существующие системы оптического распознавания символов (OCR) не адаптированы для работы с дореформенной орфографией, что создает значительные трудности при распознавании текстов, напечатанных в начале XX века. Сравнительный анализ моделей Tesseract и EasyOCR показал, что Tesseract обеспечивает более высокую точность распознавания, однако обе модели сталкиваются с проблемами, связанными с ошибками в распознавании дореформенных символов.
Важным этапом работы стало применение методов постобработки для улучшения качества распознанного текста. Выявленные типы ошибок, в частности, неверное распознавание дореформенной орфографии и пунктуации, подчеркивают необходимость комплексного подхода к постобработке. Применение различных методов, включая словарные проверки и нейросетевые подходы, позволило значительно повысить точность распознавания, однако не все метрики показали значительное улучшение, что указывает на необходимость дальнейших исследований в этой области.
К ближайшим перспективам следует отнести возможность расширения исследования в части постобработки результатов OCR-распознавания с дальнейшим применением языковых моделей (например, BERT, GPT), что позволит учитывать контекст и предсказывать вероятные слова. Также важной представляется возможность рассмотреть вариант дообучения модели на подготовленном датасете с дореформенной орфографией, что обеспечит более высокую точность распознавания.
1. Alberto Poncelas, Mohammad Aboomar, Jan Buts, James Hadley, and Andy Way. 2020. A tool for facilitating ocr postediting in historical documents. In Proceedings of the 1st Workshop on Language Technologies for Historical and Ancient Languages (LT4HALA’20). 47-51.
2. Chantal Amrhein and Simon Clematide. Supervised OCR error detection and correction using statistical and neural machine translation methods. Language Technology and Computational Linguistic, 2018.
3. Christian M. Strohmaier, Christoph Ringlstetter, Klaus U. Schulz, and Stoyan Mihov. Lexical postcorrection of OCR-results: The web as a dynamic secondary dictionary?.// In Proceedings of the 7th International Conference on Document Analysis and Recognition. Citeseer, 2003. - 1133¬1137.
4. Christian Reul, UweSpringmann,ChristophWick,andFrankPuppe.2018.
5. Christophe Rigaud, Antoine Doucet, Mickael Coustaty, and Jean-Philipp Moreux. ICDAR 2019 competition on post-OCR text correction. In Proceedings of 2019 Internation Conference of Information Retrieval (ICDAR), pages 1588-1593, 2019.
6. David Wemhoener, Ismet Zeki Yalniz, and R. Manmatha. 2013. Creating an improved version using noisy OCR from multiple editions. In Proceedings of the 2013 12th International Conference on Document Analysis and Recognition. IEEE, 160-164.
7. Drobac, S. OCR and post-correction of historical newspapers and journals. [Doctoral Thesis, University of Helsinki]. University of Helsinki. 2020. 78 p. URL:http://urn.fi/URN:ISBN:978-951-51-6512-1(дата обращения: 18.06.2024).
8. EasyOCR Version 1.7.2 [Интернет-ресурс]. URL:
https://github.com/JaidedAI/EasyOCR(дата обращения: 18.06.2025).
9. Guillaume Chiron, Antoine Doucet, Micka" el Coustaty, and Jean-Philipp Moreux. ICDAR 2017 competition on post-OCR text correction. In Proceedings of the 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), pages 1423-1428, 2017.
10. High-Performance OCR for Printed English and Fraktur Using LSTM Networks [Thomas M. Breuel, Adnan Ul-Hasan, Mayce Al Azawi and Faisal Shafait - 2013].
11.Ido Kissos and Nachum Dershowitz. 2016. OCR error correction using character correction and feature-based word classification. In Proceedings of the 12th IAPR Workshop on Document Analysis Systems (DAS’16). IEEE, 198-203.
12.ImprovingOCRaccuracyonearlyprinted books byutilizing cross fold training and voting. In Proceedings of the 13th IAPR International Workshop on Document Analysis Systems (DAS’18). IEEE, 423-428.
13. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171¬4186, Minneapolis, Minnesota, June 2019. Association for Computational Linguistics.
14. John Evershed and Kent Fitch. 2014. Correcting noisy OCR: Context beats confusion. In Proceedings of the 1st International Conference on Digital Access to Textual Cultural Heritage. ACM, 45-51.
15. Kazem Taghva and Shivam Agarwal. 2014. Utilizing web data in identification and correction of OCR errors. In Document Recognition and Retrieval XXI, Vol. 9021. International Society for Optics and Photonics, 902109.
16. Kiessling, B., Miller, M. T., Maxim, G., Savant, S. B., et al. (2017). Important new developments in arabographic optical character recognition (OCR). Al-Uur al-Wusa, 25:113.
17. Kimmo Kettunen, Timo Honkela, Krister Linden, Pekka Kauppinen, Tuula Paakkonen, Jukka Kervinen, et al. 2014. Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods. In Proceedings of the IFLA World Library and Information Congress (IFLA’ 14).
18. Klaus Schulz, Stoyan Mihov, and Petar Mitankin. Fast selection of small and precise candidate sets from dictionaries for text correction tasks. In Proceedings of the 9th International Conference on Document Analysis and Recognition (ICDAR 2007), pages 471-475, 2007.
19. Koistinen, M., Kettunen, K., and Kervinen, J. (2017 a). How to improve optical character recognition of historical Finnish newspapers using open source Tesseract OCR engine. Proc. of LTC, pages 279-283.
20. Linden, K. (2006). Multilingual modeling of cross-lingual spelling variants. Information Retrieval, 9(3):295-310.
21. Mitankin, P., Gerdjikov, S., and Mihov, S. (2014). An approach to unsupervised historical text normalisation. In Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage, pages 29-34. ACM.
22. New Approaches to OCR for Early Printed Books [Weichselbaumer, Nikolaus & Seuret, Mathias & Limbach, Saskia & Dong, Rui & Burghardt, Manuel & Christlein, Vincent - 2020]
23. Niklas, K. (2010). Unsupervised post-correction of OCR errors. Master's thesis. Leibniz Universitat Hannover.
24.OkanKolakandPhilipResnik. 2005. OCRpost-processing for low density languages. In Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 867-874.
25. PRO Сибирь - Тексты. Инструменты. Сообщества [Интернет-ресурс]. URL:https://prosiberia.tsu.ru/(дата обращения: 18.06.2025).
26. Quoc-DungNguyen,Duc-AnhLe,Nguyet inh Phan, and Ivan Zelinka. 2021. OCR error correction using correction patterns and self-organizing migrating algorithm. Pattern Anal. Appl. 24, 2 (2021), 701-721.
27. Reynaert, M. W. (2010). Character confusion versus focus wordbased correction of spelling and OCR variants in corpora. International Journal on Document Analysis and Recognition (IJDAR), 14(2):173-187.
28. Rice, S. V. and Nartker, T. A. (1996). The ISRI analytic tools for OCR evaluation. UNLV/Information Science Research Institute, TR-96, 2.
29. Rose Holley. 2009. Many Hands Make Light Work: Public Collaborative OCR Text Correction in Australian Historic Newspapers. National Library of Australia, 23 pages.
30. Rui Dong and David Smith. 2018. Multi-input attention for unsupervised OCR correction. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL’18). Association for Computational Linguistics, 2363-2372.
31.Sauvola, J. and Pietikainen, M. (2000). Adaptive document image binarization. Pattern recognition, 33(2):225-236.
32. Silfverberg, M., Kauppinen, P., and Linden, K. (2016). Data-driven spelling correction using weighted nite-state methods. In Proceedings of the SIGFSM Workshop on Statistical NLP and Weighted Automata, pages 51-59, Berlin, Germany. Association for Computational Linguistics.
33.SimonClematide, Lenz Furrer, and Martin Volk. 2016. Crowdsourcing an OCR gold standard for a germanandfrench heritage corpus. In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC’16). 975-982.
34.Smith, R. (2007). An overview of the Tesseract OCR engine. In Ninth International Conference on Document Analysis and Recognition (ICDAR 2007), volume 2, pages 629-633. IEEE.
35.Stoyan Mihov, Svetla Koeva, Christoph Ringlstetter, Klaus U. Schulz, and Christian Strohmaier. Precise and efficient text correction using levenshtein automata, dynamic Web dictionaries and optimized correction models. // In Proceedings of Workshop on International Proofing Tools and Language Technologies, 2004. - 10 pages.
36. Tauschek, G. Reading machine. U. S. patent 2,026,329. 1935. URL:
https://image-ppubs.uspto.gov/dirsearch-public/print/downloadPdf/2026329(дата обращения: 18.06.2025).
37. Tesseract 4 Documentation [Интернет-ресурс]. URL:
https://github.com/tesseract-ocr/tessdoc/blob/main/OldVersionDocs.md(дата обращения: 18.06.2025).
38. Thi Tuyet Hai Nguyen, Adam Jatowt, Mickael Coustaty, and Antoine Doucet. 2021. Survey of Post-OCR Processing Approaches. ACM Comput. Surv. 54, 6, Article 124 (July 2021), 37 pages.
39. Tobias Englmeier, Florian Fink, and Klaus U. Schulz. 2019. AI-PoCoTo: Combining automated and interactive ocr postcorrection. In Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage. 1924.
40. Ulrich Reffle, Annette Gotscharek, Christoph Ringlstetter, and Klaus U. Schulz. 2009. Successfully detecting and correcting false friends using channel profiles. Int. J. Doc. Anal. Recogn. 12, 3 (2009), 165-174.
41. William B. Lund and Eric K. Ringger. 2011. Error correction with in¬domain training across multiple OCR system outputs. In Proceedings of the 2011 International Conference on Document Analysis and Recognition. IEEE, 658-662.
42. Yli-Jyra, A. (2008). Transducers from parallel replace rules and modes with generalized lenient composition. In 6th international workshop, nitestate methods and natural language processing, FSMNLP-2007. Revised papers, pages 197-212.
43. Youssef Bassil and Mohammad Alwani. 2012. OCR post-processing error correction algorithm using google’s online spelling suggestion. J. Emerg. Trends Comput. Inf. Sci. 3, 1 - 2012.
44. Арутюнова Е. В. К столетию реформы русской орфографии (1917 -1918
гг.). // Сборник научных трудов по материалам Тотального диктанта. - Новосибирск, 2018.- Вып. 3. - С. 244-254. - URL:
https://totaldict.ru/upload/totsbornik iii 2018.pdf(дата обращения: 18.06.2025).
45. Горшков Д. А., Ершов Н. М. Разработка методов автоматической структуризации и дефрагментации изображений текстовых документов // Системный анализ в науке и образовании: сетевое научное издание. 2021. № 2. C. 56-66. URL:http://sanse.ru/download/436(дата обращения: 18.06.2025).
46. Декрет народного комиссара просвещения о введении нового правописания от 23 декабря 1917 года .
47. Декрет Совета народных комиссаров о введении новой орфографии от 10 октября 1918 года.
48. Жилякова Н. В. «Томск газетный». Становление и формирование
системы газетной периодики дореволюционного Томска // Вестн. Том. гос. ун-та. 2009. № 323. С. 23-30. URL:
https://cyberleninka.ru/article/n7tomsk-gazetnyy-stanovlenie-i-formirovanie-sistemy-gazetnoy-periodiki-dorevolyutsionnogo-tomska(дата обращения: 18.06.2025).
49. Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академии наук СССР. М., 1965. Т. 163. № 4. С. 845-848.
50. Томский вестник. 1912. Вып. 36. URL:
https://prosiberia.tsu.ru/catalog/938/96437(дата обращения: 18.06.2025).
51. Циркуляр Министерства народного просвещения попечителям учебных округов о введении нового русского правописания № 5456 от 17 мая 1917 года.
52. Циркуляр Министерства народного просвещения попечителям учебных округов о новом правописании № 6717 от 22 июня 1917 года.