РОЗРОБКА ТА ОЦІНКА ЕФЕКТИВНОСТІ МОДЕЛІ РОЗПІЗНАВАННЯ РУКОПИСНОГО ТЕКСТУ НА ОСНОВІ ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ
DOI:
https://doi.org/10.35546/kntu2078-4481.2025.2.2.8Ключові слова:
розпізнавання рукописного тексту, згорткові нейронні мережі, LSTM, глибоке навчання, обробка зображень, набір даних IAM Sentences, TensorFlowАнотація
Стаття присвячена розробці та оцінці ефективності моделі розпізнавання рукописного тексту на основі згорткових нейронних мереж з використанням набору даних IAM Sentences. В роботі детально розглянуто процес створення моделі, яка поєднує сучасні методи глибокого навчання для вирішення складної задачі перетворення рукописної інформації в цифровий формат. Проведено комплексний аналіз наукових досліджень у галузі розпізнавання тексту, що підтверджує актуальність застосування нейронних мереж.Методологія дослідження включає детальну попередню обробку набору даних IAM Sentences, що містить зображення рукописних речень з відповідними текстовими мітками. Описано процес підготовки даних, включаючи читання метаданих, фільтрацію помилкових записів, нормалізацію зображень та створення словника унікальних символів. Особливу увагу приділено методам доповнення даних з використанням випадкових змін яскравості, масштабування для підвищення стійкості моделі.Архітектура розробленої моделі базується на поєднанні згорткових шарів для виділення просторових ознак зображень та LSTM-шарів для захоплення послідовних залежностей між символами. Використання функції втрат Connectionist Temporal Classification (CTC) дозволяє моделі прогнозувати послідовності символів без явного вирівнювання між входом та виходом, що є критично важливим для обробки рукописного тексту змінної довжини.Результати експериментів демонструють високу ефективність розробленої системи з досягненням CER на рівні 11.04 % після навчання протягом 67 епох. Цей показник свідчить про високу точність розпізнавання символів, що є конкурентоспроможним результатом для задач розпізнавання рукописного тексту. Аналіз кривих навчання через TensorBoard показав стабільне покращення метрик з незначними флуктуаціями, що підтверджує коректність обраної архітектури та параметрів навчання.
Посилання
IAM Handwriting Database. URL: https://fki.tic.heia-fr.ch/databases/iam-handwriting-database (дата звернення: 07.06.2025).
Discover LSTM. NVIDIA Developer. 2024. URL: https://developer.nvidia.com/discover/lstm (дата звернення: 07.06.2025).
The Role of Softmax in Neural Networks: Detailed Explanation and Applications. GeeksforGeeks. 2024. URL: https://www.geeksforgeeks.org/the-role-of-softmax-in-neural-networks-detailed-explanation-and-applications/ (дата звернення: 07.06.2025).
Adam Optimizer. Keras. 2024. URL: https://keras.io/api/optimizers/adam/ (дата звернення: 07.06.2025).
WER, CER, MER Metrics. Kolena. 2024. URL: https://docs.kolena.com/metrics/wer-cer-mer/ (дата звернення: 07.06.2025).
Keras Callbacks API. TensorFlow. 2024. URL: https://www.tensorflow.org/api_docs/python/tf/keras/callbacks (дата звернення: 07.06.2025).
TensorBoard. TensorFlow. 2024. URL: https://www.tensorflow.org/tensorboard (дата звернення: 07.06.2025).
Nebauer C. Evaluation of convolutional neural networks for visual recognition. IEEE Transactions on Neural Networks. 1998. Vol. 9, no. 4. P. 685–696. DOI: 10.1109/72.701181.
Yamashita R., Nishio M., Do R. K. G. et al. Convolutional neural networks: an overview and application in radiology. Insights Imaging. 2018. Vol. 9. P. 611–629. DOI: 10.1007/s13244-018-0639-9.
Mienye I. D., Swart T. G., Obaido G. Recurrent Neural Networks: A Comprehensive Review of Architectures, Variants, and Applications. Information. 2024. Vol. 15, no. 9. P. 517. DOI: 10.3390/info15090517.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.






