ЗАСТОСУВАННЯ МЕХАНІЗМУ УВАГИ ТИПУ MULTI-HEAD ТА МОДЕЛІ ТРАНСФОРМЕРА ДЛЯ ЗАДАЧІ МАШИННОГО ПЕРЕКЛАДУ
DOI:
https://doi.org/10.35546/kntu2078-4481.2023.1.15Ключові слова:
механізм уваги, машинний переклад, обробка природної мови, модель трансформераАнотація
Механізм уваги використовується в широкому діапазоні нейронних архітектур і досліджувався в різних областях застосування. Механізм уваги став популярною технікою глибокого навчання з кількох причин. По-перше, найсучасніші моделі, які включають механізми уваги, досягають високих результатів для різноманітних завдань, таких як класифікація тексту, створення підписів до зображень, аналіз настроїв, розпізнавання природної мови та машинний переклад. Використовуючи механізм уваги, нейронні архітектури можуть автоматично зважувати релевантність будь-якої області вхідного тексту та враховувати ці ваги під час вирішення основної задачі. Крім того, популярність механізмів уваги додатково підвищилася після появи моделі трансформера, яка ще раз довела, наскільки ефективним є механізм уваги. Архітектура трансформера не використовує послідовну обробку та рекурентність, а покладається лише на механізм self-attention, щоб охопити глобальні залежності між вхідними і вихідними послідовностями. В роботі використано модель трансформера, яка реалізує масштабовану скалярнодобуткову увагу, що відповідає процедурі механізму загальної уваги. Побудована модель спирається на механізм уваги типу multi-head attention, де модуль self-attention повторює обчислення декілька разів паралельно. Ці розрахунки об’єднуються для отримання остаточної оцінки. Застосування multi-head attention дає моделі більше можливостей для кодування декількох зв’язків і нюансів для кожного слова. Завдяки використанню механізму multi-head attention функція уваги отримує інформацію з різних частин представлення, що неможливо при використанні self-attention. Модель трансформера була реалізована за допомогою фреймворків TensorFlow та Keras для задачі машинного перекладу з англійської на українську. Набір даних для тренування, валідації та тестування моделі був отриманий від Tatoeba Project. Був реалізований власний шар для вбудовування слів із використанням матриці позиційного кодування.
Посилання
Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. International Conference on Learning Representations. https://doi.org/10.48550/arXiv.1409.0473
Vaswani, A. et al. (2017). Attention Is All You Need. 31st Conference on Neural Information Processing Systems (NIPS). https://doi.org/10.48550/arXiv.1706.03762
Galassi, A., Lippi, M., & Torroni, P. (2021). Attention in Natural Language Processing. IEEE Transactions On Neural Networks And Learning Systems, Vol. 32, No. 10. https://doi.org/10.1109/TNNLS.2020.3019893
Chaudhari, Sh., Mithal, V., Polatkan, G., & Ramanath, R. (2021). An Attentive Survey of Attention Models. ACM Transactions on Intelligent Systems and Technology, Vol. 1, No. 1. https://doi.org/10.1145/3465055
Brauwers, G., & Frasincar, F. (2021). A General Survey on Attention Mechanisms in Deep Learning. IEEE Transactions on Knowledge and Data Engineering (TKDE). https://doi.org/10.1109/TKDE.2021.3126456
Cristina, S., & Saeed, M. (2022). Building Transformer Models with Attention: Implementing a Neural Machine Translator from Scratch in Keras. Machine Learning Mastery.
Rothman, D. (2022). Transformers for Natural Language Processing: Build, train, and fine-tune deep neural network architectures for NLP with Python, PyTorch, TensorFlow, BERT, and GPT-3, 2nd Edition. Packt Publishing.
Yıldırım, S., & Asgari-Chenaghlu, M. (2021). Mastering Transformers: Build state-of-the-art models from scratch with advanced natural language processing techniques. Packt Publishing.
Tatoeba Project. (n.d.). http://tatoeba.org/home