ВИКОРИСТАННЯ РІЗНИХ ВИДІВ ТОКЕНІЗАТОРІВ В ТРАНСФОРМЕРНИХ АРХІТЕКТУРАХ ДЛЯ ЗАДАЧІ МАШИННОГО ПЕРЕКЛАДУ

Автор(и)

DOI:

https://doi.org/10.35546/kntu2078-4481.2024.1.25

Ключові слова:

машинний переклад, мовна модель, токенізація, трансформерна архітектура

Анотація

Токенізація є першим кроком майже для всіх завдань обробки природної мови, і всі сучасні мовні моделі використовують алгоритми токенізації підслів для обробки вхідного тексту. Оскільки різні мови мають унікальні властивості, розробка алгоритму токенізації зазвичай є специфічною для конкретної мови. Попередньо навчені моделі для мов з обмеженими ресурсами для тренування використовують ті ж самі токенізатори, що і моделі для англійської. Вплив алгоритмів токенізації може бути різним для мов з обмеженими ресурсами, де слова можуть мати префікси та суфікси. Крім того, вплив різних методів токенізації не досліджено детально для малоресурсних мов, зокрема для української. В роботі виконується навчання токенізаторів типу WordPiece, BPE та Unigram для дослідження їхньої ефективності з точки зору точності машинного перекладу речень з англійської на українську. Щоб провести експериментальне порівняння роботи токенізаторів для задачі перекладу з англійської на українську, не використовувалася існуюча попередньо підготовлена мовна модель. Натомість було здійснено попереднє навчання власних мовних моделей середнього розміру на основі конфігурації та процедури навчання моделі Marian. Розроблений конвеєр операцій складається зі збору та очищення навчального корпусу пар речень, навчання токенізатора зі словником фіксованої довжини і попереднього навчання глибинної мовної моделі за допомогою обраного токенізатора. Після цього було виконано оцінку точності моделей із використанням таких метрик, як SacreBLEU та ROUGE. Отримані експериментальні результати підкреслюють роль токенізації в мовному моделюванні, зокрема для морфологічно багатих мов. Крім того, вища морфологічна вірогідність токенізації Unigram призводить до кращої продуктивності виконання завдання машинного перекладу природної мови.

Посилання

Vaswani, A. et al. (2017). Attention Is All You Need. 31st Conference on Neural Information Processing Systems (NIPS). https://doi.org/10.48550/arXiv.1706.03762

Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. In 54th Annual Meeting of the Association for Computational Linguistics (pp. 1715–1725). Association for Computational Linguistics (ACL).

Kudo, T. (2018). Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 66–75).

Schuster, M., & Nakajima, K. (2012). Japanese and Korean voice search. In 2012 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 5149–5152). IEEE.

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

Liu, Y., Ott, M., et al. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.

Lewis, M., Liu, Y., et al. (2019). Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. arXiv preprint arXiv:1910.13461.

Kudo, T., & Richardson, J. (2018). SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing. Conference on Empirical Methods in Natural Language Processing.

Zhilin Yang, Zihang Dai, et al. (2019). XLNet: Generalized autoregressive pretraining for language understanding. arXiv preprint arXiv:1906.08237.

Zhenzhong Lan, Mingda Chen, et al. (2019). ALBERT: A lite BERT for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942.

Colin Raffel, Noam Shazeer, et al. (2019). Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683.

MarianNMT. (n.d.). https://marian-nmt.github.io/

Domingo, M., García-Martínez, M., Helle, A., Casacuberta, F., & Herranz, M. (2019). How much does tokenization affect neural machine translation?. In International Conference on Computational Linguistics and Intelligent Text Processing (pp. 545–554). Cham: Springer Nature Switzerland.

Matthias Gall´e. (2019). Investigating the effectiveness of BPE: The power of shorter sequences. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (pp. 1375–1381). Association for Computational Linguistics.

Bostrom, K., & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining. arXiv preprint arXiv:2004.03720.

Wolf, T., Debut, L., Sanh, V., Chaumond, J., et al. (2019). HuggingFace's Transformers: State-of-the-art Natural Language Processing. ArXiv, abs/1910.03771.

Hugging Face. (n.d.). https://huggingface.co/datasets/kde4

##submission.downloads##

Опубліковано

2024-05-01