МАСШТАБУВАННЯ НА ЕТАПІ ІНФЕРЕНСУ ЯК УНІВЕРСАЛЬНИЙ ПРИНЦИП У МАШИННОМУ НАВЧАННІ: КЛАСИФІКАЦІЯ ТА МІЖДОМЕННИЙ АНАЛІЗ
DOI:
https://doi.org/10.35546/kntu2078-4481.2026.1.28Ключові слова:
масштабування на етапі інференсу, обчислення під час тестування, машинне навчання; генеративні моделі; «ланцюжок роздумів»; дифузійні моделі; узгодження потоків; ансамблеві методи; пошук Монте-Карло по дереву; адаптивні обчисленняАнотація
У роботі запропоновано формальне визначення та узагальнену класифікацію методів масштабування на етапі інференсу в машинному навчанні. Під масштабуванням на етапі інференсу розуміємо практику збільшення обчислювальних витрат під час прогнозування, щоб підвищити якість вихідного результату. Такі підходи трапляються в багатьох підгалузях, проте досі їх не було зведено до спільної системи. До них належать, зокрема, усереднення ансамблів, пошук Монте-Карло по дереву, аугментація на етапі тестування, міркування у форматі “ланцюжку роздумів” у великих мовних моделях і ітеративне розшумлення в дифузійних моделях. Попри різну природу, ці методи об’єднує одна структурна ознака: додаткові обчислення під час інференсу, як правило, покращують якість, однак приріст зменшується зі зростанням обчислювального бюджету. Водночас їх традиційно аналізують всередині окремих задач, а наявні таксономії здебільшого залишаються доменно-специфічними. Ми вводимо класифікацію за обчислювальною топологією, тобто за тим, як організовано додаткові обчислення на етапі прогнозування. Вона охоплює шість класів: послідовне уточнення, паралельне семплювання з подальшою агрегацією, пошук у дереві або графі, адаптація моделі на етапі тестування, керована генерація та адаптивна маршрутизація обчислень. Для уніфікованого опису кожен підхід подано через три компоненти: стратегія генерації, стратегія відбору та стратегія розподілу обчислювальних ресурсів. Порівняльний аналіз дозволяє виділити чотири міждоменні інваріанти: загалом сублінійну залежність між додатковою «вартістю» обчислень і приростом якості; вузьке місце моделі оцінювання, що обмежує підходи, побудовані на відборі; послідовно-паралельну дуальність, яка проявляється в усіх розглянутих доменах; перенесення методів між доменами після явного опису їх спільної структури.
Посилання
Kaplan J., McCandlish S., Henighan T. J., Brown T. B., Chess B., Child R., Gray S., Radford A., Wu J., Amodei D. Scaling Laws for Neural Language Models. ArXiv. 2020. arXiv:2001.08361. DOI: https://doi.org/10.48550/arXiv.2001.08361
Hoffmann J., Borgeaud S., Mensch A., Buchatskaya E., Cai T., Rutherford E.,... Sifre L. An empirical analysis of compute-optimal large language model training. Advances in neural information processing systems. 2022. Vol. 35, pp. 30016-30030. DOI: https://dl.acm.org/doi/10.5555/3600270.3602446
Wei J., Wang X., Schuurmans D., Bosma M., Xia F., Chi E.,... Zhou D. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems. 2022. Vol. 35, pp. 24824-24837. DOI: https://doi.org/10.48550/arXiv.2201.11903
Ho J., Jain A., Abbeel P. Denoising diffusion probabilistic models. Advances in neural information processing systems. 2022. Vol. 33, pp. 6840-6851. DOI: https://doi.org/10.48550/arXiv.2006.11239
Lipman Y., Chen R. T., Ben-Hamu H., Nickel M., Le M. Flow matching for generative modeling. arXiv. 2022. arXiv:2210.02747. DOI: https://doi.org/10.48550/arXiv.2210.02747
Silver D., Huang A., Maddison C. J., Guez A., Sifre L., Van Den Driessche G.,... Hassabis D. Mastering the game of Go with deep neural networks and tree search. Nature. 2026. Vol. 529(7587), pp. 484-489. DOI: https://doi.org/10.1038/nature16961
Breiman L. Random forests. Machine learning. 2001. Vol. 45(1), pp. 5-32. DOI: https://doi.org/10.1023/A:1010933404324
Welleck S., Bertsch A., Finlayson M., Schoelkopf H., Xie A., Neubig G., Kulikov I., Harchaoui Z. From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models. ArXiv. 2024. abs/2406.16838. DOI: https://doi.org/10.48550/arXiv.2406.16838
Balachandran V., Chen J., Chen L., Garg S., Joshi N., Lara Y.,... Yousefi S. Inference-time scaling for complex tasks: Where we stand and what lies ahead. arXiv. 2025. arXiv:2504.00294. DOI: https://doi.org/10.48550/arXiv.2504.00294
Krizhevsky A., Sutskever I., Hinton G. E. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems. 2012. Vol. 25. DOI: https://doi.org/10.1145/3065386
Gal Y., Ghahramani Z. Dropout as a bayesian approximation: Representing model uncertainty in deep learning. In international conference on machine learning. PMLR. 2016. pp. 1050-1059. DOI: https://dl.acm.org/doi/10.5555/3045390.3045502
Brown T., Mann B., Ryder N., Subbiah M., Kaplan J. D., Dhariwal P.,... Amodei D. Language models are few-shot learners. Advances in neural information processing systems. 2020. Vol. 33, pp. 1877-1901. DOI: https://doi.org/10.48550/arXiv.2005.14165
Бондар В. В., Бабенко В. Г. Масштабування обчислень під час генерації як універсальний принцип для генеративних моделей. Телекомунікаційні та інформаційні технології. 2025. № 4. С. 229–234. DOI: https://doi.org/10.31673/2412-4338.2025.048926
Bondar V., Babenko V., Trembovetskyi R., Korobeinyk Y., Dzyuba V. Deep generative models as the probability transformation functions. arXiv. 2025. arXiv:2506.17171. DOI: https://doi.org/10.48550/arXiv.2506.17171
Snell C.V., Lee J., Xu K., Kumar A. Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters. ArXiv. 2024. abs/2408.03314. DOI: https://doi.org/10.48550/arXiv.2408.03314
Wang X., Wei J., Schuurmans D., Le Q., Chi E., Narang S.,... Zhou D. Self-consistency improves chain of thought reasoning in language models. arXiv. 2022. arXiv:2203.11171. DOI: https://doi.org/10.48550/arXiv.2203.11171
Yao S., Yu D., Zhao J., Shafran I., Griffiths T., Cao Y., Narasimhan K. Tree of thoughts: Deliberate problem solving with large language models. Advances in neural information processing systems. 2023. Vol. 36, pp. 11809–11822. DOI: https://dl.acm.org/doi/10.5555/3666122.3666639
Lightman H., Kosaraju V., Burda Y., Edwards H., Baker B., Lee T.,... Cobbe K. Let’s verify step by step. In The Twelfth International Conference on Learning Representations. 2023. DOI: https://doi.org/10.48550/arXiv.2305.20050
Brown B., Juravsky J., Ehrlich R., Clark R., Le Q. V., Ré C., Mirhoseini A. Large language monkeys: Scaling inference compute with repeated sampling. arXiv. 2024. arXiv:2407.21787. DOI: https://doi.org/10.48550/arXiv.2407.21787
Jaech A., Kalai A., Lerer A., Richardson A., El-Kishky A., Low A.,... Metz L. Openai o1 system card. arXiv. 2024. arXiv:2412.16720. DOI: https://doi.org/10.48550/arXiv.2412.16720
Guo D., Yang D., Zhang H., Song J., Zhang R., Xu R.,... He Y. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. Nature. 2025. Vol. 645, pp. 633–638. DOI: https://doi.org/10.1038/s41586-025-09422-z
Muennighoff N., Yang Z., Shi W., Li X. L., Fei-Fei L., Hajishirzi H.,... Hashimoto T. B. s1: Simple test-time scaling. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. 2025. pp. 20286–20332. DOI: https://doi.org/10.18653/v1/2025.emnlp-main.1025
Hao S., Gu Y., Ma H., Hong J., Wang Z., Wang D., Hu Z. Reasoning with language model is planning with world model. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023. pp. 8154–8173. DOI: https://doi.org/10.18653/v1/2023.emnlp-main.507
Song Y., Sohl-Dickstein J., Kingma D. P., Kumar A., Ermon S., Poole B. Score-Based Generative Modeling through Stochastic Differential Equations. In International Conference on Learning Representations. 2020. DOI: https://doi.org/10.48550/arXiv.2011.13456
Dhariwal P., Nichol A. Diffusion models beat gans on image synthesis. Advances in neural information processing systems. 2021. Vol. 34, pp. 8780-8794. DOI: https://doi.org/10.48550/arXiv.2105.05233
Ho J., Salimans T. Classifier-free diffusion guidance. arXiv. 2022. DOI: arXiv:2207.12598. https://doi.org/10.48550/arXiv.2207.12598
Ma N., Tong S., Jia H., Hu H., Su Y. C., Zhang M.,... Xie S. Inference-time scaling for diffusion models beyond scaling denoising steps. arXiv. 2025. DOI: arXiv:2501.09732. https://doi.org/10.48550/arXiv.2501.09732
Sun Y., Wang X., Liu Z., Miller J., Efros A., Hardt M. Test-time training with self-supervision for generalization under distribution shifts. In International conference on machine learning. 2020. PMLR. pp. 9229-9248. DOI: https://doi.org/10.48550/arXiv.1909.13231
Wang D., Shelhamer E., Liu S., Olshausen B. A., Darrell T. Tent: Fully Test-Time Adaptation by Entropy Minimization. International Conference on Learning Representations. 2021. DOI: https://doi.org/10.48550/arXiv.2006.10726
Finn C., Abbeel P., Levine S. Model-agnostic meta-learning for fast adaptation of deep networks. In International conference on machine learning. 2017. PMLR. pp. 1126-1135. DOI: https://doi.org/10.48550/arXiv.1703.03400
Sutskever I., Vinyals O., Le Q. V. Sequence to sequence learning with neural networks. Advances in neural information processing systems. 2014. Vol. 27. DOI: https://doi.org/10.48550/arXiv.1409.3215
Jumper J. M., Evans R., Pritzel A., Green T., Figurnov M., Ronneberger O., … Hassabis D. Highly accurate protein structure prediction with AlphaFold. Nature. 2021. Vol. 596, pp. 583–589. DOI: https://doi.org/10.1038/s41586-021-03819-2
Li Y., Choi D., Chung J., Kushman N., Schrittwieser J., Leblond R.,... Vinyals O. Competition-level code generation with alphacode. Science. 2022. Vol. 378(6624), pp. 1092-1097. DOI: https://doi.org/10.1126/science.abq1158
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.




