CONFIGURING THE STRUCTURE OF THE SERVERLESS SYSTEM FOR EFFICIENT DATA COLLECTION

Authors

DOI:

https://doi.org/10.35546/kntu2078-4481.2025.2.2.15

Keywords:

Data-collecting, Serverless Architecture, AWS, Cloud data pipelines, Environmental data

Abstract

Collecting and analyzing the vast amount of data in different formats and from different vendors was always important for modern software of all kinds. It brings us to the urge of creating a system that is flexible, scalable, and effective with capabilities such as fetching, processing, and storing this data. Modular abstraction helps in making the system generic and overcoming some limitations of data providers and vendors. Also helping to handle different formats and process high-volume workloads in parallel with a comprehensive error-handling strategy. Serverless architecture also plays a huge part in achieving desired results. The essential architectural elements are: AWS Lambda, S3, Event Bridge, SQS, and Athena. All of them are the core of building a fault-tolerant, efficient pipeline which can work with various domains, API’s and handle different regulations. Metadata-driven orchestration approach allows seamless vendor integration and support. Moreover, those methods allows the system to be more trackable, easy to test and secure, due to basic cloud solutions provided by certain cloud-provider, which is being used. Modular experimental estimation demonstrates the effectiveness of the system compared to alternative solutions that are currently widely used. It’s a new step for the collection of data from 3rd party resources as it’s also providing more versatility and configurability on top of discussed topics.This research is focused on the creation of an advanced pipeline for analyzing climate and environment-related datasets from various external providers (collection, organization, storage, transformation, analysis). The solution must be flexible and adapt to different user needs and extensions. It shouldn’t only focus on the initial state of the data collection process, but extend beyond that, to be prepared to effectively operate data with other external services. The system should be ready to handle a list of factors that may appear during the process of data collection. Such as: non-consistent data/ metadata, quotas, server downtime, dynamic schema evolution, and so on. For these reasons, it is advisable to propose a modular, event-driven, and serverless architecture that will lead to the orchestration of the entire workflow described.The system should allow the dynamic adjustments to data-fetching strategies based on relevant situation, real- time statistics and providers reliability. The architecture supports extensibility for future data sources and analytical modules, promoting long-term maintainability and adaptability. Integration with services like AWS Secrets Manager and MongoDB enhances security and centralized management of access credentials and vendor state. Furthermore, the use of Athena-based querying enables near real-time analytical capabilities over large, semi-structured datasets, supporting advanced insights generation. These design decisions contribute to a resilient, future-proof solution tailored to the needs of complex, large-scale data ecosystems.

References

Балдіні, Іоана та ін. «Безсерверні обчислення: сучасні тенденції та відкриті проблеми». Досягнення досліджень у хмарних обчисленнях (2017): 1–20. https://doi.org/10.1007/978-981-10-5026-8_1

Спіллнер, Йозеф та ін. «FaaSdom: набір еталонів для безсерверних обчислень». Міжнародна конференція IEEE/ACM з комунальних послуг та хмарних обчислень (UCC) 2019 року. IEEE, 2019. https://doi.org/10.1109/UCC48980.2019.00015

Йонас, Ерік та ін. «Спрощене хмарне програмування: погляд Берклі на безсерверні обчислення». Препринт arXiv arXiv:1902.03383 (2019). https://doi.org/10.48550/arXiv.1902.03383

Ван, Лей та ін. «Зазирнувши за лаштунки безсерверних платформ». Матеріали щорічної технічної конференції USENIX 2018 року (USENIX ATC 18). 2018. https://doi.org/10.5555/3291168.3291184

Ройтер, Крістіан та ін. «Підхід на основі шаблонів до стійкості до помилок API для хмарних систем». Матеріали Міжнародної конференції IEEE з хмарної інженерії (IC2E) 2020 року. IEEE, 2020. https://doi.org/10.1109/IC2E48795.2020.00011

Ван Ейк, Елко та ін. «Еталонна архітектура SPEC-RG для FaaS: від мікросервісів та контейнерів до безсерверних платформ». IEEE Internet Computing, т. 23, № 6, 2019, с. 7–18. https://doi.org/10.1109/MIC.2019.2952061

Річардсон, Кріс. Шаблони мікросервісів: з прикладами на Java. Manning Publications, 2018. https://doi.org/10.1007/978-1-4842-5574-3_3

Медель, Віктор та ін. «Підтримка проміжного програмного забезпечення для контекстно-залежних застосунків з компонентами повторного використання». Journal of Systems and Software 134 (2017): 181–197. https://doi.org/10.1016/j.jss.2017.08.009

Резенде, Педро та ін. «Відмовостійка архітектура для API на основі REST». Future Generation Computer Systems 108 (2020): 422–435. https://doi.org/10.1016/j.future.2020.03.005

Спіллнер, Йорг та Мірко Вестерхайде «Безсерверна обробка даних за допомогою AWS Lambda та Apache Spark». Journal of Cloud Computing, т. 9, № 1, 2020, с. 1–14. https://doi.org/10.1186/s13677-020-00172-0

Балдіні, Іоана та ін. «Безсерверні обчислення: сучасні тенденції та відкриті проблеми». Research Advances in Cloud Computing, під редакцією Раджкумара Буйї та ін., Springer, 2017, с. 1–20. https://doi.org/ 10.1007/978-981-10-5026-8_2

Ранівала, Хемант та ін. «Розробка економічно ефективних та масштабованих безсерверних застосунків». Міжнародна конференція IEEE з хмарної інженерії (IC2E) 2021 року, 2021, с. 95–102. https://doi.org/10.1109/ IC2E52221.2021.00028.

Лю, Ян та ін. «Розуміння безсерверних обчислень: погляд з розподілених систем». ACM SIGOPS Operating Systems Review, т. 53, № 1, 2020, с. 35–41.

Ішакян, Ватче, Вінод Мутхусамі та Александер Сломінський. «Обслуговування моделей глибокого навчання на безсерверній платформі». Міжнародна конференція IEEE з хмарної інженерії (IC2E) 2018 р., 2018, с. 257–262. https://doi.org/10.1109/IC2E.2018.00039

Гулісано, Вінченцо та ін. «StreamCloud: еластична та масштабована система потокової передачі даних». IEEE Transactions on Parallel and Distributed Systems, т. 23, № 12, 2012, с. 2351–2365. https://doi.org/10.1109/TPDS.2012.21

Тірумуруганатан, Судіпа Рой та ін. «Курування даних за допомогою глибокого навчання: опитування». Праці фонду VLDB, т. 14, № 12, 2021, с. 3190–3202. https://doi.org/10.14778/3476311.3476381

Анантхакрішна, Рамеш та ін. «Усунення нечітких дублікатів у сховищах даних». Матеріали 28-ї Міжнародної конференції з дуже великих баз даних (VLDB), 2002, с. 586–597. https://doi.org/10.14778/645806.669434.

Downloads

Published

2025-06-05