МЕТОД НЕЙРОМЕРЕЖЕВОГО ФОРМУВАННЯ РЕПРЕЗЕНТАТИВНИХ НЕДИСКРИМІНАЦІЙНИХ ТЕКСТОВИХ ДАТАСЕТІВ ЗГІДНО FATE-ПРИНЦИПУ СПРАВЕДЛИВОСТІ

Автор(и)

DOI:

https://doi.org/10.35546/kntu2078-4481.2024.4.45

Ключові слова:

репрезентативність, етичні принципи, недискримінація, датасет, Цілі сталого розвитку

Анотація

У статті запропоновано метод нейромережевого формування репрезентативних недискримінаційних текстових датасетів згідно FATE-принципу справедливості. Запропонований метод акцентує увагу на створенні збалансованих датасетів, які точно відображають демографічні групи, враховуючи етичні аспекти, такі як гендер, вік, релігія та етнічність. Метод полягає в ідентифікації та коригуванні дисбалансів у датасеті шляхом розв'язання оптимізаційної задачі, що обирає дані для видалення або аугментації таким чином, щоб кінцевий датасет залишався репрезентативним і неупередженим. Для оцінки ефективності цього підходу було розроблено програмне забезпечення, яке використовує моделі машинного навчання, зокрема SVM для класифікації за віковим аспектом, LSTM для гендерної класифікації та BERT для релігійної класифікації, всі з яких показали високі статистичні результати. Результати застосування цього методу показують, що після формування датасет став більш репрезентативним з точки зору справедливості за віковим та гендерним аспектами, з мінімальними відхиленнями (від 0.00% до 0.04%) від ідеального репрезентативного розподілу. Ці результати демонструють, що запропонований метод здатний ефективно аналізувати та формувати датасети, забезпечуючи їх відповідність стандартам справедливості за різними етичними категоріями. Крім того, цей підхід сприяє досягненню Цілей сталого розвитку, зокрема Цілі № 5 (гендерна рівність), Цілі № 10 (скорочення нерівності) та Цілі № 11 (сталий розвиток міст і громад). Забезпечення того, щоб датасети відображали різноманітне і інклюзивне представлення соціальних груп, сприяє створенню етичних та справедливих систем штучного інтелекту, що допомагає зменшити упередженість та дискримінацію в процесах прийняття рішень.

Посилання

Собко О. В. Дослідження ефективності методу оцінювання та коригування репрезентативності датасету за FATE-принципом справедливості. Перспективи сучасної науки: теорія і практика: Матеріали VIII Міжнар. наук.-практ. конф., 2024. С. 217–221.

Krak I., Zalutska O., Molchanova M., Mazurets O., Bahrii R., Sobko O., Barmak O. Abusive Speech Detection Method for Ukrainian Language Used Recurrent Neural Network. CEUR Workshop Proceedings. 2024. Vol. 3688. С. 16–28.

Zalutska O., Molchanova M., Sobko O., Mazurets O., Pasichnyk O., Barmak O., Krak I. Method for sentiment analysis of Ukrainian-language reviews in e-commerce using RoBERTa neural network. CEUR Workshop Proceedings. 2023. Vol. 3387. С. 344–356.

Собко О. В. Метод інтелектуального пошуку та класифікації кіберзалякувань у текстовому контенті. Інформаційні управляючі системи та технології IУСT-OДЕСA-2024: Матеріали XII Міжнар. наук.-практ. конф. Одеса, 2024. С. 262–265.

Jungwirth D., Haluza D. Artificial intelligence and the sustainable development goals: an exploratory study in the context of the society domain. Journal of Software Engineering and Applications. 2023. Vol. 16, No. 4. С. 91–112. https://doi.org/10.4236/jsea.2023.164006.

Matsui T., Suzuki K., Ando K., Kitai Y., Haga C., Masuhara N., Kawakubo S. A natural language processing model for supporting sustainable development goals: translating semantics, visualizing nexus, and connecting stakeholders. Sustainability Science. 2022. Vol. 17, No. 3. С. 969–985. https://doi.org/10.1007/s11625-022-01093-3.

Suzuki J., Zen H., Kazawa H. Extracting representative subset from extensive text data for training pre-trained language models. Information Processing & Management. 2023. Vol. 60, No. 3. С. 103249. https://doi.org/10.1016/j.ipm.2022.103249.

Zowghi D., Bano M. AI for all: Diversity and Inclusion in AI. AI and Ethics. 2024. С. 1–4. https://doi.org/10.1007/s43681-024-00485-8.

Dablain D., Krawczyk B., Chawla N. Towards a holistic view of bias in machine learning: Bridging algorithmic fairness and imbalanced learning. arXiv preprint arXiv:2207.06084. 2022. https://doi.org/10.48550/arXiv.2207.06084.

Kaggle.com. Cyberbullying Classification. 2021. URL: https://www.kaggle.com/datasets/andrewmvd/cyberbullying-classification?resource=download (дата звернення: 24.11.2024).

Kaggle.com. CyberBullying Detection Dataset. 2024. URL: https://www.kaggle.com/datasets/sayankr007/cyberbullying-data-for-multi-label-classification (дата звернення: 24.11.2024).

##submission.downloads##

Опубліковано

2024-12-30