ОЦІНКА ТОЧНОСТІ ВИДІЛЕННЯ КОНЦЕПТІВ І ПОНЯТЬ НА ОСНОВІ МІР АСОЦІАЦІЇ
DOI:
https://doi.org/10.32782/KNTU2618-0340/2020.3.2-2.7Ключові слова:
виділення понять та концептів; колокації; міри асоціації; класифікація; функція логарифмічної правдоподібності; метод KDEАнотація
В роботі наведено результати оцінки якості двійкової класифікації пар слів (біграм) на підставі різних мір асоціації, в ході якої виконувався поділ біграм на класи «концепти і поняття» та «інші біграми». Показано, що звичайне ранжування об’єктів на підставі значень мір асоціації, з подальшим застосуванням порогової фільтрації (або відбором фіксованої кількості перших елементів сортованого списку), дозволяє отримати лише деяку вершину рейтингу, але не дозволяє досягти ефективного вирішення задачі класифікації. Запропонований авторами підхід заснований на пороговій фільтрації не значень міри асоціації, але ймовірності приналежності біграми класу «концепти і поняття» при заданому значенні міри асоціації. Вказана ймовірність розраховується на підставі значень функцій густини ймовірності (ФГЙ), що відповідають розподілам міри асоціації як випадкової величини в обох класах. Побудову емпіричних ФГЙ виконано шляхом аналізу розміченої навчальної вибірки. Визначення порогового значення ймовірності зведено до вирішення одновимірної задачі оптимізації, в ході якої максимізується відношення кількості об’єктів, ідентифікованих як «концепти і поняття», до кількості об’єктів, віднесених до класу «інші біграми». Визначення характеру статистичного розподілу більшості розглянутих мір асоціації викликає труднощі (відхилення нульової гіпотези для основних відомих розподілів за результатами
Посилання
Баранов В. А. Опыт создания модуля n-грамм системы «Манускрипт» и оценки эффективности его использования для поиска коллокаций в корпусе М. В. Ломоносова. Интеллектуальные системы в производстве. 2016. №4. С. 124–131.
Большакова Е. И., Клышинский Э. С., Ландэ Д. В. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. М.: МИЭМ, 2011. 272 с.
Lyse G. I., Andersen G. Collocations and statistical analysis of n-grams: Multiword expressions in newspaper text. Exploring Newspaper Language. Amsterdam, New York: John Benjamins, 2012. P. 79–109.
Виноградова Н. В., Иванов В. К. Современные методы автоматизированного извлечения ключевых слов из текста. Информационные ресурсы России. 2016. №4. С. 13–18.
Lossio-Ventura J. A., Jonquet C., Roche M. et al. Combining C-value and Keyword Extraction Methods for Biomedical Terms Extraction. Proceedings of the LBM: Languages in Biology and Medicine: 5th International Symposium, (Japan, Tokyo, December 12-13, 2013). Tokyo, 2013, pp. 1–6.
Evert S., Krenn B. Using Small Random Samples for the Manual Evaluation of Statistical Association Measures. Computer Speech & Language. 2005. Vol. 19. P. 450–466.
Wei C.-H., Allot A., Leaman R. & Lu Z. PubTator central: Automated Concept Annotation for Biomedical Full Text Articles. Nucleic Acids Research. 2019. Vol. 47. P. 587–593.
Gehrmann S., Derenoncourt F., Li Y. et al. Comparing Deep Learning and Concept Extraction Based Methods for Patient Phenotyping from Clinical Narratives. PLoSOne. 2018. Vol. 13. Issue 2. P. 1–19. 9. Ванюшкин А. С., Гращенко Л. А. Методы и алгоритмы извлечения ключевых
слов. Новые информационные технологии в автоматизированных системах. 2016. №.19. С. 85–93.
Мозжерина Е. С. Автоматическое построение онтологии по коллекции текстовых документов. Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды 13-й Всероссийской научной конференции. (Россия, Воронеж, 19-22 октября 2011 г.) Воронеж: Издательство Воронежского государственного университета, 2011. C. 293–298.
Christopher D. M., Hinrich S. Foundations of Statistical Natural Language Processing. Cambridge, Mass.: MIT Press, 1999. P. 178–183.
Thanopoulos A., Fakotakis N., Kokkinakis G. Comparative Evaluation of Collocation Extraction Metrics. Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02). (Canary Islands – Spain, Las Palmas, May, 2002). Luxembourg: European Language Resources Association (ELRA), 2002. P. 620–625.
Kolesnikova O. Survey of Word Co-occurrence Measures for Collocation Detection. Computacion y Sistemas. 2016. Vol. 20. № 3. P. 327–344. DOI: 10.13053/CyS-20-3-2456.
Hoang H. H., Kim S. N., Kan M.-Y. A Re-examination of Lexical Association Measures. Proceedings of the Identification, Interpretation, Disambiguation and Applications: Workshop on Multiword Expressions (MWE 2009). (Singapore, Singapore, August, 2009). Stroudsburg: Association for Computational Linguistics, 2009. P. 31–39.
Pazienza M. T., Pennacchiotti M., Zanzotto F. B. Terminology extraction: an analysis of linguistic and statistical approaches. Studies in Fuzziness and Soft Computing. 2006. Vol. 185. P. 255–279.
Bouma G. Normalized (Pointwise) Mutual Information in Collocation Extraction. Proceedings of the Biennial GSCL Conference. 2009. P. 1–11.
Calculate Pointwise Mutual Information (PMI)/ URL: https://polmine.github.io/ polmineR/reference/pmi.html.
Mikolov T., Sutskever I., Chen K. et al. Distributed Representations of Words and Phrases and their Compositionality. Proceedings of the Neural Information Processing Systems 2013: conference. (USA, Lake Tahoe, 2013). In Advances in Neural Information Processing Systems. 2013. 9 p.
Когай В. Н., Пак В. С. Алгоритмическая модель компьютерной системы выделения ключевых слов из текста на базе онтологий. Проблемы современной науки и образования. 2016. № 16(58). С. 33–40.
Damani O. Improving Pointwise Mutual Information (PMI) by Incorporating Significant Co-occurrence. Proceedings of the Seventeenth Conference on Computational Natural Language Learning. (Bulgaria, Sofia, August 8-9, 2013). Madison: Omnipress, 2013. P. 20–28.
Андреев И. А., Башаев В. А., Клейн В. В. и др. Комбинирование статистического и лингвистического методов для извлечения двухсловных терминов из текста. Автоматизация процессов управления. 2013. № 4. С. 61–70.
SMART Information Retrieval System. URL: https://en.wikipedia.org/wiki/ SMART_Information_Retrieval_System.
Поршнев С. В., Копосов А. С. Использование аппроксимации РозенблаттаПарзена для восстановления функции распределениянепрерывной случайной величины с ограниченным одномодальным законом распределения. Научный журнал КубГАУ. 2013. № 92. С. 1–14.