Preview

Oriental Studies

Расширенный поиск

Сопоставительный анализ вероятностных тематических моделей китайско-русского корпуса политических текстов

https://doi.org/10.22162/2619-0990-2025-77-1-247-271

Аннотация

Введение. Статья посвящена сопоставительному анализу вероятностных тематических моделей китайско-русского корпуса параллельных и сопоставимых текстов политической тематики. Разработанный в рамках исследования корпусной ресурс включает в себя три подкорпуса: исходные тексты «Докладов о работе правительства в 2012–2022 гг.» на китайском языке, их переводы на русский язык и сопоставимый подкорпус «Послания Президента Российской Федерации Федеральному Собранию РФ 2011–2021 гг.». Цель экспериментов заключается в выявлении и описании общих тем для корпуса, а также тем, специфичных для отдельных текстов. Осуществляется лингвистическая интерпретация тем с помощью генерации меток тем большой языковой моделью YandexGPT, полученные метки тем сопоставляются с результатами экспертной разметки и выделения ключевых выражений. Эксперименты по вероятностному тематическому моделированию проводятся на основе алгоритма LDA с помощью инструмента ТМТ (Topic Modeling Tool), а для выделения ключевых выражений используется алгоритмы YAKE, mBERT и TF-IDF в библиотеке Orange. В результате были выявлены сходства и различия между словами-тематизаторами в темах подкорпусов, построено семейство вероятностных тематических моделей, описывающих семантическую организацию китайско-русского корпуса параллельных и сопоставимых текстов политической тематики. Результаты тематического моделирования были сопоставлены с данными, полученными в ходе автоматического выделения ключевых выражений, и было показано пересечение между наборами слов-тематизаторов и наборами ключевых выражений, сформированными для каждого из подкорпусов. В нашем исследовании также описывается частеречная характеристика слов-тематизаторов в темах. Обнаружено, что тематические модели воспроизводят основные парадигматические и синтагматические отношения в корпусе текстов. Новизна нашего исследования состоит в том, что в ней впервые представлены результаты автоматического построения тематических моделей для китайско-русского корпуса, что восполняет существующие пробелы в этой области.

Об авторах

Чжу Хуэй
Даляньский университет иностранных языков (д. 6, западный участок Южной дороги Люйшунь, район Луйшунькоу, 116044 Ляонин, Далянь, Китайская Народная Республика)
Китай

аспирант



Ольга Александровна Митрофанова
Санкт-Петербурский государственный университет (д. 7–9, Университетская наб., 199034 Санкт-Петербург, Российская Федерация)
Россия

кандидат филологических наук, доцент



Список литературы

1. Большакова и др. 2011 ― Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е. И., Клышинский Э. С., Ландэ Д. В., Носков А. А., Пескова О. В., Ягунова Е. В. М.: МИЭМ, 2011. 272 с.

2. Большакова и др. 2017 ― Автоматическая обработка текстов на естественном языке и анализ данных : учеб. пособие / Большакова Е. И., Воронцов К. В., Ефремова Н. Э., Клышинский Э. С., Лукашевич Н. В., Сапин А. С. М.: НИУ ВШЭ, 2017. 269 с.

3. Воронцов 2023 ― Воронцов К. В. Вероятностное тематическое моделирование: теория регуляризации ARTM и библиотека с открытым кодом BigARTM [электронный ресурс] // URL: http://www.machinelearning.ru/wiki/images/d/d5/Voron17survey-artm.pdf (дата обращения 12.04.2024).

4. Гусева, Митрофанова 2024 ― Гусева Д. Д., Митрофанова О. А. Ключевые выражения в русскоязычных научно-популярных текстах: сравнение восприятия устной и письменной речи с результатами автоматического анализа // Terra Linguistica. 2024. Т. 15. № 1. С. 20–35.

5. Дань 2015 ― Дань На. Русско-китайский параллельный корпус в теории и практике перевода // Университетские чтения – 2015: Материалы научно-методических чтений ПГЛУ, Часть 6. Пятигорск: Пятигорский государственный лингвистический университет, 2015. С. 204–208.

6. Ерофеева, Митрофанова 2019 ― Ерофеева А. Р., Митрофанова О. А. Автоматическое назначение меток тем в тематических моделях русскоязычных корпусов текстов // Структурная и прикладная лингвистика. СПб.: , 2019. С. 122–147.

7. Захаров, Богданова 2020 ― Захаров В. П., Богданова С. Ю. Корпусная лингвистика. СПб.: СПбГУ, 2020. 234 с.

8. Колпачкова 2015 ― Колпачкова Е. Н. Корпусы китайского языка: современное состояние и основные проблемы // Труды международной конференции «Корпусная лингвистика – 2015». СПб.: СПбГУ, 2015. С. 278–286.

9. Кольцов и др. 2014 ― Кольцов С. Н., Кольцова О. Ю., Митрофанова О. А., Шиморина А. С. Интерпретация семантических связей в текстах русскоязычного сегмента Живого Журнала на основе тематической модели LDA // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Мат-лы XVII Всеросс. объединенной конф. «Интернет и современное общество» IMS–2014, СПб.: СПбГУ, 2014. С. 135–142.

10. Ляшевская, Шаров 2009 ― Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка ‘на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. 1087 с.

11. Милкова 2019 ― Милкова М. А. Тематические модели как инструмент «дальнего чтения» // Цифровая экономика. № 1 ‘5). 2019. С. 57–70.

12. Митрофанова, Атугодаге 2023 ― Митрофанова О. А., Атугодаге М. М. Динамическое тематическое моделирование русскоязычного корпуса юридических документов // Terra Linguistica. 2023. Т. 14. № 1. С. 70–87.

13. Митрофанова 2016 ― Митрофанова О. А. Возможности использования параллельных и сопоставимых текстов в построении тематических моделей корпусов // Прикладная лингвистика в науке и образовании: ALPAC Report – полвека после разгрома: труды VIII Междунар. науч. конф. СПб: РГПУ им. А. И. Герцена, 2016. C. 194–199.

14. Мухин, Ян 2016 ― Мухин М. Ю., Ян И. Проект создания китайско-русского параллельного корпуса официально-деловых текстов с дискурсивно-структурной разметкой // Вестник Южно-Уральского государственного университета. Сер.: Лингвистика. 2016. Т. 13. № 4. С. 23–31.

15. Нокель, Лукашевич 2015 ― Нокель М. А., Лукашевич Н. В. Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами // Вычислительные методы и программирование. 2015. Т. 16. Вып. 2. С. 215–234.

16. ПиКЛ 2017 ― Прикладная и компьютерная лингвистика / Николаев И. С., Митренина О. В., Ландо Т. М. ‘ред.). М.: URSS, 2016. 320 с.

17. Седова, Митрофанова 2017 ― Седова А. Г., Митрофанова О. А. Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции // Компьютерная лингвистика и вычислительные онтологии: Труды ХХ Междунар. Объединенной науч. конф. «Интернет и современное общество». СПб.: ИТМО, 2017. C. 132−143.

18. Тао, Захаров 2015 ― Тао Юань., Захаров В. П. Разработка и использование параллельного корпуса русского и китайского языков // Научно-техническая информация Сер. 2: Информационные процессы и системы. 2015. № 4. С. 18–29.

19. Чжу, Захаров 2024 ― Чжу Хуэй, Захаров В. П. Корпусное сравнение языка китайских и российских политических текстов // Политическая лингвистика. 2024. № 1 ‘103). С. 115–128.

20. Чэнь, Кукушкина 2018 ― Чэнь Сяохуэй, Кукушкина О. В. О параллельных корпусах русских и китайских текстов // Вестник Московского университета. Сер. 9: Филология. 2018. №2. С. 170–197.

21. Campos et al. 2020 ― Campos R., Mangaravite V., Pasquali A., Jorge A., Nunes C., Jatowt A. YAKE! Keyword Extraction from Single Documents using Multiple Local Features // Information Sciences. № 509. Pp. 257–289. DOI: 10.1016/j.ins.2019.09.013

22. Cao 2020 ― Cao S. Y. How does discourse affect Spanish-Chinese Translation? A case study based on a Spanish-Chinese parallel corpus. In Proceedings of the First Workshop on Computational Approaches to Discourse, Рр. 1–10, Online. Association for Computational Linguistics [электронный ресурс] // URL: https://aclanthology.org/2020.codi-1.1 (дата обращения: 15.06.2024).

23. Cui, Zhang 2014 ― Cui W., Zhang L. Research on Parallel Corpus of Russian-Chinese Translation and Its Application // Journal of PLA University of Foreign Languages. 2014. № 1. Pp. 81–87. (In Chin.)

24. Dalianis et al. 2010 ― Dalianis H., Xing Hao-chun., Zhang X. Creating a Reusable English-Chinese Parallel Corpus for Bilingual Dictionary Construction // Proceedings of the Seventh International Conference on Language Resources and Evaluation ‘LREC’10), Valletta, Malta. European Language Resources Association ‘ELRA). 2010. Pp. 1700–1705.

25. Daud et al. 2010 ― Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Proceedings of Frontiers of Computer Science in China, 2010. Pp. 280−301.

26. Huang et al. 2015 ― Huang X. L., Li X., Liu T. L., Chiu D., Zhu T. S., Zhang L. Topic Model for Identifying Suicidal Ideation in Chinese Microblog. In Proceedings of the 29th Pacific Asia Conference on Language, Information and Computation. Shanghai, China, 2015. Pp. 553–562.

27. Li, Hu 2017 ― Li X.Q., Hu K.B. Keywords and Their Collocations in the English Translations of Chinese Government Work Reports // Fo­reign Language in China. 2017. № 6. Pp. 81–89. (In Chin.)

28. Liu et al. 2021 ― Liu P. F., Yuan W. Z., Fu J. L., Jiang Z.B., Hayashi H., Neubig G. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing [электронный ресурс] // URL: https://arxiv.org/abs/2107.13586 (дата обращения: 15.06.2024).

29. Liu, Shao 2016 ― Liu M., Shao Q. The Creation of a Corpus of Russian-Chinese Literary Translations--Design and Construction of a Parallel Corpus Based on Chekhov’s Novels // Foreign Language Research. 2016. № 1. Pp. 154–158. (In Chin.)

30. Mamaev, Mitrofanova 2020 ― Mamaev I. D, Mitrofanova O. A. Automatic Detection of Hidden Communities in the Texts of Russian Social Network Corpus // Artificial Intelligence and Natural Language: 9th Conference, AINL 2020, Helsinki, Finland, Proceedings. Communications in Computer and Information Science / A. Filchenkov, J. Kauttonen, L. Pivovarova ‘еds.). Vol. 1292. Springer, 2020. Pp. 17–33.

31. Manning, Schütze 2000 ― Manning Ch., Schütze H. Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA, 2000. 680 p.

32. Mimno et al. 2009 ― Mimno D., Wallach H. M., Naradowsky J., Smith D. A., McCallum A. Polylingual Topic Models // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore, 6–7 August 2009. Pp. 880–889.

33. Wu, Dredze 2020 ― Wu S. J., Dredze M. Are All Languages Created Equal in Multilingual BERT? In the Proceedings of the 5th Workshop on Representation Learning for NLP. 2020. Pp. 120–130. DOI: 10.18653/v1/2020.repl4nlp-1.16

34. Zhai et al. 2020 ― Zhai Y. M., Liu L. F., Zhong X. Y., Illouz G., Vilnat A. Building an English-Chinese Parallel Corpus Annotated with Sub-sentential Translation Techniques. In Proceedings of the Twelfth Language Resources and Evaluation Conference. Marseille, France. European Language Resources Association, 2020. Pp. 4024–4033.

35. Zhang et al. 2020 ― Zhang B. L., Nagesh A., Knight K. Parallel Corpus Filtering via Pre-trained Language Models // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, 2020. Pp. 8545–8554.

36. Mitrofanova et al. 2021 ― Mitrofanova O., Sampetova V., Mamaev I., Moskvina A., Sukharev K. Topic modelling of the Russian corpus of Pikabu posts: Author-topic distribution and topic labelling // CEUR Workshop Proceedings, 2813. 2021. Pр. 101–116.

37. Newman et al. 2009 ― Newman D., Asuncion A., Smyth P., Welling M. Distributed Algorithms for Topic Models // Journal of Machine Learning Research. Vol. 10. 2009. Pp. 1801-1828.

38. Mitrofanova et al. 2021 ― Mitrofanova O., Kriukova A., Shulginov V., & Shulginov V. E-hypertext Media Topic Model with Automatic Label Assignment // Recent Trends in Analysis of Images, Social Networks and Texts: 9th International Conference, AIST 2020, Revised Supplementary Proceedings. Communications in Computer and Information Science, vol. 1357. Springer, 2021. Pp. 102−114.

39. Sherstinova et al. 2020 ― Sherstinova T., Mitrofanova O., Skrebtsova T., Zamiraylova E., Kirina M. Topic modelling with NMF vs. expert topic annotation: the case study of Russian fiction // Advances in Computational Intelligence. 19th Mexican International Conference on Artificial Intelligence, MICAI 2020, Proceedings / L. Martínez-Villaseñor, H. Ponce, O. Herrera-Alcántara, F.A. Castro-Espinoza ‘еds.). Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). Vol. 12469. Springer, 2020. Pp. 134–151.

40. Sun et al. 2010 ― Sun J. S., Wang T. M., Li L., Wu X. Person Name Disambiguation based on Topic Model // CIPS-SIGHAN Joint Conference on Chinese Language Processing. 2010. Pp. 1–8.

41. Tian et al. 2014 ― Tian L., Derek F. Wong., Lidia S. Chao., Paulo Quaresma., Francisco Oliveira., Lu Y., Li S., Wang Y.M., Wang L. Y. UM-Corpus: A Large English-Chinese Parallel Corpus for Statistical Machine Translation // Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14). Reykjavik, Iceland. European Language Resources Association ‘ELRA), 2014. Pp. 1837–1842.

42. Vulić, Moens 2012 ― Vulić I. Moens M.-F. Detecting Highly Confident Word Translations from Comparable Corpora without Any Prior Knowledge // Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon, France, April 23–27, 2012. Pp. 449–459.

43. Wang, Qin 2009 ― Wang K. F., Qin H. W. A Parallel Corpus-based Study of General Features of Translated Chinese // Foreign Language Research. 2009. № 1. Pp. 102–105. (In Chin.)


Рецензия

Для цитирования:


Хуэй Ч., Митрофанова О.А. Сопоставительный анализ вероятностных тематических моделей китайско-русского корпуса политических текстов. Oriental Studies. 2025;18(1):247-271. https://doi.org/10.22162/2619-0990-2025-77-1-247-271

For citation:


Hui Zh., Mitrofanova O.А. Chinese-Russian Corpus of Political Texts: A Comparative Analysis of Probabilistic Topic Models. Oriental Studies. 2025;18(1):247-271. (In Russ.) https://doi.org/10.22162/2619-0990-2025-77-1-247-271

Просмотров: 40


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 License.


ISSN 2619-0990 (Print)
ISSN 2619-1008 (Online)