Возможности нейросети для поиска когнатов для установления новых этимологий и источников заимствований в шира-югурском языке
https://doi.org/10.22162/2619-0990-2025-79-3-720-737
Аннотация
Введение. Данная работа посвящена описанию результатов работы нейросети нейросети для поиска когнатов для установления новых этимологий и источников заимствований на материале шира-югурского языка. Материалы и методы. В исследовании приводится обзор существующих нейросетевых моделей и результатов их работы, дается характеристика словарей широ-югурского языка. Материалом для установления этимологий для широ-югурского языка выступили словари на монгольских языках, которые загружены на платформу LingvoDoc. В работе применялись сравнительно-исторический метод, а также функционал платформы, позволивший установить когнаты для ряда шира-югурских слов и провести реконструкцию формы прамонгольского языка. Результаты. В статье описаны принципы работы нейросети, в которой реализуется сиамская нейронная сеть, состоящая из двух идентичных ветвей. Удалось установить 40 реконструкций прамонгольских слов, которые были ранее известны только для северо-монгольских языков. Кроме того, в работе приводится 11 примеров ранних китайских заимствований в шира-югурский язык, так как таковые имеются в других монгольских языках. Интересно отметить реконструкцию для прамонгольского ряда слов, которые относятся к материальной культуре: *(h)iliɣür ‘утюг’, *kükür ‘сера’, *jaŋ- ʽцементʼ, *kas ʽяшма, нефритʼ, *kuruɣub- ʽнаперстокʼ. Дополнение существующих этимологий данными по шира-югурскому языку, в ряде случаев и по словарям других монгольских языков, доступных на LingvoDoc (письменно-монгольскому, монгольскому, бурятскому, ойратскому, дагурскому, дунсянскому, баоаньскому), а также проверка реконструированных слов по китайским словарям на предмет заимствования дают возможность углубить наши знания об истории культуры монголов и уточнить источник появления тех или иных изобретений.
Об авторах
Юлия Викторовна НорманскаяРоссия
доктор филологических наук, главный научный сотрудник, ведущий научный сотрудник
Оксана Владимировна Гончарова
Россия
кандидат филологических наук, доцент
Виктория Васильевна Куканова
Россия
кандидат филологических наук, старший научный сотрудник, директор
Заяна Игоревна Чушкаева
Россия
младший научный сотрудник
Список литературы
1. Alreshidi, Aldhlan 2017 — Alreshidi H., Aldhlan K. Auto-Extracting Method of Cognates Words in Arabic and English Languages // International journal of advanced studies in Computer Science and Engineering (IJASCSE). 2017. Vol. 6(1). Pp. 1–13.
2. Batsuren et al. 2022 — Batsuren Kh., Bella G., Giunchiglia F. A large and evolving cognate database // Language Resources and Evalution. 2022. Vol. 56. Pp. 1–25.
3. Ciobanu, Dinu 2014 — Ciobanu A. M., Dinu A. M. Building a Dataset of Multilingual Cognates for the Romanian Lexicon // Proceedings of the Ninth International Conference on Language Resources and Evaluation LREC. Reykjavik, 2014. Pp. 1038–1043.
4. Dongbu Yuguryu huayu cailiao 1988 — Dongbu Yuguryu huayu cailiao [= Материалы по шира-югурскому языку: тексты] / Jia Lasen, Bao Chaolu (ed.). (Hohhot: Inner Mongolia People’s Publishing House, 1988. 352 р.
5. Dyen et al. 1992 — Dyen I., Kruskal J. B., Black P. An Indo-European classification:
6. A lexicostatistical experiment // Transactions of the American Philosophical Society. 1992. Vol. 82(5). Pp. 1–132.
7. EDAL 2003 — Starostin S. A., Dybo A. V., Mudrak O. A. An Etymological Dictionary of Altaic Languages. Leiden: Brill, 2003. 1556 p. (In Eng.)
8. Fawcett 2006 — Fawcett T. An introduction to ROC analysis // Pattern Recognition Letters. 2006. Vol. 27(8). Pp. 861–874.
9. Fourrier, Sagot 2022 — Fourrier C., Sagot B. Probing Multilingual Cognate Prediction Models // Findings of the Association for Computational Linguistics: ACL 2022. Dublin: Association for Computational Linguistics, 2022. Pp. 3786–3801.
10. Kanojia et al. 2020 — Kanojia D., Bhattacharyya P., Kulkarni M., Haffari G. Challenge Dataset of Cognates and False Friend Pairs from Indian Languages // Proceedings of the Twelfth Language Resources and Evaluation Conference. Marseille: European Language Resources Association 2020. Pp. 3096–3102.
11. Kotwicz 1939 — Kotwicz W. L. La langue mongole, parlée par les Ouïgours Jaunes près de Kan-tcheou. D’après le s materiaux recueillis pars S. E. Malov et autres voyageursю Wilno, 1939. Pp. 91–102.
12. Lessing 1960 — Lessing F. D. Mongolian-English Dictionary. Berkeley; Los Angeles: University of California Press, 1960. xv + 1086 р.
13. Loshchilov, Hutter 2019 — Loshchilov I., Hutter F. Decoupled Weight Decay Regularization [электронный ресурс] // ICLR 2019. URL: https://arxiv.org/abs/1711.05101 (дата обращения: 25.08.2025).
14. Mitkov et al. 2007 — Mitkov R., Pekar V., Blagoev D., Mulloni A. Methods for extracting and classifying pairs of cognates and false friends // Machine Translation. 2007. Vol. 21(1). Pp. 29–53.
15. Nugteren 2011 — Nugteren H. Mongolic Phonology and the Qinghai-Gansu Languages. Utrecht: LOT, 2011. 563 p. (In Eng.)
16. Pulini, List 2024 — Pulini M., List J.-M. Finding language-internal cognates in Old Chinese // Bulletin of Chinese Linguistics 2024. Vol. 17(1). Pp. 53–72.
17. Rama 2016а — Rama T. Siamese Convolutional Networks for Cognate Identification // Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. Osaka: The COLING 2016 Organizing Committee, 2016. Pp. 1018–11027.
18. Rama 2016б — Rama T. Siamese Convolutional Networks for Cognate Identification // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin: Association for Computational Linguistics, 2016. Pp. 123–132.
19. Róna-Tas 1962 — Róna-Tas A. Tibetan loanwords in Shera Yögur language // Acta Orientalia Hungarica 15. 1962. Pp. 259–271.
20. Rybatzki 2006 — Rybatzki V. Die Personennamen und Titel im Mittelmongolischen Dokumente. Eine lexikalische Untersuchung. Helsinki: Yliopistopaino Oy, 2006. 841 р.
21. Schuster, Paliwal 1997 — Schuster M., Paliwal K. K. Bidirectional recurrent neural networks // IEEE Transactions on Signal Processing. 1997. Vol. 45(11). Pp. 2673–2681.
22. Sun 1990 — Sun Zhu 孙竹 (ed.) Menggu yuzu yuyan cidian 蒙古语族语言词典 [= Dictionary of the languages of the Mongolic language family]. Xining: Qinghai renmin chubanshe, 1990. 844 р.
23. Tompson et al. 2015 — Tompson J., Jain A., LeCun Y., Bregler C. Efficient Object Localization [электронный ресурс] // Using Convolutional Networks. Proceedings of CVPR. URL: https://arxiv.org/pdf/1411.4280 (дата обращения: 25.08.2025).
24. Vaswani et al. 2017 — Vaswani A., Shazeer N., Parmar N. Attention Is All You Need [электронный ресурс] // Advances in Neural Information Processing Systems 30. 2017. URL: https://arxiv.org/pdf/1706.03762 (дата обращения: 25.08.2025).
25. Wichmann, Holman 2013 — Wichmann S., Holman E. W. Languages with longer words have more lexical change // Approaches to Measuring Linguistic Differences. Berlin, Boston: De Gruyter Mouton, 2013. Рp. 249–281.
26. Zhaonasitu 1981 — Zhaonasitu. 东部裕固语简志 (= Введение в шира-югурский язык). Beijing: Minzu Chu-banshe, 1981. 122 p.
27. Zhaonasitu 1982 —Zhaonasitu 照那斯图. Dongbu yuguyu cihui 东部裕固语词汇 [= Лексика шира-югурского языка] Hohhot: Neimenggu daxue menggu yuwen yanjiusuo, 1982. 129 p.
28. БАМРС 2001а — Большой академический монгольско-русский словарь в 4-х томах / под общ. ред. А Лувсандэндэва и Ц. Цэдэндамбы. Т. 1: А–Г. М.: ACADEMIA, 2001. 520 с.
29. БАМРС 2001б — Большой академический монгольско-русский словарь в 4-х томах / под общ. ред. А Лувсандэндэва и Ц. Цэдэндамбы. Т. 2: Д–О. М.: ACADEMIA, 2001. 536 с.
30. БАМРС 2001в — Большой академический монгольско-русский словарь в 4-х томах / под общ. ред. А Лувсандэндэва и Ц. Цэдэндамбы. Т. 3: Ө–Ф. М.: ACADEMIA, 2001. 440 с.
31. БАМРС 2002 — Большой академический монгольско-русский словарь в 4-х томах / под общ. ред. А Лувсандэндэва и Ц. Цэдэндамбы. Т. 4: Х–Я. М.: ACADEMIA, 2002. 532 с.
32. БАРС 2006 — Большой азербайджанско-русский словарь. В 4-х тт. Т. 2. Баку: Șәrq-Qәrb, 2006. 848 с.
33. БКС 1983 — Баргутско-китайский словарь. Хух-Хото Издательство Университета Внутренней Монголии, 1983. 226 с.
34. БКС 1986 — Словарь баоаньского, письменного монгольского, китайского языков. Хух-Хото: Тип. Внутренней Монголии, 1986. 265 с.
35. БРС 2010а — Бурятско-русский словарь: в 2-х т. / сост. Л. Д. Шагдаров, К. М. Черемисов. Т. I: А–Н. Улан-Удэ: Республиканская типография, 2010. 636 с.
36. БРС 2010б — Бурятско-русский словарь: в 2-х т. / сост. Л. Д. Шагдаров, К. М. Черемисов. Т. II: О–Я. Улан-Удэ: Республиканская типография, 2010. 708 с.
37. Грунтов, Мазо 2015 — Грунтов. И. А., Мазо О. М. Классификация монгольских языков по лексикостатистическим данным // Journal of Language Relationship. 2015. № 13(3–4). С. 205–255.
38. ДКС 2012 — Дунсянско-китайский словарь / 2-е изд. Ланьчжоу: Изд. дом национальностей Ганьсу, 2012. 548 с.
39. ДТС 1969 — Древнетюркский словарь / В. М. Наделяев, Д. М. Насилов, Э. Р. Тенишев, А. М. Щербак. Л.: Наука, 1969. 715 с.
40. КДРС 2014 — Краткий дагурско-русский словарь / сост. Г. Тумурдэй, Б. Д. Цыбенов; отв. ред. Ж. Б. Бадагаров. Улан-Удэ: БНЦ СО РАН, 2014. 236 с.
41. КирРС 1985 — Киргизско-русский словарь / сост. К. К. Юдахин. В 2-х тт. Т. 1. Фрунзе: Главная ред. Киргизской советской энциклопедии, 1985. 503 с.
42. КРС 1977 — Калмыцко-русский словарь / отв. ред. Б Д. Муниев. М.: Русский язык, 1977. 768 с.
43. КРС 1990 — Китайско-русский словарь. Пекин: Шанъу иньшугуань, 1990. 1250 с.
44. Малов 1957 — Малов С. Е. Язык желтых уйгуров. Алма-Ата: АН КазССР, 1957. 197 с.
45. Потанин 1893а — Потанин Г. Н. Тангутско-тибетская окраина Китая и Центральная Монголия: Путешествие Г. Н. Потанина: 1884–1886. В 2-х тт. Т. 1. СПб: Имп. Рус. геогр. общ-во, 1893. 358 с.
46. Потанин 1893б — Потанин Г. Н. Тангутско-тибетская окраина Китая и Центральная Монголия: Путешествие Г. Н. Потанина: 1884–1886. В 2-х тт. Т. 2. СПб: Имп. Рус. геогр. общ-во, 1893. 472 с.
47. Санжеев и др. 2015 — Этимологический словарь монгольских языков. В 3-х тт. / отв. ред. Г. Д. Санжеев, ред.-сост. Л. Р. Концевич, В. И. Рассадин, Я. Д. Леман. Т. I: A–E. М.: ИВ РАН, 2015. 224 с.
48. Санжеев и др. 2016 — Этимологический словарь монгольских языков. В 3-х тт. / отв. ред. Г. Д. Санжеев, ред.-сост. Л. Р. Концевич, В. И. Рассадин, Я. Д. Леман. Т. II: G–P. М.: ИВ РАН, 2016. 232 с.
49. Санжеев и др. 2018 — Этимологический словарь монгольских языков. В 3-х тт. / отв. ред. Г. Д. Санжеев, ред.-сост. Л. Р. Концевич, В. И. Рассадин, Я. Д. Леман. Т. III: Q–Z. М.: ИВ РАН, 2018. 240 с.
50. Тенишев, Тодаева 1966 — Тенишев Э. Р., Тодаева Б. Х. Язык жёлтых уйгуров. М: Наука, 1966. 84 с.
51. Тодаева 1964 — Тодаева Б. Х. Баоаньский язык. М.: Наука, 1964. 158 с.
52. Тодаева 1973 — Тодаева Б. Х. Монгорский язык. Исследование, тексты, словарь. М.: ГРВЛ, Наука, 1973. 392 с.
53. Тодаева 1986 — Тодаева Б. Х. Дагурский язык. М.: Наука, ГРВЛ, 1986. 190 с.
54. Тодаева 2001 — Тодаева Б. Х. Словарь языка ойратов Синьцзяна (по версиям песен «Джангар» и полевым записям автора). Элиста: Калм. кн. изд-во, 2001. 497 с.
55. ТРС 2004 — Татарско-русский словарь / под ред. проф. Ф. А. Ганиева. Казань: Татар. кн. изд-во, 2004. 488 с.
56. ШЮПМКС 1984 — Шира-югурский письменно-монгольско-китайский словарь. Hohhot: Inner Mongolian University, 1984. 180 с.
Рецензия
Для цитирования:
Норманская Ю.В., Гончарова О.В., Куканова В.В., Чушкаева З.И. Возможности нейросети для поиска когнатов для установления новых этимологий и источников заимствований в шира-югурском языке. Oriental Studies. 2025;18(3):720-737. https://doi.org/10.22162/2619-0990-2025-79-3-720-737
For citation:
Normanskaya J., Goncharova O., Kukanova V., Chushkaeva Z. Cognate Identification Neural Network and Its Capabilities to Establish New Etymologies and Borrowing Sources in Eastern Yugur. Oriental Studies. 2025;18(3):720-737. (In Russ.) https://doi.org/10.22162/2619-0990-2025-79-3-720-737
Контент доступен под лицензией Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 License.






































