Preview

Oriental Studies

Advanced search

Statistics of Basic Mongolian Word Forms: a Concise Frequency Ranking Dictionary of Categorially and Semantically Structured Word Forms

https://doi.org/10.22162/2619-0990-2018-40-6-92-109

Abstract

The article contains a concise frequency ranking dictionary of Mongolian word forms ― a list representing a basic vocabulary of modern Mongolian. The General Corpus of Modern Mongolian (Rus. GKMYa) served as a source of data to calculate frequencies of respective word forms. A most distinctive feature of the dictionary is that the introduced items have been structured categorially and semantically. The latter shall contribute to resolve further typological tasks with respect to world languages, i. e., it is reckoned to secure potential typological compatibility of the dictionary with similarly structured dictionaries of other languages. The work is based on principles of quantitative Mongolistics developed by the author in a number of preceding papers. So, the article provides 454 basic modern Mongolian word forms applied within GKMYa-1a, the absolute frequency of use exceeding 255 ipm and the relative one exceeding 220 ipm respectively. The table includes: (I.) name of a word form acc. to its quasi-orthographic record. A quasi-orthographic record differs from an essentially orthographic one in that the whole of case differences (upper case / lower case) are discarded; (II.) generalized grammatem (i. e., this includes not only grammatems as such but also clusters of homographic grammatems); (III.) generalized lexeme (i. e., this includes not only lexemes as such but also clusters of homographic lexemes); (IV.) semantic marking gloss attached to a certain word form or lexeme (strictly speaking, it is attached to a member of the cluster of homographic segments coinciding with the word form’s name). This column functions as an non-formal mnemonic reminder for the user/typologist (especially one with no expertise in Mongolian) clarifying a lexical meaning of that word form; (V.) categorial-semantic marking assigned to the word form (i. e., the cluster of homographic word forms) within GKMYa; (VI.) absolute frequency of the word form (i. e., the clustered homographic word forms) within GKMYa-1a; (VII.) rank of the word form (i. e., the clustered homographic word forms); (VIII.) number of GKMYa-1a-indexed texts to contain the word form (i.e., the cluster of homographic word forms); (IX.) rank of the word form (i. e., the cluster of homographic word forms) within the frequency dictionary in decreasing order by quantity of GKMYa-1a-indexed texts. The ranking dictionary of word forms is represented in the form of a table structured acc. to decreasing values of parameter VIII (and increasing values of parameter IX respectively).

About the Author

Sergei A. Krylov
Institute of Oriental Studies of the RAS
Russian Federation
Ph.D. in Philology (Doct. of Philological Sc.), Leading Research Associate


References

1. Китайские лингвисты … — Китайские лингвисты создали корпус монгольского языка [электронный ресурс] // Синьхуа новости. 22 января 2016 г. URL: http://russian.news.cn/2016-01/22/c_135036519.htm (дата обращения: 10.10.2018). [Chinese linguists have created a Mongolian-Language Corpus. Xinhua News. 22 January 2016. An Internet resource: see hyperlink above (accessed: 10 October 2018). (In Rus.)]

2. Крылов 2004 — Крылов С. А. Теоретическая грамматика современного монгольского языка и смежные проблемы общей лингвистики. Часть 1. Морфемика, морфонология, элементы фонологической трансформаторики (в аспекте общей теории морфологических и морфонологических моделей). М.: Вост. лит., 2004. 479 с. [Krylov S. A. Teoreticheskaya grammatika sovremennogo mongol’skogo yazyka i smezhnye problemy obschey lingvistiki [Theoretical grammar of the Mongolian language and related issues of general linguistics]. Vol. 1. Morphemics, morphonology, elements of phonological transformatorics. Moscow: Vost. Lit., 2004. 479 p. (In Rus.)]

3. Крылов 2012а — Крылов С. А. The general corpus of the modern Mongolian language and its structural-probabilistic model // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог» (Бекасово, 30 мая — 3 июня 2012 г.). Вып. 11 (18). М.: Изд-во РГГУ, 2012. С. 331–341. [Krylov S. A. The general corpus of the modern Mongolian language and its structural-probabilistic model. Komp’yuternaya lingvistika i intellektual’nye tekhnologii. Conf. proc. (Bekasovo, 30 May — 3 June 2012). Is. 11 (18). Moscow: Russian State Univ. for the Humanities, 2012a. Pp. 331–341. (In Rus.)]

4. Крылов 2012б — Крылов С. А. Структурно-вероятностная модель монгольского языка на базе Генерального корпуса современного монгольского языка // Урало-алтайские исследования. 2012. №. 1(6). С. 78–105. [Krylov S. A. A structure-and-frequency model of the Mongolian language on the basis of the General Corpus of Modern Mongolian. Uralo-altayskie issledovaniya. 2012b. No. 1(6). Pp. 78–105. (In Rus.)]

5. Крылов 2013 — Крылов С. А. Опыт изучения современного монгольского языка в количественном освещении // Вопросы языкознания. 2013. № 5. С. 46–57. [Krylov S. A. Investigating modern Mongolian: a quantitative perspective. Voprosy yazykoznaniya. 2013. No. 5. Pp. 46–57. (In Rus.)]

6. Крылов 2014 — Крылов С. А. Теоретическая грамматика монгольского языка и смежные проблемы общей лингвистики: (в 6 ч.) Ч. 2. Структурно-вероятностная модель современного монгольского языка (на базе Генерального корпуса современного монгольского языка). М.: Наука, Вост. лит., 2014. 637 с. [Krylov S. A. Teoreticheskaya grammatika mongol’skogo yazyka i smezhnye problemy obschey lingvistiki [Theoretical grammar of the Mongolian language and related issues of general linguistics]. In 6 vol. Vol. 2. A structure-and-frequency model of modern Mongolian. Moscow: Vost. Lit., 2014. 637 p. (In Rus.)]

7. Крылов 2016 — Крылов С. А. О принципах синтаксического анализа в сводном корпусе монгольских языков // Гуманитарная наука Юга России: международное и региональное взаимодействие. Мат-лы II Междунар. науч. конф., посвященной 75-летию Калмыцкого института гуманитарных исследований РАН (г. Элиста, 14–15 сентяб­ря 2016 г.). Элиста: КИГИ РАН, 2016. С. 198–199. [Krylov S. A. A consolidated corpus of Mongolic languages: principles of analysis revisited. Gumanitarnaya nauka Yuga Rossii: mezhdunarodnoe i regional’noe vzaimodeystvie. Conf. proc. (Elista, 14–15 September 2016). Elista: Kalmyk Humanities Research Inst. of RAS, 2016. Pp. 198–199. (In Rus.)]

8. Крылов 2017а — Крылов С. А. Монгольские аналитические конструкции в количественном аспекте // Вестник Калмыцкого института гуманитарных исследований РАН. 2017. № 5. С. 155–179. [Krylov S. A. Mongolian analytical constructions: a quantitative perspective. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN. 2017. No. 5. Pp. 155–179. (In Rus.)]

9. Крылов 2017б — Крылов С. А. Монгольские аналитические словоформы: опыт лингвостатистического исследования // Вестник Калмыцкого института гуманитарных исследований РАН. 2017. № 6. С. 79–93. [Krylov S. A. Mongolian analytical word forms: an effort of linguo-statistical research. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN. 2017. No. 6. Pp. 79–93. (In Rus.)]

10. Крылов 2017в — Крылов С. А. Сочетаемость монгольских синтетических словоформ: количественный аспект // Вестник Калмыцкого института гуманитарных исследований РАН. 2017. № 4. С. 108–133. [Krylov S. A. Compatibility of Mongolian synthetic word forms: a quantitative aspect. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN. 2017. No. 4. Pp. 108–133. (In Rus.)]

11. Крылов 2018а — Крылов С. А. О гибридных жанрах словарей (на материале монгольского языка) // Востоковедные чтения – 2018. Лексикология и лексикография. К 200-летию ИВ РАН. Тезисы докладов межинститутской научной конференции (г. Москва, 4–6 апреля 2018). М.: ИВ РАН, 2018. С. 33–34. [Krylov S. A. Hybrid genres of dictionaries revisited (a case study of the Mongolian language). Vostokovednye chteniya 2018. Leksikologiya i leksikografiya. Conf. abs. (Moscow, 4–6 April 2018). Moscow: Inst. of Oriental Studies of RAS, 2018. Pp. 33–34. (In Rus.)]

12. Крылов 2018б — Крылов С. А. Опыт дистрибутивно-статистической классификации монгольских аналитических словоформ // Вестник Калмыцкого института гуманитарных исследований РАН. 2018. № 2 (36). С. 88–101. [Krylov S. A. Mongolian analytical word forms: an effort of distributive and statistical classification. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN. 2018. No. 2 (36). Pp. 88–101. (In Rus.)]

13. Крылов и др. 2015 — Крылов С. А., Дыбо А. В., Шеймович А. В. Some possibilities of semantic and etymological tagging of corpora for turkic languages (Некоторые возможности семантической и этимологической разметки для корпусов тюркских языков (расстановка семантических тэгов в электронном хакасско-русском словаре)) // Сб. тр. междунар. конф. TurkLang – 2015 (Turkic Languages Processing: TurkLang 2015). Казань, 2015. С. 304–327. [Krylov S. A., Dybo A. V., Sheymovich A. V. Some possibilities of semantic and etymological tagging of corpora for Turkic languages. Turkic Languages Processing: TurkLang 2015. Conf. proc. Kazan, 2015. Pp. 304–327. (In Eng..)]

14. Крылов и др. 2016 — Крылов С. А., Дыбо А. В., Шеймович А. В. Расстановка семантических и деривационных тэгов в электронном хакасско-русском словаре // Российская тюркология. 2016. № 2. С. 28–39. [Krylov S. A., Dybo A. V., Sheymovich A. V. A digital Khakass-Russian dictionary: semantic and derivative tagging. Rossiyskaya tyurkologiya. 2016. No. 2. Pp. 28–39. (In Rus.)]

15. Baɣatur et al. 1998 — Baɣatur Da., Djirumt Bu. Odu üye-yin Mongɣul kelen-ü üge-yin dabtamji-yin toil. Öber Mongɣul-un surɣan kümüjil-ün keblel-ün küriy-e. Hohhot, 1998. 1482 p. (In Mong.)

16. Dawa 2006 — Dawa I., Husal, Liu Yue, Yue Yao Ming, Uulang, Bai Shuang Cheng, Batsaihan, Arai Y., Mitsunaga M., Isahara H., Nakamura S. Multilingual Text – Speech Corpus of Mongolian. International Symposium on Chinese Spoken Language Processing (ISCSLP 2006). (Kent Ridge, Singapore, 13–16 December 2006). Vol. II. Pp. 759–770. (In Eng.). ISCA Archive. Available at: https://www.isca-speech.org/archive_open/archive_papers/iscslp2006/B74.pdf (accessed: 10 October 2018).

17. Purev и др. 2003 — Purev J., Hyun Seok Park, Altangerel Ch. Tree adjoining grammars for Mongolian. East-Asian Language, Processing and Internet Information Technology (EALPIIT 2003). Conf. proc. Ulaanbaatar, 2003. Pp. 321–323. (In Eng.)

18. Purev и др. 2005 — Purev J., Tsolmon Z., Altangerel Ch., and Cheol-Young O. PC-KIMMO-based Description of Mongolian Morphology. International Journal of Information Processing Systems. 2005. Vol. 1. No.1. Pp. 41–48. (In Eng.)

19. Purev, Altangerel — Center for Research on Language Processing (CRLP), National University of Mongolia, Mongolia [электронный ресурс] // URL: http://www.panl10n.net/center-for-research-on-language-processing-crlp-national-university-of-mongolia-mongolia/ (дата обращения: 10.10.2018). [As aforesiad. An Internet resource: see hyperlink above (accessed: 10 October 2018). (In Eng.)]

20. Purev, Odbayar 2008 — Purev J., Odbayar Ch. Corpus Building for Mongolian Language. 6th Workshop on Asian Language Resources. Proc. (11–12 January 2008, India). Hyderabad, 2008. Pp. 97–98. (In Eng.)

21. Боролзой, Пүрэвсүрэн 2009 — Боролзой Д., Пүрэвсүрэн Т. Компьютер хэл шинжлэл ба дэлхийн чиг [электронный ресурс] // URL: http://borolzoi.blogmn.net/27067/kompiyutyer-hel-shinjlel-ba-tsahim-ugiin-san-(1)-baiguulah-asuudald.html). Monday 7, December 2009 (дата обращения: 10.10.2018). [Borolzoy D., Pürevsüren T. Komp’yuter khel shinzhlel ba delkhiyn chig [Computer linguistics and world trends]. An Internet resource: see hyperlink above (accessed: 10 October 2018). (In Mong..)]


Review

For citations:


Krylov S. Statistics of Basic Mongolian Word Forms: a Concise Frequency Ranking Dictionary of Categorially and Semantically Structured Word Forms. Oriental Studies. 2018;11(6):92-109. (In Russ.) https://doi.org/10.22162/2619-0990-2018-40-6-92-109

Views: 709


ISSN 2619-0990 (Print)
ISSN 2619-1008 (Online)