Статистика базовых словоформ монгольского языка: краткий ранговый частотный словарь словоформ с категориально-семантической разметкой
https://doi.org/10.22162/2619-0990-2018-40-6-92-109
Аннотация
В статье приводится краткий ранговый частотный словарь словоформ монгольского языка ― список, содержащий базовую лексику современного монгольского языка. Подсчёт частотности словоформ вёлся на материале Генерального корпуса современного монгольского языка (ГКМЯ). Наиболее оригинальной особенностью данного словаря является наличие в нём особой категориально-семантической разметки. Такая разметка ориентирована на задачи семантической типологии языков мира. Она рассчитана на потенциальную типологическую сопоставимость данного словаря с аналогично построенными словарями других языков мира.
Настоящая работа опирается на принципы квантитативной монголистики, освещенные в предыдущих работах автора. В статье приводятся базовые 454 словоформы современного монгольского языка, употребительные в ГКМЯ-1а: абсолютная частотность в ГКМЯ превышает 255, а относительная ― соответственно 220 ipm.
Таблица состоит из: (I.) Имя словоформы в квази-орфографической записи. Квази-орфографическая запись отличается от собственно орфографической снятием всех различий по регистру (заглавности/строчности); (II.) Обобщённая грамматема (т. е. сюда включаются не только собственно грамматемы, но и пучки омографических грамматем); (III.) Обобщённая лексема (т. е. сюда включаются не только собственно лексемы, но и пучки омографических лексем); (IV.) Семантическая помета-глосса, приписанную соответствующей словоформе или лексеме (строго говоря, она приписана одному из членов пучка омографических сегментов, совпадающего с именем словоформы). Этот столбец имеет функцию неформального мнемонического напоминания пользователю-типологу (особенно не знакомому с монгольским языком), какое лексическое значение имеет данная словоформа; (V.) Категориально-семантическая помета, приписываемая данной словоформе (точнее говоря, пучку омографических словоформ) в ГКМЯ; (VI.) Абсолютная частотность словоформы (точнее говоря, пучка омографических словоформ) в ГКМЯ-1а; (VII.) Ранг словоформы (точнее говоря, пучка омографических словоформ) в ГКМЯ-1а; (VIII.) Количество текстов из ГКМЯ-1а, в которых данная словоформа (точнее говоря, пучок омографических словоформ) встречается; (IX.) Ранг словоформы (точнее говоря, пучка омографических словоформ) в частотном словаре, упорядоченном по убыванию количества текстов из ГКМЯ-1а. Ранговый словарь словоформ представлен в виде таблицы, упорядоченной по убыванию параметра VIII (и по возрастанию параметра IX).
Об авторе
Сергей Александрович КрыловРоссия
доктор филологических наук, ведущий научный сотрудник
Список литературы
1. Китайские лингвисты … — Китайские лингвисты создали корпус монгольского языка [электронный ресурс] // Синьхуа новости. 22 января 2016 г. URL: http://russian.news.cn/2016-01/22/c_135036519.htm (дата обращения: 10.10.2018). [Chinese linguists have created a Mongolian-Language Corpus. Xinhua News. 22 January 2016. An Internet resource: see hyperlink above (accessed: 10 October 2018). (In Rus.)]
2. Крылов 2004 — Крылов С. А. Теоретическая грамматика современного монгольского языка и смежные проблемы общей лингвистики. Часть 1. Морфемика, морфонология, элементы фонологической трансформаторики (в аспекте общей теории морфологических и морфонологических моделей). М.: Вост. лит., 2004. 479 с. [Krylov S. A. Teoreticheskaya grammatika sovremennogo mongol’skogo yazyka i smezhnye problemy obschey lingvistiki [Theoretical grammar of the Mongolian language and related issues of general linguistics]. Vol. 1. Morphemics, morphonology, elements of phonological transformatorics. Moscow: Vost. Lit., 2004. 479 p. (In Rus.)]
3. Крылов 2012а — Крылов С. А. The general corpus of the modern Mongolian language and its structural-probabilistic model // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог» (Бекасово, 30 мая — 3 июня 2012 г.). Вып. 11 (18). М.: Изд-во РГГУ, 2012. С. 331–341. [Krylov S. A. The general corpus of the modern Mongolian language and its structural-probabilistic model. Komp’yuternaya lingvistika i intellektual’nye tekhnologii. Conf. proc. (Bekasovo, 30 May — 3 June 2012). Is. 11 (18). Moscow: Russian State Univ. for the Humanities, 2012a. Pp. 331–341. (In Rus.)]
4. Крылов 2012б — Крылов С. А. Структурно-вероятностная модель монгольского языка на базе Генерального корпуса современного монгольского языка // Урало-алтайские исследования. 2012. №. 1(6). С. 78–105. [Krylov S. A. A structure-and-frequency model of the Mongolian language on the basis of the General Corpus of Modern Mongolian. Uralo-altayskie issledovaniya. 2012b. No. 1(6). Pp. 78–105. (In Rus.)]
5. Крылов 2013 — Крылов С. А. Опыт изучения современного монгольского языка в количественном освещении // Вопросы языкознания. 2013. № 5. С. 46–57. [Krylov S. A. Investigating modern Mongolian: a quantitative perspective. Voprosy yazykoznaniya. 2013. No. 5. Pp. 46–57. (In Rus.)]
6. Крылов 2014 — Крылов С. А. Теоретическая грамматика монгольского языка и смежные проблемы общей лингвистики: (в 6 ч.) Ч. 2. Структурно-вероятностная модель современного монгольского языка (на базе Генерального корпуса современного монгольского языка). М.: Наука, Вост. лит., 2014. 637 с. [Krylov S. A. Teoreticheskaya grammatika mongol’skogo yazyka i smezhnye problemy obschey lingvistiki [Theoretical grammar of the Mongolian language and related issues of general linguistics]. In 6 vol. Vol. 2. A structure-and-frequency model of modern Mongolian. Moscow: Vost. Lit., 2014. 637 p. (In Rus.)]
7. Крылов 2016 — Крылов С. А. О принципах синтаксического анализа в сводном корпусе монгольских языков // Гуманитарная наука Юга России: международное и региональное взаимодействие. Мат-лы II Междунар. науч. конф., посвященной 75-летию Калмыцкого института гуманитарных исследований РАН (г. Элиста, 14–15 сентября 2016 г.). Элиста: КИГИ РАН, 2016. С. 198–199. [Krylov S. A. A consolidated corpus of Mongolic languages: principles of analysis revisited. Gumanitarnaya nauka Yuga Rossii: mezhdunarodnoe i regional’noe vzaimodeystvie. Conf. proc. (Elista, 14–15 September 2016). Elista: Kalmyk Humanities Research Inst. of RAS, 2016. Pp. 198–199. (In Rus.)]
8. Крылов 2017а — Крылов С. А. Монгольские аналитические конструкции в количественном аспекте // Вестник Калмыцкого института гуманитарных исследований РАН. 2017. № 5. С. 155–179. [Krylov S. A. Mongolian analytical constructions: a quantitative perspective. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN. 2017. No. 5. Pp. 155–179. (In Rus.)]
9. Крылов 2017б — Крылов С. А. Монгольские аналитические словоформы: опыт лингвостатистического исследования // Вестник Калмыцкого института гуманитарных исследований РАН. 2017. № 6. С. 79–93. [Krylov S. A. Mongolian analytical word forms: an effort of linguo-statistical research. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN. 2017. No. 6. Pp. 79–93. (In Rus.)]
10. Крылов 2017в — Крылов С. А. Сочетаемость монгольских синтетических словоформ: количественный аспект // Вестник Калмыцкого института гуманитарных исследований РАН. 2017. № 4. С. 108–133. [Krylov S. A. Compatibility of Mongolian synthetic word forms: a quantitative aspect. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN. 2017. No. 4. Pp. 108–133. (In Rus.)]
11. Крылов 2018а — Крылов С. А. О гибридных жанрах словарей (на материале монгольского языка) // Востоковедные чтения – 2018. Лексикология и лексикография. К 200-летию ИВ РАН. Тезисы докладов межинститутской научной конференции (г. Москва, 4–6 апреля 2018). М.: ИВ РАН, 2018. С. 33–34. [Krylov S. A. Hybrid genres of dictionaries revisited (a case study of the Mongolian language). Vostokovednye chteniya 2018. Leksikologiya i leksikografiya. Conf. abs. (Moscow, 4–6 April 2018). Moscow: Inst. of Oriental Studies of RAS, 2018. Pp. 33–34. (In Rus.)]
12. Крылов 2018б — Крылов С. А. Опыт дистрибутивно-статистической классификации монгольских аналитических словоформ // Вестник Калмыцкого института гуманитарных исследований РАН. 2018. № 2 (36). С. 88–101. [Krylov S. A. Mongolian analytical word forms: an effort of distributive and statistical classification. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN. 2018. No. 2 (36). Pp. 88–101. (In Rus.)]
13. Крылов и др. 2015 — Крылов С. А., Дыбо А. В., Шеймович А. В. Some possibilities of semantic and etymological tagging of corpora for turkic languages (Некоторые возможности семантической и этимологической разметки для корпусов тюркских языков (расстановка семантических тэгов в электронном хакасско-русском словаре)) // Сб. тр. междунар. конф. TurkLang – 2015 (Turkic Languages Processing: TurkLang 2015). Казань, 2015. С. 304–327. [Krylov S. A., Dybo A. V., Sheymovich A. V. Some possibilities of semantic and etymological tagging of corpora for Turkic languages. Turkic Languages Processing: TurkLang 2015. Conf. proc. Kazan, 2015. Pp. 304–327. (In Eng..)]
14. Крылов и др. 2016 — Крылов С. А., Дыбо А. В., Шеймович А. В. Расстановка семантических и деривационных тэгов в электронном хакасско-русском словаре // Российская тюркология. 2016. № 2. С. 28–39. [Krylov S. A., Dybo A. V., Sheymovich A. V. A digital Khakass-Russian dictionary: semantic and derivative tagging. Rossiyskaya tyurkologiya. 2016. No. 2. Pp. 28–39. (In Rus.)]
15. Baɣatur et al. 1998 — Baɣatur Da., Djirumt Bu. Odu üye-yin Mongɣul kelen-ü üge-yin dabtamji-yin toil. Öber Mongɣul-un surɣan kümüjil-ün keblel-ün küriy-e. Hohhot, 1998. 1482 p. (In Mong.)
16. Dawa 2006 — Dawa I., Husal, Liu Yue, Yue Yao Ming, Uulang, Bai Shuang Cheng, Batsaihan, Arai Y., Mitsunaga M., Isahara H., Nakamura S. Multilingual Text – Speech Corpus of Mongolian. International Symposium on Chinese Spoken Language Processing (ISCSLP 2006). (Kent Ridge, Singapore, 13–16 December 2006). Vol. II. Pp. 759–770. (In Eng.). ISCA Archive. Available at: https://www.isca-speech.org/archive_open/archive_papers/iscslp2006/B74.pdf (accessed: 10 October 2018).
17. Purev и др. 2003 — Purev J., Hyun Seok Park, Altangerel Ch. Tree adjoining grammars for Mongolian. East-Asian Language, Processing and Internet Information Technology (EALPIIT 2003). Conf. proc. Ulaanbaatar, 2003. Pp. 321–323. (In Eng.)
18. Purev и др. 2005 — Purev J., Tsolmon Z., Altangerel Ch., and Cheol-Young O. PC-KIMMO-based Description of Mongolian Morphology. International Journal of Information Processing Systems. 2005. Vol. 1. No.1. Pp. 41–48. (In Eng.)
19. Purev, Altangerel — Center for Research on Language Processing (CRLP), National University of Mongolia, Mongolia [электронный ресурс] // URL: http://www.panl10n.net/center-for-research-on-language-processing-crlp-national-university-of-mongolia-mongolia/ (дата обращения: 10.10.2018). [As aforesiad. An Internet resource: see hyperlink above (accessed: 10 October 2018). (In Eng.)]
20. Purev, Odbayar 2008 — Purev J., Odbayar Ch. Corpus Building for Mongolian Language. 6th Workshop on Asian Language Resources. Proc. (11–12 January 2008, India). Hyderabad, 2008. Pp. 97–98. (In Eng.)
21. Боролзой, Пүрэвсүрэн 2009 — Боролзой Д., Пүрэвсүрэн Т. Компьютер хэл шинжлэл ба дэлхийн чиг [электронный ресурс] // URL: http://borolzoi.blogmn.net/27067/kompiyutyer-hel-shinjlel-ba-tsahim-ugiin-san-(1)-baiguulah-asuudald.html). Monday 7, December 2009 (дата обращения: 10.10.2018). [Borolzoy D., Pürevsüren T. Komp’yuter khel shinzhlel ba delkhiyn chig [Computer linguistics and world trends]. An Internet resource: see hyperlink above (accessed: 10 October 2018). (In Mong..)]
Рецензия
Для цитирования:
Крылов С.А. Статистика базовых словоформ монгольского языка: краткий ранговый частотный словарь словоформ с категориально-семантической разметкой. Oriental Studies. 2018;11(6):92-109. https://doi.org/10.22162/2619-0990-2018-40-6-92-109
For citation:
Krylov S. Statistics of Basic Mongolian Word Forms: a Concise Frequency Ranking Dictionary of Categorially and Semantically Structured Word Forms. Oriental Studies. 2018;11(6):92-109. (In Russ.) https://doi.org/10.22162/2619-0990-2018-40-6-92-109

Контент доступен под лицензией Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 License.