Preview

Oriental Studies

Расширенный поиск

Статистика базовых словоформ монгольского языка: краткий ранговый частотный словарь словоформ с категориально-семантической разметкой

https://doi.org/10.22162/2619-0990-2018-40-6-92-109

Аннотация

В статье приводится краткий ранговый частотный словарь словоформ монгольского языка ― список, содержащий базовую лексику современного монгольского языка. Подсчёт частотности словоформ вёлся на материале Генерального корпуса современного монгольского языка (ГКМЯ). Наиболее оригинальной особенностью данного словаря является наличие в нём особой категориально-семантической разметки. Такая разметка ориентирована на задачи семантической типологии языков мира. Она рассчитана на потенциальную типологическую сопоставимость данного словаря с аналогично построенными словарями других языков мира.
Настоящая работа опирается на принципы квантитативной монголистики, освещенные в предыдущих работах автора. В статье приводятся базовые 454 словоформы современного монгольского языка, употребительные в ГКМЯ-1а: абсолютная частотность в ГКМЯ превышает 255, а относительная ― соответственно 220 ipm.
Таблица состоит из: (I.) Имя словоформы в квази-орфографической записи. Квази-орфографическая запись отличается от собственно орфографической снятием всех различий по регистру (заглавности/строчности); (II.) Обобщённая грамматема (т. е. сюда включаются не только собственно грамматемы, но и пучки омографических грамматем); (III.) Обобщённая лексема (т. е. сюда включаются не только собственно лексемы, но и пучки омографических лексем); (IV.) Семантическая помета-глосса, приписанную соответствующей словоформе или лексеме (строго говоря, она приписана одному из членов пучка омографических сегментов, совпадающего с именем словоформы). Этот столбец имеет функцию неформального мнемонического напоминания пользователю-типологу (особенно не знакомому с монгольским языком), какое лексическое значение имеет данная словоформа; (V.) Категориально-семантическая помета, приписываемая данной словоформе (точнее говоря, пучку омографических словоформ) в ГКМЯ; (VI.) Абсолютная частотность словоформы (точнее говоря, пучка омографических словоформ) в ГКМЯ-1а; (VII.) Ранг словоформы (точнее говоря, пучка омографических словоформ) в ГКМЯ-1а; (VIII.) Количество текстов из ГКМЯ-1а, в которых данная словоформа (точнее говоря, пучок омографических словоформ) встречается; (IX.) Ранг словоформы (точнее говоря, пучка омографических словоформ) в частотном словаре, упорядоченном по убыванию количества текстов из ГКМЯ-1а. Ранговый словарь словоформ представлен в виде таблицы, упорядоченной по убыванию параметра VIII (и по возрастанию параметра IX).

Об авторе

Сергей Александрович Крылов
Институт востоковедения РАН
Россия
доктор филологических наук, ведущий научный сотрудник


Список литературы

1. Китайские лингвисты … — Китайские лингвисты создали корпус монгольского языка [электронный ресурс] // Синьхуа новости. 22 января 2016 г. URL: http://russian.news.cn/2016-01/22/c_135036519.htm (дата обращения: 10.10.2018). [Chinese linguists have created a Mongolian-Language Corpus. Xinhua News. 22 January 2016. An Internet resource: see hyperlink above (accessed: 10 October 2018). (In Rus.)]

2. Крылов 2004 — Крылов С. А. Теоретическая грамматика современного монгольского языка и смежные проблемы общей лингвистики. Часть 1. Морфемика, морфонология, элементы фонологической трансформаторики (в аспекте общей теории морфологических и морфонологических моделей). М.: Вост. лит., 2004. 479 с. [Krylov S. A. Teoreticheskaya grammatika sovremennogo mongol’skogo yazyka i smezhnye problemy obschey lingvistiki [Theoretical grammar of the Mongolian language and related issues of general linguistics]. Vol. 1. Morphemics, morphonology, elements of phonological transformatorics. Moscow: Vost. Lit., 2004. 479 p. (In Rus.)]

3. Крылов 2012а — Крылов С. А. The general corpus of the modern Mongolian language and its structural-probabilistic model // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог» (Бекасово, 30 мая — 3 июня 2012 г.). Вып. 11 (18). М.: Изд-во РГГУ, 2012. С. 331–341. [Krylov S. A. The general corpus of the modern Mongolian language and its structural-probabilistic model. Komp’yuternaya lingvistika i intellektual’nye tekhnologii. Conf. proc. (Bekasovo, 30 May — 3 June 2012). Is. 11 (18). Moscow: Russian State Univ. for the Humanities, 2012a. Pp. 331–341. (In Rus.)]

4. Крылов 2012б — Крылов С. А. Структурно-вероятностная модель монгольского языка на базе Генерального корпуса современного монгольского языка // Урало-алтайские исследования. 2012. №. 1(6). С. 78–105. [Krylov S. A. A structure-and-frequency model of the Mongolian language on the basis of the General Corpus of Modern Mongolian. Uralo-altayskie issledovaniya. 2012b. No. 1(6). Pp. 78–105. (In Rus.)]

5. Крылов 2013 — Крылов С. А. Опыт изучения современного монгольского языка в количественном освещении // Вопросы языкознания. 2013. № 5. С. 46–57. [Krylov S. A. Investigating modern Mongolian: a quantitative perspective. Voprosy yazykoznaniya. 2013. No. 5. Pp. 46–57. (In Rus.)]

6. Крылов 2014 — Крылов С. А. Теоретическая грамматика монгольского языка и смежные проблемы общей лингвистики: (в 6 ч.) Ч. 2. Структурно-вероятностная модель современного монгольского языка (на базе Генерального корпуса современного монгольского языка). М.: Наука, Вост. лит., 2014. 637 с. [Krylov S. A. Teoreticheskaya grammatika mongol’skogo yazyka i smezhnye problemy obschey lingvistiki [Theoretical grammar of the Mongolian language and related issues of general linguistics]. In 6 vol. Vol. 2. A structure-and-frequency model of modern Mongolian. Moscow: Vost. Lit., 2014. 637 p. (In Rus.)]

7. Крылов 2016 — Крылов С. А. О принципах синтаксического анализа в сводном корпусе монгольских языков // Гуманитарная наука Юга России: международное и региональное взаимодействие. Мат-лы II Междунар. науч. конф., посвященной 75-летию Калмыцкого института гуманитарных исследований РАН (г. Элиста, 14–15 сентяб­ря 2016 г.). Элиста: КИГИ РАН, 2016. С. 198–199. [Krylov S. A. A consolidated corpus of Mongolic languages: principles of analysis revisited. Gumanitarnaya nauka Yuga Rossii: mezhdunarodnoe i regional’noe vzaimodeystvie. Conf. proc. (Elista, 14–15 September 2016). Elista: Kalmyk Humanities Research Inst. of RAS, 2016. Pp. 198–199. (In Rus.)]

8. Крылов 2017а — Крылов С. А. Монгольские аналитические конструкции в количественном аспекте // Вестник Калмыцкого института гуманитарных исследований РАН. 2017. № 5. С. 155–179. [Krylov S. A. Mongolian analytical constructions: a quantitative perspective. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN. 2017. No. 5. Pp. 155–179. (In Rus.)]

9. Крылов 2017б — Крылов С. А. Монгольские аналитические словоформы: опыт лингвостатистического исследования // Вестник Калмыцкого института гуманитарных исследований РАН. 2017. № 6. С. 79–93. [Krylov S. A. Mongolian analytical word forms: an effort of linguo-statistical research. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN. 2017. No. 6. Pp. 79–93. (In Rus.)]

10. Крылов 2017в — Крылов С. А. Сочетаемость монгольских синтетических словоформ: количественный аспект // Вестник Калмыцкого института гуманитарных исследований РАН. 2017. № 4. С. 108–133. [Krylov S. A. Compatibility of Mongolian synthetic word forms: a quantitative aspect. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN. 2017. No. 4. Pp. 108–133. (In Rus.)]

11. Крылов 2018а — Крылов С. А. О гибридных жанрах словарей (на материале монгольского языка) // Востоковедные чтения – 2018. Лексикология и лексикография. К 200-летию ИВ РАН. Тезисы докладов межинститутской научной конференции (г. Москва, 4–6 апреля 2018). М.: ИВ РАН, 2018. С. 33–34. [Krylov S. A. Hybrid genres of dictionaries revisited (a case study of the Mongolian language). Vostokovednye chteniya 2018. Leksikologiya i leksikografiya. Conf. abs. (Moscow, 4–6 April 2018). Moscow: Inst. of Oriental Studies of RAS, 2018. Pp. 33–34. (In Rus.)]

12. Крылов 2018б — Крылов С. А. Опыт дистрибутивно-статистической классификации монгольских аналитических словоформ // Вестник Калмыцкого института гуманитарных исследований РАН. 2018. № 2 (36). С. 88–101. [Krylov S. A. Mongolian analytical word forms: an effort of distributive and statistical classification. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN. 2018. No. 2 (36). Pp. 88–101. (In Rus.)]

13. Крылов и др. 2015 — Крылов С. А., Дыбо А. В., Шеймович А. В. Some possibilities of semantic and etymological tagging of corpora for turkic languages (Некоторые возможности семантической и этимологической разметки для корпусов тюркских языков (расстановка семантических тэгов в электронном хакасско-русском словаре)) // Сб. тр. междунар. конф. TurkLang – 2015 (Turkic Languages Processing: TurkLang 2015). Казань, 2015. С. 304–327. [Krylov S. A., Dybo A. V., Sheymovich A. V. Some possibilities of semantic and etymological tagging of corpora for Turkic languages. Turkic Languages Processing: TurkLang 2015. Conf. proc. Kazan, 2015. Pp. 304–327. (In Eng..)]

14. Крылов и др. 2016 — Крылов С. А., Дыбо А. В., Шеймович А. В. Расстановка семантических и деривационных тэгов в электронном хакасско-русском словаре // Российская тюркология. 2016. № 2. С. 28–39. [Krylov S. A., Dybo A. V., Sheymovich A. V. A digital Khakass-Russian dictionary: semantic and derivative tagging. Rossiyskaya tyurkologiya. 2016. No. 2. Pp. 28–39. (In Rus.)]

15. Baɣatur et al. 1998 — Baɣatur Da., Djirumt Bu. Odu üye-yin Mongɣul kelen-ü üge-yin dabtamji-yin toil. Öber Mongɣul-un surɣan kümüjil-ün keblel-ün küriy-e. Hohhot, 1998. 1482 p. (In Mong.)

16. Dawa 2006 — Dawa I., Husal, Liu Yue, Yue Yao Ming, Uulang, Bai Shuang Cheng, Batsaihan, Arai Y., Mitsunaga M., Isahara H., Nakamura S. Multilingual Text – Speech Corpus of Mongolian. International Symposium on Chinese Spoken Language Processing (ISCSLP 2006). (Kent Ridge, Singapore, 13–16 December 2006). Vol. II. Pp. 759–770. (In Eng.). ISCA Archive. Available at: https://www.isca-speech.org/archive_open/archive_papers/iscslp2006/B74.pdf (accessed: 10 October 2018).

17. Purev и др. 2003 — Purev J., Hyun Seok Park, Altangerel Ch. Tree adjoining grammars for Mongolian. East-Asian Language, Processing and Internet Information Technology (EALPIIT 2003). Conf. proc. Ulaanbaatar, 2003. Pp. 321–323. (In Eng.)

18. Purev и др. 2005 — Purev J., Tsolmon Z., Altangerel Ch., and Cheol-Young O. PC-KIMMO-based Description of Mongolian Morphology. International Journal of Information Processing Systems. 2005. Vol. 1. No.1. Pp. 41–48. (In Eng.)

19. Purev, Altangerel — Center for Research on Language Processing (CRLP), National University of Mongolia, Mongolia [электронный ресурс] // URL: http://www.panl10n.net/center-for-research-on-language-processing-crlp-national-university-of-mongolia-mongolia/ (дата обращения: 10.10.2018). [As aforesiad. An Internet resource: see hyperlink above (accessed: 10 October 2018). (In Eng.)]

20. Purev, Odbayar 2008 — Purev J., Odbayar Ch. Corpus Building for Mongolian Language. 6th Workshop on Asian Language Resources. Proc. (11–12 January 2008, India). Hyderabad, 2008. Pp. 97–98. (In Eng.)

21. Боролзой, Пүрэвсүрэн 2009 — Боролзой Д., Пүрэвсүрэн Т. Компьютер хэл шинжлэл ба дэлхийн чиг [электронный ресурс] // URL: http://borolzoi.blogmn.net/27067/kompiyutyer-hel-shinjlel-ba-tsahim-ugiin-san-(1)-baiguulah-asuudald.html). Monday 7, December 2009 (дата обращения: 10.10.2018). [Borolzoy D., Pürevsüren T. Komp’yuter khel shinzhlel ba delkhiyn chig [Computer linguistics and world trends]. An Internet resource: see hyperlink above (accessed: 10 October 2018). (In Mong..)]


Рецензия

Для цитирования:


Крылов С.А. Статистика базовых словоформ монгольского языка: краткий ранговый частотный словарь словоформ с категориально-семантической разметкой. Oriental Studies. 2018;11(6):92-109. https://doi.org/10.22162/2619-0990-2018-40-6-92-109

For citation:


Krylov S. Statistics of Basic Mongolian Word Forms: a Concise Frequency Ranking Dictionary of Categorially and Semantically Structured Word Forms. Oriental Studies. 2018;11(6):92-109. (In Russ.) https://doi.org/10.22162/2619-0990-2018-40-6-92-109

Просмотров: 693


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 License.


ISSN 2619-0990 (Print)
ISSN 2619-1008 (Online)