Preview

Oriental Studies

Advanced search

Frequency Dictionary of Modern Kalmyk Language: Rules of Analysis of Text Material

Abstract

The article is devoted to description of the rules for text material analysis for creating the Frequency Dictionary of the Kalmyk language on the basis of the National Corpus of the Kalmyk Language (www.kalmcorpora.ru) which includes the texts of the literary works published in the second half of the 20th and at the beginning of the 21st centuries as well as newspaper articles and transcripts of spoken language. The volume of the fi ction (prose and poetry) exceeds 10 mln. words. The texts in the Corpus as well as certain elements of the texts (word-forms, punctuations signs, paragraphs, etc.) have special annotations. The Frequency Dictionary created on the basis of the Corpus is a pilot model as it is the first attempt to develop a dictionary of this type. In our opinion, the size of the created Corpus of the Kalmyk Language allows to describe the language from the point of view of usage frequency of language units and meanings: word-forms, words, constructions (2 and 3-gramms), grammatical meanings, letters, etc. In 2013, the experimental version of the National Corpus of the Kalmyk Language was launched, but it did not have any morphological and semantic annotations though the closed data had already possessed these types of annotations. The material containing the annotations will be open after the analyzer’s program code will be adjusted, and its efficiency will reach 90%. At the present moment, the model of the algorithm of work of the morphological parser for the Kalmyk language successfully analyzes 70% of any text providing only unambiguous parsing at the same time. About 20% of the texts have multitude possible variants of automated analyses, though 10% of the texts have no parsing as there are no stems for them in the dictionary (they are mostly Russian loanwords which were not included into the Dictionary edited by B.D. Muniev [1977] and some proper names). The main idea of developing the Frequency Dictionary is that the most frequently used language units are the most significant ones in any language but at the same time non-frequent elements are of the same significance but from the other point of view. They can carry some traces of historical development and can belong to various terminological systems which evidences that a lexical unit is out of use in speech. The issue of the language units and meanings frequency is not developed in the Kalmyk linguistics that is why for researching the frequency characteristics of the Kalmyk speech one should first of all identify and justify the parameters for distinguishing frequency and describing frequency characteristics of the Kalmyk speech. Thus the aim of this article is to describe the rules for analyzing lexical units in order to develop the Frequency Dictionary of the Kalmyk language where the observation unit is a lemma - that is an initial form of the language without its lexical and grammatical annotations. However, it does not mean that the dictionary development will not take into account the Kalmyk grammar: processing of word-forms and working out lemma vocabulary are regulated by the rules of the formalized description of the Kalmyk language grammar, besides for each part of speech there is a separate description. The main and basic issue is to define the boundaries for the notions of a word and a lemma (an initial form of a word). The article provides the rules for textual material analysis in order to create the Frequency Dictionary of the Kalmyk language. These rules are built on the principles for developing “The Frequency Dictionary of the Russian Language” [Frequency Dictionary … 1977] and “The Grammar Dictionary of the Russian Language” [Zalizniak 1987] which were revised for the purposes of the Kalmyk language, while for the units which do not exist in the literary written language the rules have been developed anew. Each part of speech has its own set of rules which regulates the work of the morphological parser to process lineal letter sequence of the vocabulary element for the Frequency Dictionary.

About the Authors

E. Bembeev
Kalmyk Institute for Humanities of the Russian Academy of Sciences
Russian Federation


V. Kukanova
Kalmyk Institute for Humanities of the Russian Academy of Sciences
Russian Federation


A. Kadzhiev
Kalmyk Institute for Humanities of the Russian Academy of Sciences
Russian Federation


References

1. Баранова В. В. Сложные глаголы в калмыцком языке // Исследования по грамматике калмыцкого языка/ ред. С. С. Сай, В. В. Баранова, Н. В. Сердобольская. СПб.: Наука, 2009. Том V. Ч. 2). С. 255-310. (ACTA LINGUISTICA PETROPOLITANA. Труды Ин-та лингвист. исслед. РАН).

2. Бертагаев Т. А. Синтаксис современного монгольского языка в сравнительном освещении. Простое предложение. М.: Наука, 1964. 300 с.

3. Богданов C. И., Рыжова Ю. В. Русская служебная лексика. Сводные таблицы. СПб.: изд-во СПб. ун-та, 1997. 293 с.

4. Венцов А. В., Грудева Е. В., Касевич В. Б., Ягунова Е. В. Об идиомах в Национальном корпусе русского литературного языка // Компьютерная лингвистика-2004. Тезисы международной конференции. 12-14 октября 2004 г. СПб., 2004. С. 17-18.

5. Гак В. Г. Слово // Лингвистический энциклопедический словарь / под ред. В. Н. Ярцевой. М.: Советская энциклопедия, 1990 [электронный ресурс] // URL: http://tapemark. narod.ru/les/464c.html (дата обращения: 07.03.2012).

6. Грамматика калмыцкого языка: фонетика и морфология. Элиста: Калм. кн. изд-во, 1983. 336 с.

7. Дараган Ю. В. Функции слов-«паразитов» в русской спонтанной речи [электронный ресурс]// URL: http:// www.dialog-21.ru/materials/archive. asp?id=6260&vol=6077&y=2000. 2000 (18.05.2008).

8. Долинский В. А. Квантитативная лингвистика в исследовании текста // Алфавит: Строение повествовательного текста. Синтагматика. Парадигматика. Смоленск: СГПУ, 2004. С. 283-324.

9. Зализняк А. А. Грамматический словарь русского языка: Словоизменение: Около 100 000 слов. 3-е изд., стереотип. М.: Рус. яз., 1987. 880 с.

10. Калмыцко-русский словарь / под ред. Б. Д. Муниева. М.: Рус. яз., 1977. 768 с.

11. Касевич В. Б. Элементы общей лингвистики. М.: Наука, ГРВЛ, 1977. 177 с.

12. Копотев М. Несмотря на, потому что, или многокомпонентные единицы в аннотированном корпусе русских текстов // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог’2004» («Верхневолжский», 2-7 июня 2004 г.). М., 2004. (URL: http:// www.dialog-21.ru/Archive/2004/Kopotev.htm (17.07.2008)).

13. Крылов С. А. Измерение частотности синтаксических молекул (на материале генерального корпуса русского языка) // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог» («Бекасово», 48 июня 2008 г.). Вып. 7 (14). М., 2008. С. 254-261.

14. Крылов С. А. Об инвентарных и конструктивных единицах языка // Язык и речевая деятельность. 2003. Вып. 6. СПб., 2006. С. 9-26.

15. Крылов А. С. Опыт изучения современного монгольского языка в количественном аспекте // Вопросы языкознания. 2013. № 5. С. 46-58.

16. Куканова В. В. О корпусе калмыцких текстов: краткий обзор проблем графематического анализа// Научное наследие проф. А. Ш. Кичикова и актуальные проблемы современной калмыцкой филологии и культуры (Кичиковские чтения). Материалы Региональной научной конференции, посвященной 90-летию со дня рождения профессора А. Ш. Кичикова (21 декабря 2011 г., Элиста). Элиста: Изд-во Калм. гос. ун-та, 2012в. С. 61-63.

17. Куканова В. В. Словоизменительные типы в калмыцком языке в свете автоматической обработки текстов (на примере имени существительного) // Вестник Калмыцкого института гуманитарных исследований РАН. 2012а. № 2. С. 168-177.

18. Куканова В. В. Словоизменительные типы в калмыцком языке в свете автоматической обработки текстов (на примере имени существительного) - II // Вестник Калмыцкого института гуманитарных исследований РАН. 2012б. № 3. С. 151-161.

19. Куканова В. В., Бембеев Е. В., Мулаева Н. М., Очирова Н. Ч. Метаразметка в Национальном корпусе калмыцкого языка // Вестник Калмыцкого государственного университета. 2012а. № 3. C. 67-72.

20. Куканова В. В., Бембеев Е. В., Мулаева Н. М., Очирова Н. Ч. Национальный корпус калмыцкого языка: архитектура и возможности использования // Вестник Калмыцкого института гуманитарных исследований РАН. 2012б. № 3. C. 138-150.

21. Лённгрен Л. (ред.). Частотный словарь современного русского языка [Lönngren, Lennart. The Frequency Dictionary of Modern Russian. Acta Univ. Ups., StudiaSlavicaUpsaliensia Uppsala 32]. Uppsala, 1993. 188 с.

22. Леонтьев А. А. Психолингвистические единицы и порождение речевого высказывания. М.: Наука, 1969. 307 с.

23. Ляшевская О. Н. , Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. 1090 с.

24. Мустайоки А., Копотев М. К вопросу о статусе эквивалентов слова типа потому что, в зависисмости от, к сожаленью // Вопросы языкознания. М., 2004. № 3. С. 88-107.

25. Степанова Е.М. Частотный словарь общенаучной лексики. М.: Просвещение, 1976. 87 с.

26. Частотный словарь русского языка / под ред. Л. Н. Засориной. М.: Русскийязык, 1977. 936 с.

27. Шведова - Русский семантический словарь. Толковый словарь, систематизированный по классам слов и значений / Ин-т рус. яз. им. В. В. Виноградова РАН; под общ. ред. Н. Ю. Шведовой. Т. 1. М.: Азбуковник, 1998. XXV+807 с. Т. 2. М.: Азбуковник, 2000. ХХХII+762 с. Т. 3. М.: Азбуковник, 2003. 720 с. Т. 4. М.: ИРЯ РАН, 2007. 952 с.

28. Ягунова Е. В. Неоднословные целостности в словаре и в корпусе // Корпусная лингвистика-2006. Труды международной конференции. 10-14 октября 2006. СПб., 2006. С. 395-412.


Review

For citations:


Bembeev E., Kukanova V., Kadzhiev A. Frequency Dictionary of Modern Kalmyk Language: Rules of Analysis of Text Material. Oriental Studies. 2014;7(3):128-141. (In Russ.)

Views: 511


ISSN 2619-0990 (Print)
ISSN 2619-1008 (Online)