Preview

Oriental Studies

Advanced search

"Principles of Semantic Annotation in the National Corpus of the Kalmyk Language

Abstract

This paper presents description of the semantic annotation principles in the National Corpus of the Kalmyk language (www.kalmcorpora.ru) which is agglutinative with rich morphology. The Kalmyk language belongs to the Mongolian language family and is used by the Oirats in Xinjiang (China) and the Kalmyks living in the Lower Volga region of Russia. The corpus of the Kalmyk language is open data of the Kalmyk texts of different styles from 1950-2012 but it mainly includes literary works and newspaper articles. The model of morphological analysis is based on the formal description of inflectional types and paradigms without which the corpus could not have automated language processing. The semantic annotation is a crucial step in the project development because the Kalmyk language belongs to the endangered ones, that is why it is necessary to create conditions for thorough and systematic research of the language facts on the wide range of textual materials with particular word collocations. Children can learn grammatical rules and vocabulary, however, it is difficult to acquire how a certain word “works” in the context, and without this knowledge we are not able to produce natural speech. Owing to the availability of semantically-based computerize queries and the information deriving from semantic annotation with or without combination of morphological description in the Kalmyk corpus, we can receive relatively distinct material for researching various linguistic phenomena. The work on semantic annotation is based on the list of lexical units from the Kalmyk-Russian dictionary [1977] edited by B. Muniev. In other words, we use dictionary-based approach to annotation. Combining different methods for processing the list of words, we analyze them from four aspects: 1) lexical and grammatical characteristics (revealing categories in the part of speech); 2) thematic characteristics (one list of themes for all parts of speech); 3) word connotation (negative, positive or both of them); 4) information on word derivatives (it is not the main purpose of annotation, however, we try to point out some of them in cases where it is easy to discover them). The semantic annotation is based on the faceted and tree classification, as a result we do not have a clear ontology of lexica but in the process of work we realize that it is difficult to give unambiguous characteristics because of word polysemy. In some cases, we add some specific operators to the universal taxosonomical classification to emphasize the existence of branched systems within some word groups in the Kalmyk language, for instance the system of animals’ marking depending on their age and gender. These marks are necessary to convey cultural peculiarities reflected in the language. We analyze lexical units of all parts of speech, except linking words, which make almost 27 thousand units. Two third of all the words have more than one mark in each group of annotation. The result of this annotation is accessed as a closed database (corpus) but we will have opened and published it by the end of 2014. At the moment, we are searching for and emending mistakes in the program code of the morphological analyzer.

About the Author

V. Kukanova
Kalmyk Institute for Humanities of the Russian Academy of Sciences
Russian Federation


References

1. Бардаев Э. Ч. Материалы к калмыцко-русскому и русско-калмыцкому словарю лингвистических терминов. Элиста, 2007. 102 с.

2. Бархударов - Караулов Ю. Н., Молчанов В. И., Афанасьев В. А., Михалев Н. В. Русский семантический словарь: Опыт автоматического построения тезауруса: от понятия к слову / отв. ред. С. Г. Бархударов. М.: Наука, 1983. 566 с.

3. Бускунбаева Л. А., Сиразетдинов З. А. Система разметок в Национальном корпусе башкирского языка [электронный ресурс] // URL: http://www.marlamuter.ru/forum/index. php?topic=21.0 (дата обращения: 11.04.2013).

4. Гиндин С. Семантические словари - карты языкового мира // Русский язык. 2001. № 5.

5. Грамматика калмыцкого языка: фонетика и морфология. Элиста: Калм. кн. изд-во, 1983. 336 с.

6. Гришина Е.А. Да в русском устном диалоге // Russian Lingustics. Vol. 35. P. 169-207.

7. Калмыцко-русский словарь / под ред. Б. Д. Муниева. М.: Изд-во «Русский язык», 1977. 768 с.

8. Корсункиев Ц. К. Калмыцко-русский и русско-калмыцкий терминологический словарь: Медицина. Элиста, 1992. 190 с.

9. Краткий словарь общественно-политических терминов калмыцкого языка. Элиста, 1968. 88 с.

10. Кретов А. А. Анализ семантичеcких помет в НКРЯ // Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы / отв. ред. В. А. Плунгян. СПб.: Нестор-История, 2009. С. 240-257.

11. Куканова В. В. Словоизменительные типы в калмыцком языке в свете автоматической обработки текстов (на примере имени существительного) // Вестник Калмыцкого института гуманитарных исследований РАН. 2012. № 2. С. 168-177.

12. Куканова В. В. Словоизменительные типы в калмыцком языке в свете автоматической обработки текстов (на примере имени существительного) - II // Вестник Калмыцкого института гуманитарных исследований РАН. 2012. № 3. С. 151-161.

13. Куканова В. В., Бембеев Е. В., Мулаева Н. М., Очирова Н. Ч. Метаразметка в Национальном корпусе калмыцкого языка // Вестник Калмыцкого государственного университета. 2012а. № 3. C. 67-72.

14. Куканова В. В., Бембеев Е. В., Мулаева Н. М., Очирова Н. Ч. Национальный корпус калмыцкого языка: архитектура и возможности использования // Вестник Калмыцкого института гуманитарных исследований РАН. 2012б. № 3. C. 138-150.

15. Кустова Г. И., Толдова С. Ю. НКРЯ: семантические фильтры для разрешения многозначности глаголов// Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы / отв. ред. В. А. Плунгян. СПб.: Нестор-История, 2009. С. 258-278.

16. Кустова Г. И. Семантическая разметка в электронных корпусах и электронных словарях [электронный ресурс] // URL: http://lexicograph.ruslang.ru/TextKust/ Kustova_sem_razm_el_sl_SPb_11.pdf (01.04.2014).

17. Кустова Г. И., Ляшевская О. Н., Падучева Е. В., Рахилина Е. В. Семантическая разметка лексики в Национальном корпусе русского языка: принципы, проблемы, перспективы // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М.: Индрик, 2005. С. 155-174.

18. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. 1090 с.

19. Ляшевская О. Н. Топологические классы имен в семантической разметке Национального корпуса русского языка // Труды международной конференции «Корпусная лингвистика-2008» (Санкт-Петербург, 6-10 октября 2008 г.). СПб.: С.-Петербургский гос. университет, Факультет филологии и искусств, 2008. С. 276-284.

20. Манджикова Б. Б. Калмыцко-русский терминологический словарь: флора и фауна. Элиста, 2007. 95 с.

21. Орфографические правила и Орфографический словарь калмыцкого языка / отв. ред. Г. Ц. Пюрбеев, Э. У. Омакаева. Элиста: Калм. кн. изд-во, 2000. 480 с.

22. Очир-Гаряев В. Э. Калмыцко-русский и русско-калмыцкий словарь терминологический словарь: Агрономия. Элиста, 1990. 85 с.

23. Очир-Гаряев В. Э. Калмыцко-русский, русско-калмыцкий терминологический словарь: Народное образование. Элиста, 1996. 91 с.

24. Очир-Гаряев В. Э. Калмыцко-русский и русско-калмыцкий терминологический словарь: Рыбное хозяйство. Элиста, 1995. 64 с.

25. Павда Дорҗ. Чикəр бичлһнə толь. 2-гч һарц. Элст: Хальмг дегтр һарһач, 1973. 240 с.

26. Рахилина Е.В. Лингвистика конструкций / отв. ред. Е.В.Рахилина. М.: Азбуковник, 2010. 584 с.

27. Рахилина Е. В., Кобрицов Б. П., Кустова Г. И., Ляшевская О. Н., Шеманаева О. Ю. Многозначность как прикладная проблема: семантическая разметка в Национальном корпусе русского языка // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог-2006». М., 2006. С. 445-450.

28. Рахилина Е. В., Кустова Г. И., Ляшевская О. Н., Резникова Т. И., Шеманова О. Ю. Задачи и принципы семантической разметки лексики в НКРЯ // Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы / отв. ред. В. А. Плунгян. СПб.: Нестор-История, 2009. С.215-239.</reference>

29. <reference>Сай С. С. Корпус калмыцкого языка [электронный ресурс] // URL: http://www.corplingran. ru/otchety.html (дата обращения 06.03.2012).</reference>

30. <reference>Шведова - Русский семантический словарь. Толковый словарь, систематизированный по классам слов и значений / Ин-т рус. яз. им. В. В. Виноградова РАН; под общ. ред. Н. Ю. Шведовой. Т. 1. М.: Азбуковник, 1998. XXV, 807с. Т. 2. М.: Азбуковник, 2000. ХХХII, 762с. Т. 3. М.: Азбуковник, 2003. 720 с. Т. 4. М.: ИРЯ РАН, 2007. 952 с.


Review

For citations:


Kukanova V. "Principles of Semantic Annotation in the National Corpus of the Kalmyk Language. Oriental Studies. 2014;7(2):137-143. (In Russ.)

Views: 443


ISSN 2619-0990 (Print)
ISSN 2619-1008 (Online)