Ex Oriente Lux 2021

32 Марченко Анна Санкт-Петербургский Государственный университет, Восточный факультет АКТУАЛЬНЫЕ ПРОБЛЕМЫ СОЗДАНИЯ ЭЛЕКТРОННЫХ КОРПУСОВ ТИБЕТСКОГО ЯЗЫКА Электронный лингвистический корпус является эффективным инструмен- том изучения языка, позволяющим получить статистические данные о тех или иных грамматических явлениях и языковых единицах, частоте их употребле- ния; проследить изменения в языке за определенный период времени; прове- сти сравнительный анализ лексико-грамматических характеристик текстов разных периодов, жанров, авторов. Тибетский язык относят к малоресурсным языкам, для которых не создано стандартных средств автоматической обработки текста. Это связано с общей малоизученностью тибетского языка, а также с его морфологическими, лекси- ческими и синтаксическими особенностями, затрудняющими использование имеющихся компьютерных средств обработки текста и составление электрон- ных корпусов. Например, на этапе графематического анализа и сегментирова- ния текста большие трудности создает отсутствие в тибетском письме разде- лителей между словоформами. Пунктуационный знак цэг (тиб. tsheg) марки- рует только границы слогов. Автоматическое деление тибетского текста на структурные единицы с ориентацией на цэги оказывается неточным, по- скольку морфема может быть представлена отдельным компонентом слога, целым слогом или состоять из двух и более слогов. Для осуществления автоматической разметки тибетского текста были экс- периментально разработаны различные программные средства, однако в настоящее время они остаются малоэффективными. Британские исследова- тели сконцентрированы на разработке тэггеров, размечающих тибетский текст с опорой на обучающие множества. Российские ученые СПбГУ создали мор- фосинтакисческий парсер, анализирующий структуру текста на основе фор- мальной грамматики. Тем не менее для тибетского языка характерна высокая степень морфосинтаксической неоднозначности, разрешение которой воз- можно только на уровне семантики.

RkJQdWJsaXNoZXIy MzQwMDk=