​Интервью с кандидатом филологических наук, доцентом, ведущим научным сотрудни­ком отдела языкознания ИМБТ СО РАН, вдохновителем ресурса, руководителем проекта «Электронный корпус бурятского языка» Любовью Бадмаевой в газете «Бурятия».

– Наше время – это время стремительного развития информационных компью­терных технологий. Всем из­вестно, что уже существует и функционирует в сети Ин­тернет Электронный корпус бурятского языка. Любовь Дашинимаевна, расскажите, пожалуйста, об этом проек­те.

– Электронный корпус бу­рятского языка на сайте web. corpora.net запущен в Интер­нете в 2012 году под названи­ем «Бурятский корпус». Работы по составлению Электронного корпуса бурятского языка ве­дутся в Институте монголове­дения, буддологии и тибетоло­гии Сибирского отделения РАН (ИМБТ СО РАН) на базе отдела языкознания. В группу разра­ботчиков проекта входят мои коллеги – Ю.Д. Абаева, Г.Н. Чи­митдоржиева и О.С. Ринчинов. Его запуску предшествовали подготовительные работы в разных направлениях, посколь­ку проект такого рода был аб­солютно новым для бурятского языкознания, в силу чего опыт по составлению «Бурятского корпуса» набирался состави­телями по мере его продвиже­ния. Подготовительные работы заняли 3–4 года, за это время постепенно складывался кол­лектив разработчиков, кото­рый проходил ознакомление с основными принципами и подходами для создания элек­тронного языкового ресурса, уяснял свои задачи, искал и определял пути их решения. В 2011 году была открыта наша первая опытная версия с на­званием «Корпус бурятского языка», где были размещены материалы конкордансов к бурятским художественным текстам, выполненных в про­грамме, разработанной О.С. Ринчиновым. Впоследствии наша опытная версия была за­крыта, тем не менее, её нара­ботки и послужили базой для запуска «Бурятского корпуса».

Как мы все знаем, любая наука не стоит никогда на од­ном месте, так и в лингвистике в конце ХХ–начале ХХI веков стало интенсивно развивать­ся новое направление – кор­пусная лингвистика, главными задачами которой являются формирование языковых кор­пусов и их развитие, изучение и исследование различных лингвистических проблем на базе корпусных данных. Кор­пусные данные – это языковые единицы (фонема, морфема, слово, предложение и текст), из которых состоит соответ­ственно корпус. В разработке языкового корпуса принимают участие не одни лингвисты, они работают в тесном союзе с ком­пьютерными лингвистами и ма­тематиками-программистами.

Бурятоязычные текстовые базы данных объёмом около 2,5 млн словоупотреблений охватывают основные стили современного бурятского язы­ка, такие как художественный, учебно-научный и обществен­но-публицистический. Данный корпус включает в себя в ос­новном полнотекстовые элек­тронные версии оригинальных бурятских текстов, опублико­ванных в период с начала ХХ века по настоящее время. Сами же тексты закрыты для соблю­дения авторских прав. Такому правилу следуют практически на всех сайтах лингвистических корпусов. Любой языковой корпус не является электрон­ной библиотекой.

Итоговой целью организа­ции бурятского электронного корпуса является возможность получения надёжных лингви­стических фактов из реальной языковой среды, которая отве­чает разнообразным потребно­стям в исследовательской и образовательной деятельности.

– Какие трудности встре­чаются при пополнении кор­пуса новыми текстами?

– Трудности, встречающи­еся при пополнении корпуса новыми текстами, в первую очередь заключаются в не­хватке рабочих рук для их подготовки, обработки, анно­тирования и, соответственно, финансирования для проведения таких работ, а также для операций по интегрированию. Пополнение корпуса текстовы­ми материалами не является единственной важной задачей в подобном проекте. Это линг­вистический ресурс, поэтому требуются расширения его на­правлений по аннотированию языковых единиц: кроме углу­бления морфологической раз­метки, необходимо внедрять синтаксическую, семантиче­скую.

– Какую пользу прино­сит корпус при проведении исследований по бурятской филологии? И в каких ещё направлениях науки он мо­жет быть использован?

– «Бурятский корпус» — это чрезвычайно полезный ресурс для тех, кто занимается иссле­дованиями на основе фактов живого бурятского языка, будь то проблемы грамматики, на­пример, синтаксиса, морфо­логии или проблемы лексико­графии, составления словарей, проблемы лексики, семантики, словообразования, словосо­четаний. «Бурятский корпус» активно востребован колле­гами при подготовке научных статей, докладов, диссертаций и монографий по бурятскому языку. Статьи с использовани­ем данных «Бурятского корпу­са» публикуются в рейтинговых журналах, таких как Scopus, Web of Science. В октябре 2019 года успешно защищена док­торская диссертация по син­таксису бурятского языка с использованием данных наше­го корпусного ресурса. В по­лезности и востребованности «Бурятского корпуса» мы не со­мневаемся. Число пользовате­лей корпуса неуклонно растёт в научной и образовательной сферах. Корпус в углубленно разработанном виде может быть использован в таких на­уках, как литературоведение, поэтика (корпус поэтических текстов), социолингвистика (корпус газетных текстов), эт­нография, лингвистическая ан­тропология, археология.

– В любом проекте очень важен вопрос практическо­го применения его резуль­татов. Как корпус может использоваться или исполь­зуется в преподавании бу­рятского языка и литерату­ры, разработке учебников, пособий?

– «Бурятский корпус» поле­зен для преподавателей бурят­ского языка и литературы вви­ду своей доступности. Сегодня в сложном деле преподавательского процесса получило своё развитие такое направле­ние, как корпусная методика преподавания. Корпус – это современный инструмент для решения разнообразных ме­тодических задач, которые ставят в своей ежедневной ра­боте языковед, литературовед или фольклорист. Думается, что сегодня назрела необхо­димость создания условий для форсированного внедре­ния корпусных технологий в процесс обучения бурятско­му языку, поскольку вместе с лингвистическими корпусами пришла новая «дидактическая парадигма». Корпусные техно­логии дают значительно боль­ше возможностей учащимся для самостоятельных анали­тических работ над языковой информацией, извлекаемой из «Бурятского корпуса», что способствует обучению через микроисследование, ведущее к лучшему закреплению изу­чаемого материала. Работы по самостоятельному анализу и интерпретации данных элек­тронного корпуса будут не только ускорять процессы об­работки языковых материалов, улучшать усвояемость учебно­го материала (например, лек­сико-грамматические навыки), но и повышать, что особенно важно в сложившейся общей языковой ситуации, интерес к изучению родного языка с использованием доступных онлайн исходных языковых ма­териалов. Корпусные ресурсы предоставляют преподавателю широкую возможность само­стоятельной разработки мето­дических приёмов при обуче­нии языку. На их базе учитель может сам разрабатывать раз­личные упражнения на закре­пление учебного материала, контрольные и проверочные задания, тесты в соответствии с уровнем обучающихся, автор­ской программой и так далее. Для большего приближения корпуса к практике, учителям нами подготовлена книга, опи­сывающая возможные способы и методы использования его в учебном процессе, при состав­лении тех или иных заданий.

– Сейчас идут меропри­ятия, посвящённые Дню бурятского языка. Ваши по­желания нашим читателям и тем, кто пользуется корпу­сом или собирается начать это делать в ближайшем бу­дущем.

– Уважаемые читатели, мы приглашаем вас на сайт Элек­тронного корпуса бурятского языка. Во вступительной статье на сайте есть краткая инструк­ция о том, как можно пользо­ваться корпусом. Например, немного потренировавшись, можно уточнять значение слов по контексту, определять ча­стотность тех или иных слов. Можно выборочно по текстам определённого автора осу­ществлять поиск языковых единиц, будь то слово или синтаксическая конструкция. Кто не знает бурятского языка или занимается его изучением, может по русскому переводу находить его бурятскую лексическую параллель. По корпусу можно проверить, уточнить правильную грамматическую парадигму бурятского слова как склонение существительных или спряжение глаголов. Если у читателей будет жела­ние участвовать в пополнении базы данных текстов, мы будем рады. При подготовке текстов для нас важно качество, а не количество. Все ошибки изда­тельства или сканирования, неправильного распознавания символов должны быть сведе­ны к нулю. Мы должны соблю­дать нормы родного языка. Это особенно актуально в связи с бурным обсуждением места и роли литературного языка. За литературным языком должны сохраняться нормализующая и объединяющая нацию роли. Бурятский литературный язык обогащается из ресурсов диа­лектов и говоров, это неиссяка­емый источник его образности, словарного богатства.

Если у читателей будут во­просы и замечания к корпусу, пожалуйста, обращайтесь к нам. Мы будем рады вашим за­мечаниям для усовершенствования корпуса, чтобы учиты­вать их в дальнейшей работе.

Источники

"Бурятский корпус"
Буряад унэн (burunen.ru), 18/10/2019
"Бурятский корпус"
Бурятия, 18/10/2019

Похожие новости

  • 05/10/2017

    Анатолий Деревянко: «Денисовский человек известен во всем мире»

    Открытие неизвестного ранее вида человека – Homoaltaiensis (человека алтайского), или денисовского человека, сделанное под руководством академика А.П. Деревянко, стало мировой научной сенсацией, которая, по версии журнала Science, заняла второе место по значимости после обнаружения бозона Хиггса.
    2339
  • 14/07/2017

    Владимир Зверев - о жизни, науке и новом учебнике по истории Новосибирской области

    ​Один из авторов нового учебника, по которому совсем скоро школьники Новосибирской области будут изучать историю нашего региона — доктор исторических наук, профессор Владимир ЗВЕРЕВ. В научных кругах он известен как один из главных специалистов по исторической демографии Сибири.
    2069
  • 31/10/2017

    Борис Базаров: наш мультикультурализм другой

    ​О проблемах формирования национальной политики в России и в Бурятии с корреспондентом газеты «Бурятия» поделил­ся Борис Базаров депутат Народного Хурала Республики Бурятия, директор ИМБТ СО РАН, научный руководитель Президиума БНЦ СО РАН, доктор исторических наук, про­фессор, академик РАН.
    615
  • 30/04/2019

    Алгоритмы для пушкиниста: в ИВТ СО РАН создают информационную систему для филологов

    ​​​В Институте вычислительных технологий СО РАН создают систему, берущую на себя многие операции по классификации и сравнительному анализу текстов, в том числе художественных. Ученые-литературоведы не только читают, но и считают: количество слогов, слов и строк, повторов тех или иных выражений, оборотов, лексических конструкций, образов и тому подобного.
    503
  • 25/02/2019

    Новосибирский ученый - о войнах в киберпространстве

    Войны в киберпространстве и кибернетизация обычных войн, атаки без единого выстрела и диверсии без единого грамма взрывчатки… В новых реалиях помогает разобраться заместитель директора Института вычислительных технологий СО РАН Андрей Васильевич Юрченко.
    420
  • 02/02/2017

    Невероятные находки академика Молодина

    Российская археология остается в топе мировой науки. Писатель Владимир Губарев, ведущий в Pravda.Ru рубрику "Чаепития в Академии", побеседовал с выдающимся археологом, профессором, академиком РАН Вячеславом Молодиным.
    1732
  • 18/01/2017

    Сергей Комиссаров: сибирские археологи очень плодотворно работали на Кубе

    Первого января кубинский народ отмечал очередную годовщину своей революции. В этот день 58 лет назад легендарные «барбудос» (бородачи) вступили во второй по величине город в стране – Сантьяго-де-Куба, а на следующий день заняли столицу.
    1805
  • 21/08/2019

    Мнение ученого: сточные воды - это бесплатное и неистощимое сырье

    Известный в Бурятии ученый рассказал, как можно эффективно использовать городские отходы Бурятии грозит отравление собственными стоками – промышленные и канализационные отходы никак не утилизируются. С каждой минутой их становится все больше, а значит, экологического бедствия не избежать.
    191
  • 21/08/2019

    В Бурятии издали монографию к 80-летию Победы в боях на реке Халхин-Гол

    ​В августе 2019 года под руководством академика РАН Бориса Базарова и д.и.н., проф. Леонида Кураса вышла в свет коллективная монография-фотоальбом авторского коллектива Института монголоведения, буддологии и тибетологии СО РАН «Монголия в борьбе за независимость (1939-1945 гг.
    210
  • 27/08/2018

    Александр Люлько: «Умный город» — широкое понятие, это не просто технологии в сфере IT»

    27 августа в Новосибирске откроется форум «Технопром». Мэрия города в 2018 году примет активное участие в работе форума. В интервью «Континенту Сибирь» начальник департамента промышленности, инноваций и предпринимательства мэрии Новосибирска АЛЕКСАНДР ЛЮЛЬКО рассказал о подготовке к форуму и реализации комплексной платформы «Умный город»  в Новосибирске.
    680