Старая версия сайта
12+
Издаётся с 1924 года
В интернете с 1995 года
Топ 10

Что такое Национальный корпус русского языка (www.ruscorpora.ru)?

Учительская газета, №25 от 23 июня 2009. Читать номер
Автор:

Чтобы ответить на вопрос, что такое Национальный корпус русского языка, надо прежде всего ответить на вопрос, что такое корпус вообще и Национальный корпус в частности. Корпус некоторого языка – это собрание текстов на данном языке, представленное в электронной форме и снабженное научным аппаратом. Аппарат, «встроенный» в корпус, обычно называется «разметкой», или «аннотацией», корпуса; корпус тем лучше, чем полнее и совершеннее его аннотация. Собственно, наука о корпусах («корпусная лингвистика») – это прежде всего наука о том, как сделать хорошую разметку корпуса.

Комментарий «УГ»Внимание!Завершен прием работ на конкурс «Словарь – помощник педагога». Поступило 79 методических разработок, которые будут рассмотрены и оценены авторитетным жюри. 30 июня мы опубликуем фамилии десяти победителей конкурса. Осенью они будут приглашены в Москву для прохождения бесплатного недельного обучения на базе АПКиППРО, по окончании которого они получат сертификаты о повышении квалификации.Во время обучения пройдет финальный этап конкурса. Победитель будет премирован словарями и справочниками для комплектации личного кабинета. Все финалисты получат поощрительные призы, а все участники конкурса – памятные грамоты.

Хорошая разметка, в частности, позволяет быстро и эффективно найти в корпусе те слова, формы и конструкции, которые нужны исследователю. Ведь в обычном тексте нет никаких сведений, например, о грамматической характеристике входящих в него слов. Если нам нужно найти просто слово (например, слово диван во всех его формах), то с этой задачей неплохо справится и обычный текстовый редактор: достаточно написать в окне поиска цепочку букв ДИВАН, и результат окажется вполне приемлемым. Несколько хуже, правда, дело будет обстоять в том случае, если мы захотим искать, например, все формы русского слова рожь. У этого слова есть беглая гласная, поэтому в некоторых формах его основа выглядит как РОЖ-, а в некоторых – как РЖ-. Но если мы напишем в окне поиска только эти две буквы (РЖ), результат окажется неприемлемым: слишком много других русских слов тоже начинаются на РЖ- (ржавый, ржаветь, ржать, Ржев и т. п.). Стало быть, программа поиска должна понимать как минимум то, какие формы в тексте относятся к одному и тому же слову (например, ржи и рожью, но не ржал и Ржев), то есть хотя бы частично «понимать» грамматическую структуру данного языка. Тем более это понимание необходимо, если мы хотим искать не слова, а формы. Представьте себе такую задачу: найти в достаточно длинном тексте все формы дательного падежа единственного числа. Никакой текстовый редактор с этой задачей, конечно, не справится. Для того чтобы грамматические формы можно было автоматически найти в тексте, этот текст как раз и необходимо предварительно разметить. Иначе поиск возможен только вручную, а это процедура долгая и трудоемкая.

Это только один, самый простой пример, который показывает, для чего может быть нужна разметка. На самом деле хорошо размеченный текст для специалиста оказывается совершенно бесценным. Ведь в своей исследовательской работе лингвисты зависят прежде всего от количества и качества собранного материала. У многих еще свежи в памяти те времена, когда примеры выписывались из текста и заносились на карточки. Сейчас карточки ушли в прошлое, но сама процедура выбора примеров из текста делается человеком и с трудом поддается автоматизации. Размеченные корпуса – первый серьезный инструмент, позволяющий существенно ускорить и упростить эту процедуру. Иными словами, то, на что у исследователей предшествующих поколений уходили недели, а то и месяцы напряженного труда, с помощью корпуса можно сделать за минуты.

Итак, корпус – это электронное собрание текстов, размеченное таким образом, чтобы в нем можно было быстро найти слова и конструкции с заданными грамматическими и другими интересными лингвисту свойствами. Что же такое Национальный корпус? Это самый большой и представительный корпус, характеризующий язык данной страны в целом: Национальный корпус английского языка, французского, чешского и др. Начиная с 2004 года над составлением Национального корпуса русского языка работает большая группа лингвистов из различных научно-исследовательских институтов и вузов Москвы, Санкт-Петербурга и других городов. В настоящее время Национальный корпус русского языка размещен (при поддержке компании «Яндекс») на сайте www.ruscorpora.ru и открыт для свободного доступа. На этом же сайте имеется более подробная информация о Корпусе, работа над совершенствованием и пополнением которого продолжается.

Понятно, что Национальный корпус должен быть прежде всего большим: его объем измеряется сотнями миллионов словоупотреблений (для сравнения можно сказать, что, например, полное собрание сочинений Ф.М. Достоевского насчитывает «всего» около двух миллионов слов). Но, кроме того, он – и это даже важнее – должен быть представительным. Иначе говоря, он должен содержать все типы текстов, представленные в данном языке в данный исторический период, и при этом содержать их в правильной пропорции.

Именно поэтому Национальный корпус русского языка не ограничивается, например, только произведениями художественной литературы, сколь бы важны они ни были для изучения русского языка. Он содержит и газетные и журнальные статьи разной тематики (от общественно-политических до, например, спортивных), и специальные тексты (научные, научно-популярные и учебные по разным отраслям знания), и рекламу, и частную переписку, и дневники. Словом, в Корпус попадают образцы практически любого существующего в русском языке письменного дискурса – от статьи современного музыкального критика до инструкции по уходу за кактусами, от рассказов Пелевина до справочника по физике. Более того, составители Корпуса хорошо понимали, что для полного и адекватного представления о том, что происходит в современном русском языке, необходимо еще в большей степени расширить рамки Корпуса и включить в него наряду с письменными текстами также и записи устной речи – радиопередачи, интервью, «круглые столы», записи бытовых разговоров (диалогов и монологов) на улице, в учреждениях, в домашней обстановке. Также в Корпус вводятся тексты «электронной коммуникации»: переписка по электронной почте, а также всевозможные чаты, форумы, общедоступные электронные дневники (так называемые блоги) и т. п. В такого рода текстах мы имеем дело фактически со спонтанным письменным самовыражением, дающим очень своеобразный гибрид устной и письменной речи.

И вот собранное вместе все это богатство, отражающее, как можно надеяться, современный русский язык во всех его аспектах, стилях, жанрах и формах существования, позволяет любому человеку искать слова или сочетания слов в определенной грамматической форме или просто определенные грамматические формы. Кроме того, поиск возможен не только по всему корпусу, но и по определенному подмножеству текстов, выбранному пользователем: например, тексты определенного автора, определенного периода, определенного жанра и т. п.

Владимир ПЛУНГЯН,

член-корреспондент РАН, заведующий отделом корпусной лингвистики

и лингвистической поэтики Института русского языка


Читайте также
Комментарии


Выбор дня UG.RU
Профессионалам - профессиональную рассылку!

Подпишитесь, чтобы получать актуальные новости и специальные предложения от «Учительской газеты», не выходя из почтового ящика

Мы никому не передадим Вашу личную информацию
alt
?Задать вопрос по сайту