Современные компьютерные методы в изучении и преподавании лингвистических
дисциплин: корпусная лингвистикаВ.И. Подлесская (заместитель
директора Института лингвистики РГГУ, руководитель Учебно-научного центра
лингвистической типологии) Корпусная лингвистика - современная, быстро
развивающаяся область, возникшая вследствие растущих потребностей лингвистики во
внедрении компьютерных технологий для работы с большими массивами языковых
данных. Корпусная лингвистика это наука о создании и использовании корпусов -
компьютерных коллекций текстов, специально подобранных и специально
подготовленных для научных исследований. На современном технологическом уровне
лингвистику уже не удовлетворяют просто электронные библиотеки или
полнотекстовые базы данных. Лингвисту нужны электронные корпуса, т.е. такие
электронные коллекции текстов, которые
- отобраны исходя из некоторых принципов,
- специально подготовлены и размечены,
- и в которых с помощью специальных программ можно искать необходимые
фрагменты текста по заданным параметрам
Для большинства крупных языков
мира уже созданы уже так называемые национальные корпуса. Национальный
корпус - это собрание текстов в электронной форме, представляющих данный
язык на определенном этапе его существования. Обязательное требование к
национальному корпусу - его представительность. Это означает, что корпус должен
содержать по возможности все типы письменных и устных текстов, представленных в
данном языке (художественные разных жанров, публицистические, учебные, научные,
деловые, разговорные, диалектные и т.п.), и что все эти тексты должны входить в
корпус по возможности пропорционально их доле в языке соответствующего периода.
Следует иметь в виду, что хорошая представительность достигается только при
значительном объеме корпуса (десятки и сотни миллионов словоупотреблений).
Существующие национальные корпуса составлены с разной степенью полноты и
обработанности. Общепризнанным образцом является, в частности, Британский
национальный корпус (100 млн. слов), на который ориентированы и многие другие
корпуса. Среди славянских корпусов выделяется Чешский национальный корпус,
созданный в Карловом университете Праги. Внедрение корпусных методов радикально
изменило общий научный ландшафт в лингвистике. Теперь ограничений на объем
анализируемого материала и скорость поиска информации в нем по существу нет, а
это означает, что в распоряжении исследователя оказываются колоссальные массивы
текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний
о языке: возможность массовой - в том числе статистической - обработки текстов,
недоступная прежде, позволила обнаружить в структуре и развитии языка такие
закономерности, о существовании которых наука раньше или не подозревала, или
лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные
описания грамматического строя языков, а также авторитетные академические
словари - практически все без исключений - составляются на основе корпусов этих
языков. Как лингвистические исследования и образовательные программы в РГГУ
реагируют на новые требования времени? 1. Российской академией наук в рамках
программы "Филология и информатика" поддержан проект создания Национального
корпуса русского языка. В этом проекте участвуют лингвисты многих научных
учреждений и вузов. В числе основных разработчиков лингвистического обеспечения
проекта - профессора Центра лингвистической типологии Института лингвистики РГГУ
В.А.Плунгян и Е.В.Рахилина. К практической работе по созданию Национального
корпуса широко привлекаются и студенты РГГУ, в том числе, и в формате
компьютерной практики. 2. В Институте лингвистики РГГУ ведется несколько
проектов по созданию специализированных корпусов. Исследовательским коллективом
под руководством С.И.Гиндина, объединяющим преподавателей, сотрудников и
студентов Кафедры теоретической лингвистики и Кафедры математики, логики и
интеллектуальных систем, создана и продолжает развиваться гипертекстовая
филологическая информационная система по творчеству В.Я.Брюсова. Система
включает полный структурированный электронный корпус текстов Брюсова и его
филологическое сопровождение. Система уже широко используется в преподавании
филологических и лингвистических дисциплин. В Центре типологии ведется работа
над созданием мультимедийного корпуса русских разговорных текстов. Создание
электронных корпусов устных текстов - это новаторское направление не только для
России, но и для лингвистики в целом, открывающее совершенно новые перспективы,
как для теории лингвистики, так и для ее практических приложений. На базе этого
корпуса уже читаются несколько учебных курсов и работает аспирантский семинар.
3. Поскольку современный профессионально подготовленный лингвист обязан уметь
эффективно пользоваться корпусами, а при необходимости, уметь самостоятельно
сформировать корпус с нужными параметрами, в 2003/2004 учебном году для
специальности "теоретическая и прикладная лингвистика" введен обязательный курс
"Корпусная лингвистика". 4. В Институте лингвистики был организован специальный
практикум по повышению квалификации профессорско-преподавательского состава в
области корпусной лингвистики.
|