Кто не делится найденным, подобен свету в дупле секвойи (древняя индейская пословица)
Версия для печати
Библиографическая запись: Предмет исследования корпусной лингвистики. Развитие лингвистических корпусов в мире: первое и второе поколение. — Текст : электронный // Myfilology.ru – информационный филологический ресурс : [сайт]. – URL: https://myfilology.ru//177/predmet-issledovaniya-korpusnoj-lingvistiki-razvitie-lingvisticheskix-korpusov-v-mire-pervoe-i-vtoroe-pokolenie/ (дата обращения: 4.12.2023)
Предмет исследования корпусной лингвистики. Развитие лингвистических корпусов в мире: первое и второе поколение
Содержание
Предмет исследования
Корпусная лингвистика рассматривает текстовые массивы как поле изучения и как источник фактов для лингвистического описания и аргументации. Как уже говорилось, она сосредотачивается на «речи» (performance), а не на «языке» (competence).
Как и вся наука о языке, корпусная лингвистика занимается в основном описанием и объяснением сущности, структуры и использования языка, а так же более частными вопросами: изучение языков, их изменение и т.п. Однако корпусная лингвистика стоит в языкознании несколько особняком.
Можно отметить, что часто она ограничивается изучением скорее лексики и лексической грамматики, нежели синтаксиса. В чём-то это результат использования методики конкордансов (списков слов в контекстах, в последующих лекциях будет более подробно) – ширины экрана или печатного листа (обычно 130 символов) просто не хватает на то, чтобы анализировать синтаксис или дискурс.
Пример конкорданса в программе Corsis
Существует четыре группы корпусных лингвистов:
1. Создатели корпусов (corpus compilers).
2. Разработчики программ для анализа корпусов (corpus software developers)
3. Дескриптивные лингвисты, которые используют существующие корпусы для адекватного описания лексики и грамматики языка. В основном используется вероятностный подход.(1)
4. Те, кто занимается использованием корпусов в новых прогрессивных приложениях – изучение и преподавание языков, машинная обработка естественного языка (например, для распознавания речи и для автоматического перевода).
История электронных лингвистических корпусов
Первое поколение корпусов
The Brown Corpus
Точное название: Brown University Standard Corpus of Present-Day American English. Составлялся с 1961 по 1964 год. Язык корпуса: американский английский, письменные тексты, 1 миллион словоупотреблений (это количество стало фактическим стандартом для всего первого поколения корпусов). В то время в лингвистике доминировала концепция Хомского, так что Nelson Francis и Henry Kucera (создатели Брауновского корпуса) делали свою работу в очень неблагоприятной атмосфере. Корпус состоит из 500 текстов по 2000 слов каждый.
Фактически, он задал стандарт для корпусных исследований, поскольку была очень хорошо продумана структура и выбор категорий текстов. Этот же проект установил традицию свободного доступа к корпусам для исследовательских нужд. На этом корпусе уже в 1969 году был основан словарь American Heritage Dictionary.
Lancaster-Oslo/Bergen (LOB) Corpus
1970-78 год, проект университетов Ланкастера и Осло и научного центра в Бергене. Британский английский, 1 миллион словоупотреблений, структура похожа на Брауновский корпус. Учёные уже начали понимать, однако, что одного миллиона словоупотреблений недостаточно для анализа низкочастотных элементов языка (а их большинство). Тем не менее, на Брауновском и LOB корпусах основаны многие сотни качественных и интересных исследований. Сайт проекта - http://khnt.hit.uib.no/icame/manuals/lobman/
London-Lund Corpus (LLC)
В 1975 году было завершено создание корпуса устной английской речи. Он содержал около 500 тысяч словоупотреблений с орфографической транскрипцией, фонетической и просодической разметкой. Эта грандиозная работа сначала была выполнена в бумажном варианте сотрудниками University College London, а затем переведена в компьютерную форму лингвистами из шведского города Лунд. Сайт проекта - http://www.ucl.ac.uk/english-usage
Помимо упомянутых, составлялись корпусы для лексикографических исследований (American Heritage Intermediate), для изучения разговорного английского (Lancaster/IBM Spoken English Corpus, Corpus of Spoken American English, etc), диахронические корпусы (Helsinki Corpus of English Texts: Diachronic Part, 1,5 миллиона словоупотреблений), корпусы для лингводидактических исследований (International Corpus of Learner's English) и другие.
Машинный Фонд русского языка
Создание первого советского лингвистического корпуса началось в 1985 году в Институте русского языка Академии Наук СССР. Успели только разработать концепцию и архитектуру корпуса и несколько программ, а также собрать какое-то количество текстов. В районе 1991 года финансирование прекратилось и работы заглохли.
Уппсальский корпус русского языка
Одновременно (в 1980-е годы) в институте славистики университета Уппсалы (Швеция) был создан Уппсальский корпус современных русских текстов. 1 миллион словоупотреблений, около 600 текстов. Сайт проекта - http://www.slaviska.uu.se/korpus.htm
Второе поколение корпусов
К 90-м годам технологии извлечения и хранения текстов позволили создавать корпусы из ста миллионов словоупотреблений и более.
The Cobuild Project / The Bank of English
Началось всё в 1980 году, когда издательство Collins принялось за составление корпуса для создания нового словаря.
В 1990 году было объявлено об объединении усилий Collins и факультета английского языка университета Бирмингема в инициативу под названием The Bank of English. The Bank of English — это так называемый мониторинговый корпус. Вот слова руководителя проекта Джона Синклера: мониторинговый корпус это огромный, вечно изменяющийся поток языка, не имеющий чётко определённого размера. Этот поток проходит через фильтры, которые извлекают из него лингвистические данные. Около 300 миллионов словоупотреблений в 1997 году, а в 2005 уже 525 миллионов. Каждый месяц в корпус поступает два с половиной миллиона новых словоупотреблений.
25 процентов корпуса составляет устная речь, 75 процентов — письменная.
По адресу http://www.collins.co.uk/Corpus/CorpusSearch.aspx можно использовать тестовую версию корпуса (56 миллионов словоупотреблений).
The Longman Corpus Network
Коммерческая база данных нескольких корпусов, созданных компанией Longman и университетом Ланкастера. 50-100 миллионов словоупотреблений. Сайт в Интернете - http://www.pearsonlongman.com/dictionaries/corpus/index.html
British National Corpus (BNC)
100 миллионов словоупотреблений, представляет английский язык в целом, а не один жанр. Этот корпус имеет конечный размер, в отличие от Cobuild Project. 90 процентов письменных текстов, 10 устных.
В создании принимали участие многие организации, включая Британское правительство. Процесс завершился около 1995 года. Корпус состоит из 4124 текстов, из которых 863 транскрибированы из устных бесед или монологов. Каждый текст сегментирован на орфографические предложения, а внутри них каждому слову автоматически назначен код класса слова (части речи). Во всём корпусе 6,4 миллионов орфографических предложений. Сегментирование и классификация слов были выполнены программой стохастической разметки CLAWS, разработанной в университете Ланкастера. Классификационная схема предусматривает 65 частей речи, которые описаны в прилагающейся документации. Все тексты размечены с использованием наиболее стандартных способов — языка SGML и системы TEI.
При создании корпуса были использованы новые подходы к отбору текстов, многоуровневая система контроля.
Корпус доступен по адресу http://www.natcorp.ox.ac.uk/
The International Corpus of English (ICE)
Совместный проект нескольких десятков университетов. 20 параллельных подкорпусов, по миллиону словоупотреблений каждый, вместе 20 миллионов словоупотреблений. Можно изучать специфику стран, где английский – второй или официальный язык (Австралия, Канада, Новая Зеландия и т.п.). Разработано сложное программное обеспечение специально для анализа этого корпуса. Веб-сайт: http://www.ucl.ac.uk/english-usage/ice/
American National Corpus
Первый выпуск состоялся в 2003 году. Планируется 100 миллионов словоупотреблений, но пока только 11. Доступ исключительно на платной основе. Корпус в XML-формате. Веб-сайт проекта: http://www.americannationalcorpus.org/
Gigaword corpora
Мониторинговые корпусы английского, арабского, китайского и других языков. Спонсируются Европейским Союзом, создаёт их компания Linguistic Data Consortium. Уже 1 миллиард словоупотреблений. В основном тексты взяты из публицистики и новостей. Корпусы довольно дорогие. Посмотреть на список можно на сайте http://www.ldc.upenn.edu
Современные российские лингвистические корпусы
Национальный корпус русского языка
Общедоступный для поиска корпус русских текстов (сокращённо НКРЯ). Открыт 29 апреля 2004 в Интернете по адресу http://ruscorpora.ru. Работы по созданию Корпуса были начаты в 2001 году группой лингвистов из Москвы, Петербурга, Воронежа и других городов. Основные участники – Институт русского языка РАН, Институт языкознания РАН и компания «Яндекс».
Письменные, устные, поэтические диалектные тексты. 140 миллионов словоупотреблений в 2007 году. Корпус морфологически и семантически размечен и полностью свободен для использования при помощи веб-сайта.
Пример поиска одушевлённых существительных женского рода множественного числа в родительном падеже (НКРЯ)
1. Например, выяснилось, что в английском языке quite чаще сочетается со словами типа obviously, а absolutely – с отрицательной лексикой (absolutely not).
Курс «Корпусная лингвистика» (А.Б. Кутузов), ТюмГУ
Лицензия Creative commons Attribution Share-Alike 3.0 Unported