Кто не делится найденным, подобен свету в дупле секвойи (древняя индейская пословица)
Версия для печати
Библиографическая запись: Создание собственного корпуса. — Текст : электронный // Myfilology.ru – информационный филологический ресурс : [сайт]. – URL: https://myfilology.ru//177/sozdanie-sobstvennogo-korpusa/ (дата обращения: 27.09.2023)
Создание собственного корпуса
Содержание
Многие лингвисты работают с уже существующими масштабными корпусами — например, с British National Corpus или с корпусом Cobuild Project. Тем не менее, часто возникает необходимость изучить какие-то тексты, до сих пор не вошедшие в известные корпусы. Кроме того, не всегда есть возможность использовать эти «гиганты». В этом случае лингвист может составить свой собственный корпус из своих источников и исследовать уже его. В этой лекции мы рассмотрим некоторые вопросы, связанные с созданием своего корпуса — в основном, те, которые могут вызвать сложности при работе над проектом на зачёт.
Планирование
Лингвистический корпус — это некое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая тексты. Тип корпуса и его структура зависят от его предназначения. Это означает, что прежде чем начать планирование корпуса, необходимо определиться, что же именно мы хотим исследовать. Например, нам интересны лингвистические особенности рекламных текстов в журнале Cosmopolitan в 2007 году. Здесь уже определена тематика текстов, а так же место и время их размещения. Это вполне конкретная лингвистическая задача. В данном случае корпус будет синхроническим, но вполне можно себе представить соответствующее диахроническое исследование — например, сравнение рекламных текстов в этом же журнале в 80-х годах и в 2000-ых. Отметим, что изучать просто «тексты из Cosmopolitan» было бы, наверное, некорректно, поскольку они принадлежат к разным категориям с разными коммуникативными интенциями. Для такого исследования нужно было бы сначала категоризировать все тексты этого журнала и затем собирать корпус с учётом этой классификации.
Принципиальным так же является решение об устном или письменном наполнении корпуса. Устные тексты сложнее разбить на категории, поэтому даже планирование устного корпуса связано с немалыми трудностями. Но, скорее всего, большинство студентов будут сдавать на зачёт письменный корпус, так что им это не грозит.
Важное значение имеет и размер корпуса. Ранее в лекциях говорилось об устоявшемся стандарте в 1 миллион словоупотреблений (word tokens, running words). На зачёт вам необходимо собрать корпус всего лишь не менее 10 тысяч словоупотреблений. Но это не значит, что он будет «неполноценным». Такой размер корпуса вполне достаточен для многих лингвистических исследований — разве что кроме изучения масштабных дискурсивных связей в длинных текстах. Есть хорошая фраза: «Не пытайтесь сочинить идеальный корпус — лучше подробно опишите имеющийся.»
При наборе текстов в корпус всегда желательно учитывать такие экстралингвистические факторы, как источники текстов, их авторы (их пол, возраст, профессия, национальность), носитель текста, место действия, тематика, дата публикации, возраст и размер предполагаемой аудитории и т.д.
Продолжим наш пример с Cosmopolitan. После того, как мы определились с тематикой и временем (рекламные тексты, 2007 год), нам нужно выбрать собственно сами тексты. И тут мы встаём перед выбором: либо взять в корпус все рекламные тексты журнала за этот год, либо провести выборку (sampling) нескольких текстов, на базе анализа которых можно будет делать выводы о всех остальных. Выборку применяют очень часто, поскольку редко когда можно внести в корпус все интересующие нас тексты. В данном случае выборка играет роль модели явления. Выборка должна быть строго случайной, не зависящей от субъективных моментов. Например, мы можем выбирать 5 рекламных текстов из каждого номера за этот год, причём эти 5 текстов должны быть равномерно распределены по журналу (к примеру, быть расположенными на 10, 30, 50, 70 и 90 страницах). Аналогичным образом выборка осуществляется и в других случаях. Ещё раз отметим, что если явление, которое мы анализируем, является сложным, состоящим из нескольких классов, то и наша выборка (модель) должна отражать это деление.
Итак, перед тем, как начать составлять корпус, нам нужно знать следующее:
- 1. Какова логическая идея которая положена в основу корпуса?
- 2. С каким объёмом данных мы будем работать при составлении корпуса? Насколько это необходимо и реалистично?
- 3. Используем отрывки из текстов, полные тексты или то и другое?
- 4. Какова процедура отбора текстов в корпус?
Сбор и оцифровка данных
В качестве источников текстов для корпуса можно использовать как цифровые, так и не цифровые носители. Естественно, в последнем случае понадобится каким-то образом ввести текст в компьютер: заново набрать его, либо отсканировать и распознать (конечно, с последующим редактированием). Например, в нашем случае с Cosmopolitan у нас нет электронных версий рекламных текстов, поэтому нам придётся приложить усилия для их оцифровки (приведения в computer-readable вид).
Однако в настоящее время большинство корпусов составляются из текстов, которые уже находятся в цифровой электронной форме (благодаря нарастающей компьютеризации). Для проекта на зачёт вам так же, скорее всего, будет логично использовать уже существующие электронные версии необходимых документов. Это резко снижает сложность составления корпуса.
Один из очевидных источников уже оцифрованных текстов — Интернет, который сам по себе является титаническим текстовым корпусом. В первую очередь, это, конечно, веб- страницы, но не нужно забывать и про другие интернет-каналы, по которым циркулируют огромные объёмы текстов: электронная почта, общение в ICQ и других мессенджерах, в социальных сетях, чаты, IRC и т.п. Можно использовать и другие источники текстов в электронном виде, если составитель корпуса может обосновать их привлечение.
Ввод в компьютер звуковых данных (в случае с устным корпусом) ещё более затруднён, но и результаты, которые может дать такой корпус более интересны.
Формат и кодировка текста
Храните тексты для корпуса в простом текстовом формате (plain text, *.txt). Во-первых, он занимает меньше места, чем сложные форматы типа MS Word. Во-вторых, хотя современные программы анализа корпусов обычно могут работать с документами в формате HTML (XML), но всё-таки это менее надёжно, чем простой текст. Plain text — это простая последовательность букв, пробелов и знаков пунктуации. Такие файлы будет понимать любая программа везде и всегда, а при необходимости вы в любой момент сможете сконвертировать их в любой другой формат по своему выбору. Не храните ваши корпусы в MS Word — это не имеет никакого смысла! Кстати, не забывайте про резервные копии.
Ещё один тонкий момент — кодировка ваших файлов. Дело в том, что компьютеры создавались для работы на английском языке (точнее, с латинскими алфавитами). Отсюда многочисленные проблемы, связанные с тем, что нет чёткого договора, как именно компьютер должен обрабатывать и отображать символы других алфавитов (например, кириллицу, которой пользуется русский язык). Многие наверняка сталкивались с этим, когда видели в Интернете страницы, на которых текст представлен нечитаемыми «иероглифами» или вместо текста на экране оказывается бессмысленная последовательность кириллических букв. Это происходит из-за того, что существует несколько так называемых «кодировок» (англ. encodings), которые описывают русский алфавит — среди них koi8-r или cp1251. Ни одну из них нельзя назвать стандартом. Кроме того, не так давно появилась кодировка Unicode, которая поддерживает символы всех алфавитов всех языков мира, включая даже египетские иероглифы. Но пока не все программы готовы с ней работать.
Любой текстовый файл сохранён в одной из этих кодировок. Соответственно, если программа анализа корпуса считает, что кодировка одна, а на самом деле она другая — то файл будет прочитан неверно и вместо слов вы получите те самые бессмысленные наборы символов. Что тут можно посоветовать? Мы рекомендуем пользоваться либо Unicode (предпочтительнее), либо CP-1251. CP-1251 является стандартной кодировкой для MS Windows, а Unicode удобнее, поскольку может использоваться для любого языка. Когда вы сохраняете файл как «кодированный текст» в MS Word или в OpenOffice.org, то вам будет предложено выбрать кодировку.
Если вы анализируете текст в AntConc, то там вы можете указать кодировку для файлов, которые загружаете в него (в меню Global Settings — Encodings). Corsis воспринимает кириллические тексты только если они сохранены в кодировке Unicode. Dialing, напротив, считает, что кириллические тексты должны быть только в CP-1251. Но у вас всегда есть выход — вы можете сохранять один и тот же текст сколько угодно раз в различных кодировках.
С английскими текстами таких проблем нет, они будут нормально читаться и анализироваться вне зависимости от кодировки.
Разметка (аннотирование) корпуса
Вы можете разметить свой корпус, то есть, добавить в тексты какие-то служебные пометки (например, части речи). В этом случае внимательно перечитайте лекцию номер пять, в которой говорилось о лингвистической разметке корпусов. Разметка поможет вам искать какие-то специфические места в текстах, но, учитывая небольшой размер корпусов, вряд ли имеет смысл разрабатывать масштабную систему разметки. Если же она всё-таки понадобится, то, скорее всего, нужно будет использовать при её создании стандарты XML и TEI.
Хранение и презентация корпуса
Окончательный корпус должен соответствовать отраслевым стандартам и быть представлен, как продукт, готовый к отправке заказчику. То есть, он должен быть адекватно оформлен.
Курс «Корпусная лингвистика» (А.Б. Кутузов), ТюмГУ
Лицензия Creative commons Attribution Share-Alike 3.0 Unported