Кто не делится найденным, подобен свету в дупле секвойи (древняя индейская пословица)
Версия для печати
Библиографическая запись: Корпусы: аннотированные и неаннотированные. Лингвистическая аннотация (разметка) и метаданные. — Текст : электронный // Myfilology.ru – информационный филологический ресурс : [сайт]. – URL: https://myfilology.ru//177/korpusy-annotirovannye-i-neannotirovannye-lingvisticheskaya-annotacziya-razmetka-i-metadannye/ (дата обращения: 27.09.2023)
Корпусы: аннотированные и неаннотированные. Лингвистическая аннотация (разметка) и метаданные
Содержание
В соответствии с классификацией по признаку наличия какой-либо индексации, корпусы бывают raw и annotated, или, говоря по-русски, простые и аннотированные. Вообще, для широко известных современных корпусов эта классификация уже утратила актуальность, поскольку все они являются аннотированными. Что, впрочем, не исключает возможности сделать какой-то небольшой корпус безо всякой аннотации.
Итак, чем же корпусных лингвистов так привлекают аннотированные корпусы?
Что такое разметка?
Знаки пунктуации — это разметка.
Маргиналии на полях средневековых манускриптов — это разметка.
Под лингвистической аннотацией или разметкой корпуса (по-английски linguistic markup) подразумевается наличие в корпусе неких данных, не являющихся частью текста, но несущих какую-то информацию о нём (так называемые метаданные). Простейший пример таких данных — отметки частей речи. Выглядеть это может так:
I will use Google before asking dumb questions.
Размечаем:
I (pronoun)will (verb) use (verb) Google (noun) before (preposition) asking (verb) dumb (adjective) questions (noun) .
В основном это нужно для облегчения автоматического анализа корпуса. Один раз отметив в тексте все части речи, затем можно производить любые исследования, связанные с ними без необходимости заново выявлять, например, все прилагательные в корпусе. Понятно, что если такой разметки нет, то, к примеру, поиск по слову «will» выдавал бы все случаи его появления в корпусе, вне зависимости от того, существительное это или вспомогательный глагол. Но ведь обычно исследователя интересует лишь какой-то один из этих случаев! И это далеко не единственный тип разметки, который бывает нужен корпусному лингвисту.
История систем разметки
В 80-х годах был принят стандарт разметки электронных текстов под названием SGML (1) (Standard Generalized Markup Language).Он был разработан внутри типографской индустрии, но быстро распространился на другие отрасли. Смысл SGML был в том, чтобы документы, набранные в разных текстовых процессорах, можно было редактировать, анализировать и изменять в любом из них.
Тэги как лингвистический инструмент
SGML ввёл концепцию тэгов. Тэги (англ. tags) — это служебные пометки в тексте, содержащие информацию о самом тексте. Для каждого случая можно определять собственные тэги и таким образом создавать диалекты языка SGML.
Традиционно тэги заключаются в угловые скобки и бывают парными: открывающими и закрывающими. Например, - это открывающий тэг, а - закрывающий. Закрывающий тэг сигнализирует, что то, о чём сообщал открывающий тэг, закончилось. Приведём пример тэга (выделение важного в тексте, emphasis):
Это относится в первую очередь к вам!
В данном случае слова «в первую очередь» помечены как важные. Тэги могут быть вложенными друг в друга:
Текст «это относится в первую очередь к вам» заключён в тэги
в тэги . Количество уровней вложенности не ограничено.
Тэги могут быть и не парными, то есть, не иметь «открывающей» и «закрывающей» части. Например, при разметке устных корпусов употребляется тэг
Сами тэги в обычных обстоятельствах пользователю не показываются. Программа, отображающая размеченный текст, интерпретирует тэги в соответствии с заложенными в неё правилами и показывает пользователю текст, оформленный согласно им.
Текст с разных сторон: alternative views
Одно из наиболее значительных преимуществ разметок семейства SGML — возможность нескольких представлений текста (alternative views). Это означает, что один и тот же размеченный текст легко представить в нескольких видах, в зависимости от нашей текущей задачи. Например, мы хотим выделить из корпуса только текст, не являющийся прямой речью. Тогда та программа, в которой мы просматриваем текст, просто скроет все символы, заключённые в тэги
- сказал он.
Или мы можем указать, чтобы текст, помеченный, как важный, был зелёного цвета, а прямая речь выделялась полужирным шрифтом:
Это относится в первую очередь к вам! - сказал он.
Можно представить и гораздо более сложные alternative views. Например, тэгами можно разметить слова, которые произносят разные персонажи пьесы, а затем представлять их диалог либо в виде последовательных строчек (слова одного персонажа под словами другого), либо дать каждому персонажу отдельную колонку — так, чтобы, высказывания и ответы на них находились на одной строке (2).
Потомки SGML
Язык разметки SGML — это как бы «конструктор» языков. Сам по себе, в своём первозданном виде, он очень сложен и используется довольно редко. Но на его базе были созданы такие широко известные языки разметки, как HTML и XML.
Язык HTML (Hyper-Text Markup Language), на котором написано подавляющее большинство страничек интернет-сайтов, создали из SGML путём выделения чётко определённого ограниченного набора тэгов, в основном относящихся к оформлению, а не к содержанию документа. В результате мы получили WWW (Всемирную Паутину).
Второе широко известное подмножество SGML — расширяемый язык разметки XML (eXtensible Markup Language), который применяется для хранения любых структурированных данных — в том числе и текстов в корпусах. Фактически, это свод синтаксических правил для описания структуры данных. Например, формат офисных документов Open Document построен именно на XML.
Специально для разметки текстовых данных (корпусов) несколько университетов (3) разработали систему, описывающую, какие именно параметры текстов нужно размечать. Эта система использует XML и называется Text Encoding Initiative Guidelines (TEI Guidelines). Это список различных особенностей текстов, которые вообще можно кодировать, размечать и индексировать. Например, система перечисляет различные типы исправлений в тексте, помарок, цитат, иностранных слов и т.д. и т.п. В настоящее время практически все проекты по созданию корпусов (в том числе British National Corpus) стараются в той или иной мере следовать рекомендациям TEI. Подробнее почитать о них можно на http://www.teic.org/Guidelines/index.xml.
Естественно, каждый, кто создаёт корпус, может сам выбирать, что именно ему размечать и насколько подробно. Но считается, что в письменном корпусе нужно размечать части речи, границы высказываний, цитаты, списки, заголовки, аббревиатуры, имена собственные, инициалы и акронимы, главы книг. В устных текстах важно разметить обмен репликами, прерывания, перекрывающуюся речь, диалектные формы, паузы и неразличимую речь.
В приложении к этой лекции приведён пример текста, размеченного в соответствии с рекомендациями TEI.
Автоматическая разметка текстов
Понятно, что размечать большие корпусы вручную — занятие очень долгое и дорогое. Поэтому уже в 70-х годах появляются первые проекты по поручению этой задачи компьютеру. Тогда программа TAGGIT смогла корректно назначить тэги частей речи 77% слов в Брауновском корпусе. Остальные пришлось размечать вручную в течение 10 лет. Но прогресс не стоял на месте. В 80-е годы система CLAWS (Constituent Likelihood Automatic Word-tagging System) правильно разметила уже около 95% Брауновского корпуса. В ней использовался вероятностный подход. В настоящее время для основных европейских языков уже реализованы как автоматическая разметка частей речи (морфологический анализ, word-class tagging), так и автоматическая разметка членов предложения (синтаксический анализ, parsing). Эти достижения используются, в том числе, и в системах автоматического перевода и интернет- поиска.
В этой связи нужно отметить немалый вклад рабочей группы учёных под названием «Автоматическая обработка текста» (сайт http://www.aot.ru). В основном они занимаются русским языком. Выросла эта группа из факультета лингвистики РГГУ и занимается приложением теоретической лингвистики к современным компьютерным технологиям. Они разработали модули графематического (определение границ слов), морфологического (определение частей речи), синтаксического (определение членов предложения) и семантического (выявление семантических связей между словами) анализа текстов на русском, немецком и английском языках.
Что ещё почитать про разметку?
- 1) James H. Coombs, Allen H. Renear, Steven J. DeRose. Markup Systems and the Future of Scholarly Text Processing, 1987
- 2) Darrel R. Raymond, Frank Wm. Tompa, Derick Wood. Markup Reconsidered, 1992
- 3) Stuart A. Yeates. Text Augmentation: Inserting mark-up into natural language text with PPM Models, 2006
Все эти статьи легко найти в Интернете.
Приложение
Пример текста, размеченного в соответствии с рекомендациями TEI, из работы Cetin Sert «Keywords of Protagonists in Shakespeare’s Tragedies». Это пьеса Шекспира «Венецианский купец». Вначале идёт заголовок корпуса со сведениями о нём, а затем сам текст:
2
3 Prepared for use in the production of a series of old-spelling Line numbers are omitted Line number pattern: "^[0-9]+: ?"
4 TENKA SOLUTIONS
ETEXT ARCHIVE
6 SHAKESPEARE MARLOWE CORPUS PROJECT
7
8 FOR EXAMPLE PURPOSES ONLY
9 SUBJECT TO FURTHER CHANGE
11
12 GLOSSARY OF TEMPORARY SYMBOLS & NOTATIONS
13
14 ... missing section:
will be added later after thoroughly
16 studying TEI guidelines
17
18 xxx TEI public release version number:
19 probably P5 will be used
21
22 2006-06-26
23 CETIN SERT
24
26 -->
27
28
29
31
32
33
34
36
37
38
39
The first folio of Shakespeare, prepared by Charlton Hinman
41 (The Norton Facsimile, 1968)
42
43
44
46
47
48
49 concordances for the corpus linguistics term-paper of Cetin Sert
51
52
53
54
56
57
58
59
60
61
62
63
64
Salanio.]
66
67
68
69
71
72
73
74
76
77
78
79
1. Стандарт ISO 8879:1986
2. Пример Graeme Kennedy
3. Оксфордский, Брауновский, университет Вирджинии и некоторые другие
Курс «Корпусная лингвистика» (А.Б. Кутузов), ТюмГУ
Лицензия Creative commons Attribution Share-Alike 3.0 Unported