Кто не делится найденным, подобен свету в дупле секвойи (древняя индейская пословица)

Версия для печати

Библиографическая запись: Извлечение информации из корпуса. — Текст : электронный // Myfilology.ru – информационный филологический ресурс : [сайт]. – URL: https://myfilology.ru//177/izvlechenie-informaczii-iz-korpusa/ (дата обращения: 11.12.2023)

Извлечение информации из корпуса

Содержание

Методы извлечения информации из корпуса

Лингвистическая информация из корпуса извлекается при помощи специальных компьютерных программ. Есть два основных источника разработки подобных программ. Во- первых, это лингвистические отделы больших коммерческих проектов, в основном, связанных с публикацией словарей. Например, Cobuild Project. Часто это закрытое программное обеспечение, стоящее больших денег. Второй источник разработки — компьютерная лингвистика и учёные, которые ей занимаются. В её рамках было создано немало программ, осуществляющих автоматический анализ грамматики и семантики, анализ и синтез текста, автоматический перевод и другие приложения для компьютерной обработки естественного языка. Конечно, не был обойдён стороной и анализ корпусов, в том числе, средства автоматической грамматической и синтаксической разметки — вероятностные (probabilistic), либо на основе правил (rule-based). Такие программы, разработанные самостоятельными исследовательскими группами (или даже отдельными учёными) часто бесплатны или вообще открыты для изучения (open source).

Типы извлекаемой информации

Для поиска и извлечения информации из корпуса используется некоторое количество довольно стандартных процедур. Самый простой формат отображения информации о корпусе — это простые списки. Эти списки могут быть разных типов — от простых глоссариев до конкордансов. Давайте посмотрим на то, как всё это может быть представлено.

Списки слов и конкордансы

Часто нужно разобраться со словами, которые употребляются в тексте. Список слов (word list) в самой простой своей форме – это попросту список всех слов, содержащихся в исследуемом тексте. Многие программы создают лемматизированные (lemmatized) списки, в которых разные грамматические формы слова показаны, как одно слово. Например, goes и will go будут показаны в одной строке с go. Иногда программа позволяет создать список не только по словам, но и по словосочетаниям из двух или трёх слов.

Часто этот список отсортирован по частоте встречаемости слов или по алфавиту. Такой список даёт базу для терминологических исследований и позволяет составить глоссарий. Например, возьмём такой текст:

There are two possible approaches to automating the translation process:

Machine translation:

Machine translation has been a Holy Grail of the IT industry for more than 40 years. There have been significant advances in language technology over this period and we all benefit from these on a day to day basis when we use spelling and grammar checkers and ever more sophisticated search engines.

One of the fundamental reasons why machine translation has not so far produced convincing results is that language is more than mere words and grammar. Language conveys meaning and until you can clearly define and understand what is being conveyed you cannot hope to translate it. A good test of a Machine Translation system is to translate the text into the target language and then back again - the results can be quite comical.

Translation Memory:

Translation memory works by aligning previously translated text in a target language with the source language. This is accomplished either by the use of a manual tool, or automatically by using a controlled environment for the translation process. Alignment is usually done at a sentence level. This affords the best level of usable granularity. The aligned source and target text is held in a repository. The next time the document is updated the repository is searched in order to locate any text that has not changed. Where such a sentence is identified the source language text can be replaced with the target language text.

This relatively low tech method can nevertheless provide benefits in terms of translation consistency and reduced costs.

Вот список всех словоформ или типов, которые встречаются в данном тексте, отсортированных по частоте:

Ранг	Частота	Слово
1	14	the
2	10	is
3	9	a
4	9	and
5	7	language
6	6	of
7	6	text
8	6	translation
9	5	in
10	5	to
11	4	can
12	4	target
13	3	by
14	3	has
15	3	Machine
16	3	more
17	3	source
18	3	This
19	3	Translation

В целом, в этом тексте 152 словоформы (types) и 259 словоупотреблений (tokens).

Уже по такому простому списку можно получить большое количество информации об употреблении слов в тексте. Например, можно видеть, что 10 самых частотных слов (the, is, a, and, language, of, text, translation, in, to) в целом соответствуют средним значениям для английского языка, за исключением появления трёх слов — language, text и translation. Здесь уже можно говорить о ключевых словах текста.

Однако, формат простого списка не даёт возможности снять полисемию и неоднозначность грамматического класса слова, поскольку это невозможно сделать без контекста. Чтобы разобраться с этим вопросом, нам нужно будет перейти к понятию «конкорданс» (concordance).

Конкорданс - это не просто список слов или словосочетаний. Его ценность в том, что он даёт контекст слова. То есть, мы можем запустить поиск и получить все появления данного конкретного слова в тексте. Результаты поиска показываются в формате, который называется KWIC (key word in context). Обычно при щелчке на строку программа-конкордансер выдаёт полный контекст.

Результаты поиска можно сортировать по-разному. Вы можете настроить программу на показ того или иного количества слов справа и слева от искомого термина. Также возможно изменять порядок строк конкорданса: например, если вы искали существительное, то можете попросить конкордансер, чтобы он отсортировал в алфавитном порядке слова, непосредственно предшествующие слову поиска. Это поможет вам найти подходящие прилагательные, которые можно употреблять со словом поиска. Таким образом можно, например, обнаружить, что справа от слова computer очень часто стоят слова hardware, software и problem.

Конкорданс, сгенерированный программой AntConc по слову "human" (поиск по роману Курта Воннегута Slaughterhouse-Five)

Можно видеть, что конкордансы чрезвычайно полезны для изучения устойчивых словосочетаний (коллокаций). Мы можем искать типичные случаи употребления слов в одной коллокации.

Одной из наиболее распространённых программ-конкордансеров является WordSmith Tools1 Майка Скотта из Оксфордского университета, но она платная. Учитывая, что автор живёт в Великобритании, купить её в России затруднительно. Впрочем, можно скачать демонстрационную версию с ограниченными возможностями. Практически ничем WordSmith не уступает бесплатный AntConc, разработанный японскими учёными2 . В нём реализованы все необходимые функции — список слов, конкорданс, поиск коллокаций. Отечественная лингвистика может гордиться разработками группы «Автоматическая обработка текста»3 , среди которых есть и доступный для свободного скачивания конкордансер Dialing Concordance (DDC). По возможностям он пока значительно уступает AntConc, но зато обладает встроенным морфологическим анализатором и способен понимать русское словоизменение, например, по запросу «студент», находить так же слова «студентов» и «студенткой». Недавно появился полностью свободный конкордансер Corsis1 (ранее назывался Tenka Text), который стремится стать полнофункциональной заменой для WordSmith Tools. Он разрабатывается в Германии.

Поиск коллокаций в программе AntConc

Помимо конкордансов программы анализа корпусов обычно отображают и базовую статистическую информацию о корпусе: соотношение числа словоформ и словоупотреблений, среднюю длину предложения, количество предложений и их распределение по длине, индекс исключительности (каков процент слов, употреблявшихся лишь один раз), индекс постоянства (каков процент частых слов) и так далее.

Перед тем, как создавать свой корпус, будет небесполезно прочитать текст Джона Синклера «How to build a corpus», расположенный по адресу http://www.ahds.ac.uk/creating/guides/linguistic-corpora/appendix.htm

1. 1 http://www.lexically.net/wordsmith/

2. http://www.antlab.sci.waseda.ac.jp/software.html

3. http://www.aot.ru

Курс «Корпусная лингвистика» (А.Б. Кутузов), ТюмГУ
Лицензия Creative commons Attribution Share-Alike 3.0 Unported

07.06.2016, 7279 просмотров.