Кто не делится найденным, подобен свету в дупле секвойи (древняя индейская пословица)
Версия для печати
Библиографическая запись: Координатное индексирование. — Текст : электронный // Myfilology.ru – информационный филологический ресурс : [сайт]. – URL: https://myfilology.ru//338/koordinatnoe-indeksirovanie/ (дата обращения: 26.02.2024)
Координатное индексирование
Содержание
Координатное (или посткоординатное) индексирование – это индексирование, предусматривающее многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов или дескрипторов. Согласно ГОСТ Р 7.0.66-2010 координатное индексирование - это индексирование, цель которого состоит во всестороннем отражении содержания документа или запроса путем включения в поисковый образ всех необходимых для этого терминов индексирования. Совокупность ключевых слов и дескрипторов составляет поисковый образ документа (ПОД).
Принцип координатного индексирования заключается в том что основной смысл документа или информационного запроса выражается в виде перечня ключевых слов, т.е. наиболее значимых слов или словосочетаний, которые являются как бы координатами документа или запроса.
Координатное индексирование представляет собой такой метод анализа информационного содержания документов, при котором поиск осуществлялся путем логической координации, т. е. за счет операций логического умножения, сложения и дополнения, выполняемых над введенными в систему лексическими единицами. При координатном индексировании в ПОД может включаться неограниченное число ключевых слов, что способствует сокращению потерь информации, обеспечивает большую гибкость и увеличение совпадений терминов при поиске. Однако исходя из экономических соображений число терминов на документ при его индексировании имеет некоторый предел.
Посткоординатное индексирование осуществляется на базе ИПЯ посткоординатного типа, чаще всего на базе дескрипторных ИПЯ. Лексические единицы поискового образа при таком индексировании задаются списком, перечнем и сочетаются друг с другом после поступления запроса (отсюда — «посткоординация», т. е. последующая координация).
Принцип координатного индексирования и сама идея создания ДИПЯ (дескрипторных информационно-поисковых языков) возникли в 50-е гг. XX в. связи с внедрением в информационную деятельность средств вычислительной техники и необходимостью автоматизации информационного поиска.
Принцип координатного индексирования был разработан американскими учеными М. Таубе и К. Муэрсом в первой половине 50-х гг. XX в. в связи с попытками механизации и автоматизации информационного поиска. В частности, в 1952 г. М. Таубе предложил систему «Унитерм», работающую по принципу координатного индексирования. «Унитерм» (от англ, unit term — «единичный термин, отдельное слово») — полнозначное, имеющее большую смысловую нагрузку (в отличие от служебных слов, предлогов и союзов) слово, которое выбирается из текста документа или запроса. В качестве унитермов могут выступать только отдельные слова, но не словосочетания. Следовательно, язык системы «Унитерм» характеризуется первым уровнем интеграции лексики. Например, термин информационно-поисковые системы на языке этой системы преобразуется в три унитерма: информационный, поисковый, системы.
По степени нормализации различают два типа терминов координатного индексирования - дескрипторы и ключевые слова.
Далеко не все слова, описывающие какую-либо ситуацию в индексируемом тексте, используются автором этого документа или потребителем информации. Многие слова при этом только подразумеваются, легко восстанавливаясь в сознании читателя, если он понимает содержание текста. В тексте также могут лишь подразумеваться, не упоминаясь, и важнейшие парадигматические отношения, имеющие принципиальное значение для обеспечения полноты и точности поиска информации.
Одним из средств, позволяющих обеспечить явное выражение полезных для поиска парадигматических отношений при переводе текста сообщений с естественного языка на ИПЯ, является избыточное, т. е. дополнительное индексирование, суть которого состоит в терминологическом обогащении поискового образа документа или запроса.
Избыточное индексирование — вид индексирования, при котором в ПОД или в ПОЗ включаются лексические единицы ИПЯ, отсутствующие в индексируемом тексте, но добавляемые индексатором на основании его знаний, опыта и/или использования информационно-поискового тезауруса.
Оно предусматривает дополнение ПОД словами ИПЯ, связанными парадигматическими отношениями с лексическими единицами исходного поискового образа, в результате чего получается полный поисковый образ документа. Источником лексических единиц, использующихся при избыточном индексировании, чаще всего является информационно-поисковый тезаурус.
В качестве основного лингвистического средства помощи индексатору в процессе координатного индексирования рассматриваются информационно-поисковые тезаурусы. Они облегчают отбор соответствующих запросу лексических единиц. И в этом качестве тезаурусы сравниваются с иерархическими классификациями. Преимуществом использования тезауруса можно считать его полииерархичность, т.к. построение тезауруса от общего к частному позволяет обеспечить значительно большее количество разнообразных семантических взаимосвязей между лексическими единицами.
Основополагающим документом, регламентирующим методику координатного индексирования, является ГОСТ 7.66–92. В нем подробно прописана методика и правила отбора дескрипторов, однако он больше ориентирован на индексирование с использованием тезаурусов, а не на свободное индексирование, которое в библиотечной практике больше распространено.
Значительную помощь при координатном индексировании оказывает справочная литература, т.к. бывают случаи, когда заглавие документа, его содержание являются неинформативными, не позволяющими выявить тему и ключевые слова. Кроме того, в качестве вспомогательного аппарата при координатном индексировании можно использовать деления классификационных ИПЯ, которые помогут выразить содержание документа от общего к частному. Стоит отметить, что для автоматизированного поиска не имеет значения, в каком порядке отражены понятия (использование «мешочной грамматики»). Важно во всей полноте и глубине отразить содержание документа.
Методика
В качестве КС при координатном индексировании используются лексические единицы (ЛЕ), представляющие слова (унитермы), терминологические словосочетания, фразы (в исключительных случаях), аббревиатуры, численные характеристики, хронологические данные, имена собственные, символические обозначения.
При формировании перечня ключевых слов не допускается использование аббревиатур и сокращений слов, не предусмотренных ГОСТом.
Выбранные из текста информативные слова, применяемые в качестве ключевых, при необходимости, дополняются, уточняются, изменяются.
Существуют определенные правила приведения ключевых слов к стандартной лексикографической форме.
Прилагательные не считаются самостоятельными ключевыми словами, они включаются в словосочетания:
- а) когда характеризуют существительное, например, биржевые операции;
- б) когда прилагательное является неотъемлемой частью устойчивого словосочетания, например, магнитные бури, производственные отношения
Сочетания существительного с существительным даются, если это широко распространенные и устойчивые, часто употребляемые
словосочетания, например, источники света, средства связи.
Словосочетание из одного существительного и нескольких прилагательных преобразуется в несколько двухсловных ключевых слов, в которых одно и то же существительное сопровождается поочередно одним прилагательным, например, мировые финансовые кризисы = мировые кризисы, финансовые кризисы.
В сочетаниях существительных с прилагательными инверсия не применяется.
В словосочетаниях числительного с существительным применяется инверсия. Порядковые числительные инверсируются тогда, когда они обозначают очередность явления или события при последовательном их повторении, например, Олимпийские игры, 18-е
Преимущество метода координатного индексирования проявляется при необходимости многоаспектного поиска информации на определенную тему. В этом заключается его преимущество по сравнению с языком предметных рубрик, который, в силу своей специфики, не способен глубоко отразить тему документа и обеспечить многоаспектный поиск. По предметным рубрикам нельзя найти какой-то аспект темы, невозможно перечислить, например, все персоналии, отраженные в книге. Основные достоинства этого подхода к раскрытию содержания документов и поиску информации заключаются в том, что он позволяет находить информацию по любому, заранее не предвиденному сочетанию признаков. Кроме того, при появлении совершенно новых направлений исследований можно вести поиск во всем массиве документов, ранее индексированных по этому методу.
- Агаркова И. А. Лингвистическое обеспечение процессов каталогизации научной библиотеки / И.А. Агаркова, Г.С. Щербинина // Библиотеки вузов Урала. – 2011. – № 10. - С. 89-110.
- Индексирование документов. Общие требования к координатному индексированию : ГОСТ 7.0.66-2010. – М., 2011.
- Гендина Н. И. Лингвистические средства библиотечно-информационных технологий : учебник по направлению подготовки 071900 "Библиотечно-информационная деятельность" (квалификация "бакалавр") / Н. И. Гендина. - Санкт-Петербург : Профессия, 2015. - 439 с.
- Скипор И. Л. Методика координатного индексирования / И. Л. Скипор // Фонды и каталоги Кузбасса : Опыт. Проблемы. Решения.: Сб. - 2002. - Вып.1. - С. 139-146. – URL: http://www.libhelp.ru/documents/founds/vip1/vip1.24.htm