Библиограмма

Визуализация данных

Библиограмма — это графическое представление частоты встречаемости определенных целевых слов, обычно именных фраз, в заданном тексте. Термин был введен в 2005 году Говардом Д. Уайтом для обозначения изучаемого лингвистического объекта, но ранее не названного в информетрике , наукометрии и библиометрии . Имянные фразы в рейтинге могут быть авторами, журналами, предметными заголовками или другими терминами индексации. «Отрезками текста» могут быть книга, набор связанных статей, предметная библиография, набор веб-страниц и т. д. Библиограммы всегда создаются на основе сочинений, обычно из академической или научной литературы.

Определение

Библиограмма — это вербальная конструкция, созданная, когда именные фразы из обширных фрагментов текста ранжируются от высокого к низкому по частоте их совместного появления с одним или несколькими исходными терминами, предоставленными пользователем. Каждая библиограмма состоит из трех компонентов:

Исходный термин, задающий контекст.
Слова, которые встречаются вместе с начальным словом в некоторых наборах записей.
Количество (частотность), по которому можно расположить совместно встречающиеся слова в порядке убывания.

Как семейство распределений частот терминов, библиограмма часто описывалась следующим образом:

положительное асимметричное распределение
эмпирический гиперболический
безмасштабная (см. также Безмасштабная сеть )
степенной закон
распределение размеров по частоте
обратный-J

Иногда его называют распределением «ядро и разброс». «Ядро» состоит из относительно небольшого числа высокоранговых терминов, которые составляют непропорционально большую долю совместных вхождений в целом.

«Рассеивание» состоит из относительно большого количества терминов с более низким рангом, которые составляют оставшуюся долю совместных появлений. Обычно термины с высоким рангом не связаны по частоте, но одинаковые частоты и связанные ранги становятся более распространенными по мере уменьшения частот. В нижней части распределения длинный хвост терминов связан по рангу, поскольку каждый из них встречается совместно с исходным термином только один раз.

В большинстве случаев библиограммы можно описать степенными законами, такими как закон Ципфа и закон Брэдфорда . В связи с этим они давно изучаются математиками и статистиками в области информатики. Однако эти методы обычно игнорируют качественные значения самих ранжированных терминов, которые часто представляют интерес сами по себе. Например, следующая библиограмма была создана с именем автора в качестве начального и показывает дескрипторы, которые встречаются вместе с ее именем в базе данных ERIC . Дескрипторы ранжируются по тому, сколько ее статей они использовали для индексации:

6 Творчество4 теста на креативность3 Дивергентное мышление2. Математика начальной школы2 Инструкция2 Математическое образование2 Решение проблем2 Исследования2 Время1 Ускорение1 Тревога1 Начинающие учителя1 Поведенческие цели1 Развитие ребенка1 Методы работы в классе1 Когнитивное развитие и т. д.

Этот автор является исследователем в области образования, и будет видно, что термины отражают ее интеллектуальные интересы на протяжении многих лет. В целом, библиограммы могут использоваться для:

предложить дополнительные термины для стратегий поиска
характеризуют работу ученых, деятелей науки или учреждений
показать, кого цитирует автор с течением времени
показать, кто цитирует автора с течением времени
показать других авторов, с которыми автор цитируется совместно с течением времени
показать темы, связанные с журналом или автором
показать авторов, организации или журналы, связанные с темой
показать коды библиотечной классификации, связанные с предметными рубриками, и наоборот
показать популярность предметов в фондах библиотек
моделировать структуру литературы с терминами заголовков, дескрипторами, именами авторов, названиями журналов

Библиограммы можно создавать с помощью команды RANK в Dialog (у других поставщиков есть похожие команды), опций ранжирования в WorldCat , HistCite , Google Scholar и недорогого программного обеспечения для анализа контента.

Уайт предполагает, что библиограммы имеют параллельную конструкцию в том, что он называет ассоциограммами . Это упорядоченные по рангу списки норм ассоциаций слов, изучаемые в психолингвистике . Они похожи на библиограммы по статистической структуре, но не генерируются из текстов. Вместо этого они генерируются путем представления группам людей стимульного термина (который функционирует как начальный термин) и табулирования слов, которые они ассоциируют с начальным термином, по частоте совместного появления. В настоящее время они представляют интерес для специалистов по информации как нестандартный способ создания тезаурусов для поиска документов.

Примеры

Другие примеры библиограмм — это упорядоченный набор соавторов автора или список авторов, которые опубликованы в определенном журнале вместе с их количеством статей. Популярным примером является список дополнительных названий, которые следует рассмотреть для покупки, который вы получаете при поиске элемента на Amazon . Эти предлагаемые названия являются верхними терминами в «ядре» библиограммы, сформированной с вашим поисковым термином в качестве начального. Частоты — это количество раз, когда они были совместно куплены с начальным.

Примеры ассоциограмм можно найти в Эдинбургском ассоциативном тезаурусе.

Другие методы

Похожие, но разные методы используются в кластеризации данных и интеллектуальном анализе данных . Google Sets также создает список связанных терминов для заданного набора терминов.

Смотрите также

Ссылки

Howard D. White (2005): On Extending Informetrics: An Opinion Paper . В: Труды 10-го Международного конгресса Международного общества наукометрии и информетрии. Стокгольм, стр. 442-449