В этой статье есть несколько проблем. Помогите улучшить ее или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти сообщения )
|
Библиограмма — это графическое представление частоты встречаемости определенных целевых слов, обычно именных фраз, в заданном тексте. Термин был введен в 2005 году Говардом Д. Уайтом для обозначения изучаемого лингвистического объекта, но ранее не названного в информетрике , наукометрии и библиометрии . Имянные фразы в рейтинге могут быть авторами, журналами, предметными заголовками или другими терминами индексации. «Отрезками текста» могут быть книга, набор связанных статей, предметная библиография, набор веб-страниц и т. д. Библиограммы всегда создаются на основе сочинений, обычно из академической или научной литературы.
Библиограмма — это вербальная конструкция, созданная, когда именные фразы из обширных фрагментов текста ранжируются от высокого к низкому по частоте их совместного появления с одним или несколькими исходными терминами, предоставленными пользователем. Каждая библиограмма состоит из трех компонентов:
Как семейство распределений частот терминов, библиограмма часто описывалась следующим образом:
Иногда его называют распределением «ядро и разброс». «Ядро» состоит из относительно небольшого числа высокоранговых терминов, которые составляют непропорционально большую долю совместных вхождений в целом.
«Рассеивание» состоит из относительно большого количества терминов с более низким рангом, которые составляют оставшуюся долю совместных появлений. Обычно термины с высоким рангом не связаны по частоте, но одинаковые частоты и связанные ранги становятся более распространенными по мере уменьшения частот. В нижней части распределения длинный хвост терминов связан по рангу, поскольку каждый из них встречается совместно с исходным термином только один раз.
В большинстве случаев библиограммы можно описать степенными законами, такими как закон Ципфа и закон Брэдфорда . В связи с этим они давно изучаются математиками и статистиками в области информатики. Однако эти методы обычно игнорируют качественные значения самих ранжированных терминов, которые часто представляют интерес сами по себе. Например, следующая библиограмма была создана с именем автора в качестве начального и показывает дескрипторы, которые встречаются вместе с ее именем в базе данных ERIC . Дескрипторы ранжируются по тому, сколько ее статей они использовали для индексации:
6 Творчество4 теста на креативность3 Дивергентное мышление2. Математика начальной школы2 Инструкция2 Математическое образование2 Решение проблем2 Исследования2 Время1 Ускорение1 Тревога1 Начинающие учителя1 Поведенческие цели1 Развитие ребенка1 Методы работы в классе1 Когнитивное развитие и т. д.
Этот автор является исследователем в области образования, и будет видно, что термины отражают ее интеллектуальные интересы на протяжении многих лет. В целом, библиограммы могут использоваться для:
Библиограммы можно создавать с помощью команды RANK в Dialog (у других поставщиков есть похожие команды), опций ранжирования в WorldCat , HistCite , Google Scholar и недорогого программного обеспечения для анализа контента.
Уайт предполагает, что библиограммы имеют параллельную конструкцию в том, что он называет ассоциограммами . Это упорядоченные по рангу списки норм ассоциаций слов, изучаемые в психолингвистике . Они похожи на библиограммы по статистической структуре, но не генерируются из текстов. Вместо этого они генерируются путем представления группам людей стимульного термина (который функционирует как начальный термин) и табулирования слов, которые они ассоциируют с начальным термином, по частоте совместного появления. В настоящее время они представляют интерес для специалистов по информации как нестандартный способ создания тезаурусов для поиска документов.
Другие примеры библиограмм — это упорядоченный набор соавторов автора или список авторов, которые опубликованы в определенном журнале вместе с их количеством статей. Популярным примером является список дополнительных названий, которые следует рассмотреть для покупки, который вы получаете при поиске элемента на Amazon . Эти предлагаемые названия являются верхними терминами в «ядре» библиограммы, сформированной с вашим поисковым термином в качестве начального. Частоты — это количество раз, когда они были совместно куплены с начальным.
Примеры ассоциограмм можно найти в Эдинбургском ассоциативном тезаурусе.
Похожие, но разные методы используются в кластеризации данных и интеллектуальном анализе данных . Google Sets также создает список связанных терминов для заданного набора терминов.