Автоматическая аннотация изображений

Результат работы программного обеспечения DenseCap для «плотного субтитрования», анализирующего фотографию человека, едущего на слоне

Автоматическое аннотирование изображений (также известное как автоматическое тегирование изображений или лингвистическое индексирование ) — это процесс, с помощью которого компьютерная система автоматически назначает метаданные в форме подписей или ключевых слов цифровому изображению . Это применение методов компьютерного зрения используется в системах поиска изображений для организации и поиска интересующих изображений в базе данных .

Этот метод можно рассматривать как тип многоклассовой классификации изображений с очень большим количеством классов — таким же большим, как размер словаря. Обычно анализ изображений в форме извлеченных векторов признаков и обучающих слов-аннотаций используется методами машинного обучения для попытки автоматического применения аннотаций к новым изображениям. Первые методы изучали корреляции между признаками изображения и обучающими аннотациями. Впоследствии были разработаны методы с использованием машинного перевода для попытки перевести текстовый словарь в «визуальный словарь», представленный кластеризованными областями, известными как капли. Последующая работа включала подходы к классификации, модели релевантности и другие связанные методы.

Преимущества автоматического аннотирования изображений по сравнению с поиском изображений на основе содержимого (CBIR) заключаются в том, что запросы могут быть более естественно заданы пользователем. [1] В настоящее время поиск изображений на основе содержимого (CBIR) обычно требует от пользователей поиска по концепциям изображений, таким как цвет и текстура , или путем поиска примеров запросов. Однако определенные особенности изображений в примерах изображений могут переопределять концепцию, на которой пользователь действительно сосредоточен. Традиционные методы поиска изображений, такие как используемые библиотеками, полагались на вручную аннотированные изображения, что является дорогостоящим и трудоемким, особенно с учетом больших и постоянно растущих баз данных изображений.

Смотрите также

Ссылки

  1. ^ "Архивная копия" (PDF) . i.yz.yamagata-u.ac.jp . Архивировано из оригинала (PDF) 8 августа 2014 года . Получено 13 января 2022 года .{{cite web}}: CS1 maint: архивная копия как заголовок ( ссылка )
  • Датта, Ритендра; Дхирадж Джоши; Цзя Ли ; Джеймс З. Ван (2008). «Поиск изображений: идеи, влияния и тенденции нового века». ACM Computing Surveys . 40 (2): 1– 60. doi :10.1145/1348246.1348248. S2CID  7060187.
  • Николя Эрве; Ножа Бужемаа (2007). «Аннотация изображений: какой подход для реалистичных баз данных?» (PDF) . Международная конференция ACM по поиску изображений и видео . Архивировано из оригинала (PDF) 2011-05-20.
  • M Inoue (2004). «О необходимости поиска изображений на основе аннотаций» (PDF) . Практикум по поиску информации в контексте . стр.  44–46 . Архивировано из оригинала (PDF) 2014-08-08.

Дальнейшее чтение

  • Модель совместного употребления слов
Y Mori; H Takahashi & R Oka (1999). "Преобразование изображения в слово на основе деления и векторного квантования изображений со словами". Труды Международного семинара по интеллектуальному хранению и управлению поиском мультимедиа . CiteSeerX  10.1.1.31.1704 .
  • Аннотация как машинный перевод
P Duygulu; K Barnard; N de Fretias & D Forsyth (2002). «Распознавание объектов как машинный перевод: изучение лексикона для фиксированного словаря изображений». Труды Европейской конференции по компьютерному зрению . С.  97–112 . Архивировано из оригинала 2005-03-05.
  • Статистические модели
J Li & JZ Wang (2006). «Компьютеризированное аннотирование изображений в реальном времени». Proc. ACM Multimedia . С.  911–920 .
JZ Wang & J Li (2002). «Обучающее лингвистическое индексирование изображений с помощью двумерных MHMM». Proc. ACM Multimedia . С.  436–445 .
  • Автоматическая лингвистическая индексация изображений
J Li & JZ Wang (2008). «Компьютеризированное аннотирование изображений в реальном времени». Труды IEEE по анализу образов и машинному интеллекту .
J Li & JZ Wang (2003). «Автоматическая лингвистическая индексация изображений с помощью подхода статистического моделирования». Труды IEEE по анализу образов и машинному интеллекту . С.  1075–1088 .
  • Иерархическая модель аспектного кластера
K Barnard; DA Forsyth (2001). «Изучение семантики слов и изображений». Труды Международной конференции по компьютерному зрению . С.  408–415 . Архивировано из оригинала 28.09.2007.
  • Модель распределения скрытых Дирихле
D Blei; A Ng & M Jordan (2003). "Скрытое распределение Дирихле" (PDF) . Журнал исследований машинного обучения . стр. 3:993–1022. Архивировано из оригинала (PDF) 16 марта 2005 г.
G Carneiro; AB Chan; P Moreno & N Vasconcelos (2006). «Управляемое обучение семантических классов для аннотации и поиска изображений» (PDF) . Труды IEEE по анализу образов и машинному интеллекту . С.  394–410 .
  • Сходство текстуры
RW Picard & TP Minka (1995). "Vision Texture for Annotation". Мультимедийные системы .
  • Метод опорных векторов
С Кусано; Дж. Чокка и Р. Скеттини (2004). Сантини, Симона и Скеттини, Раймондо (ред.). «Аннотация изображения с использованием SVM». Интернет-изображения V . 5304 : 330–338 . Бибкод : 2003SPIE.5304..330C. дои : 10.1117/12.526746. S2CID  16246057.
  • Ансамбль деревьев решений и случайных подокнов
R Maree; P Geurts; J Piater & L Wehenkel (2005). «Случайные подокна для надежной классификации изображений». Труды Международной конференции IEEE по компьютерному зрению и распознаванию образов . стр. 1:34–30.
  • Максимальная энтропия
J Jeon; R Manmatha (2004). «Использование максимальной энтропии для автоматического аннотирования изображений» (PDF) . Международная конференция по поиску изображений и видео (CIVR 2004) . стр.  24–32 .
  • Модели релевантности
J Jeon; V Lavrenko & R Manmatha (2003). "Автоматическое аннотирование и поиск изображений с использованием моделей релевантности кросс-медиа" (PDF) . Труды конференции ACM SIGIR по исследованиям и разработкам в области поиска информации . С.  119–126 .
  • Модели релевантности с использованием непрерывных функций плотности вероятности
V Lavrenko; R Manmatha & J Jeon (2003). "Модель для изучения семантики изображений" (PDF) . Труды 16-й конференции по достижениям в области нейронных систем обработки информации NIPS .
  • Модель связного языка
R Jin; JY Chai; L Si (2004). "Эффективное автоматическое аннотирование изображений с помощью последовательной языковой модели и активного обучения" (PDF) . Труды MM'04 .
  • Сети вывода
D Metzler & R Manmatha (2004). "Подход к поиску изображений с помощью сетей вывода" (PDF) . Труды Международной конференции по поиску изображений и видео . С.  42–50 .
  • Множественное распределение Бернулли
S Feng; R Manmatha & V Lavrenko (2004). "Множественные модели релевантности Бернулли для аннотирования изображений и видео" (PDF) . Конференция IEEE по компьютерному зрению и распознаванию образов . стр.  1002–1009 .
  • Несколько вариантов дизайна
JY Pan; HJ Yang; P Duygulu; C Faloutsos (2004). "Автоматическое создание подписей к изображениям" (PDF) . Труды Международной конференции IEEE 2004 года по мультимедиа и экспо (ICME'04) . Архивировано из оригинала (PDF) 2004-12-09.
  • Подпись к изображению
Куан Хоанг Лам; Куанг Зуй Ле; Киет Ван Нгуен; Нган Луу-Туй Нгуен (2020). «UIT-ViIC: набор данных для первой оценки вьетнамских подписей к изображениям». Труды Международной конференции по вычислительному коллективному интеллекту 2020 года (ICCCI 2020) . arXiv : 2002.00175 . doi : 10.1007/978-3-030-63007-2_57.
  • Аннотация естественной сцены
J Fan; Y Gao; H Luo; G Xu (2004). «Автоматическая аннотация изображений с использованием концептуально-чувствительных выступающих объектов для представления содержимого изображений». Труды 27-й ежегодной международной конференции по исследованиям и разработкам в области информационного поиска . С.  361–368 .
  • Соответствующие низкоуровневые глобальные фильтры
A Oliva & A Torralba (2001). «Моделирование формы сцены: целостное представление пространственной оболочки» (PDF) . International Journal of Computer Vision . стр. 42:145–175.
  • Глобальные характеристики изображения и непараметрическая оценка плотности
A Yavlinsky, E Schofield & S Rüger (2005). "Автоматизированная аннотация изображений с использованием глобальных признаков и надежной непараметрической оценки плотности" (PDF) . Международная конференция по поиску изображений и видео (CIVR, Сингапур, июль 2005 г.) . Архивировано из оригинала (PDF) 20.12.2005.
  • Видео семантика
N Vasconcelos & A Lippman (2001). "Статистические модели структуры видео для анализа и характеристики контента" (PDF) . Труды IEEE по обработке изображений . стр.  1–17 .
Илария Бартолини; Марко Пателла и Коррадо Романи (2010). «Шиацу: иерархическая автоматическая маркировка видео на основе семантики путем сегментации с использованием нарезок». 3-й Международный мультимедийный семинар ACM по автоматизированному извлечению информации в медиапроизводстве (AIEMPro10) .
  • Уточнение аннотации изображения
Йохан Джин; Латифур Хан ; Лей Ван и Мамун Авад (2005). «Аннотации изображений путем объединения нескольких доказательств и WordNet». 13-я ежегодная международная конференция ACM по мультимедиа (MM 05) . стр.  706–715 .
Чанху Ван; Фэн Цзин; Лэй Чжан и Хун-Цзян Чжан (2006). «Усовершенствование аннотаций изображений с использованием случайного блуждания с перезапусками». 14-я ежегодная международная конференция ACM по мультимедиа (MM 06) .
Чанху Ван; Фэн Цзин; Лэй Чжан и Хун-Цзян Чжан (2007). "Уточнение аннотаций изображений на основе контента". Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR 07) . doi :10.1109/CVPR.2007.383221.
Илария Бартолини и Паоло Чачча (2007). «Воображение: использование анализа ссылок для точной аннотации изображений». Springer Adaptive Multimedia Retrieval . doi :10.1007/978-3-540-79860-6_3.
Илария Бартолини и Паоло Чачча (2010). «Многомерная аннотация и поиск изображений на основе ключевых слов». 2-й Международный семинар ACM по поиску ключевых слов в структурированных данных (KEYS 2010) .
  • Автоматическая аннотация изображений с помощью ансамбля визуальных дескрипторов
Эмре Акбас и Фатос Й. Вурал (2007). «Автоматическая аннотация изображений с помощью ансамбля визуальных дескрипторов». Международная конференция по компьютерному зрению (CVPR) 2007, Семинар по приложениям семантического обучения в мультимедиа . doi :10.1109/CVPR.2007.383484. hdl : 11511/16027 .
  • Новая основа для аннотации изображений
Амиш Макадиа и Владимир Павлович и Санджив Кумар (2008). "Новая основа для аннотации изображений" (PDF) . Европейская конференция по компьютерному зрению (ECCV) .

Одновременная классификация и аннотация изображений

Чонг Ванг и Дэвид Блей и Ли Фей-Фей (2009). «Одновременная классификация и аннотация изображений» (PDF) . Конференция по компьютерному зрению и распознаванию образов (CVPR) .
  • TagProp: Дискриминативное метрическое обучение в моделях ближайшего соседа для автоматической аннотации изображений
Матье Гийомен и Томас Менсинк и Якоб Вербек и Корделия Шмид (2009). "TagProp: Дискриминативное метрическое обучение в моделях ближайшего соседа для автоматического аннотирования изображений" (PDF) . Международная конференция по компьютерному зрению (ICCV) .
  • Аннотация изображений с использованием метрического обучения в семантических окрестностях
Yashaswi Verma & CV Jawahar (2012). "Image Annotation Using Metric Learning in Semantic Neighbourhoods" (PDF) . Европейская конференция по компьютерному зрению (ECCV) . Архивировано из оригинала (PDF) 2013-05-14 . Получено 2014-02-26 .
  • Автоматическая аннотация изображений с использованием представлений глубокого обучения
Венкатеш Н. Мурти и Субхрансу Маджи и Р. Манматха (2015). "Автоматическая аннотация изображений с использованием представлений глубокого обучения" (PDF) . Международная конференция по мультимедиа (ICMR) .
  • Целостная аннотация изображения с использованием важных областей и информации о фоновом изображении
Сарин, Супхекмунгкол; Фахрмайр, Майкл; Вагнер, Маттиас и Камеяма, Ватару (2012). Использование признаков фона и заметных областей для автоматического аннотирования изображений. Журнал обработки информации. Т. 20. С.  250–266 .
  • Аннотирование медицинских изображений с использованием байесовских сетей и активного обучения
NB Marvasti & E. Yörük & B. Acar (2018). «Компьютерная аннотация медицинских изображений: предварительные результаты при исследовании поражений печени на КТ». IEEE Journal of Biomedical and Health Informatics .
Retrieved from "https://en.wikipedia.org/w/index.php?title=Automatic_image_annotation&oldid=1262709435"