Автоматическое аннотирование изображений (также известное как автоматическое тегирование изображений или лингвистическое индексирование ) — это процесс, с помощью которого компьютерная система автоматически назначает метаданные в форме подписей или ключевых слов цифровому изображению . Это применение методов компьютерного зрения используется в системах поиска изображений для организации и поиска интересующих изображений в базе данных .
Этот метод можно рассматривать как тип многоклассовой классификации изображений с очень большим количеством классов — таким же большим, как размер словаря. Обычно анализ изображений в форме извлеченных векторов признаков и обучающих слов-аннотаций используется методами машинного обучения для попытки автоматического применения аннотаций к новым изображениям. Первые методы изучали корреляции между признаками изображения и обучающими аннотациями. Впоследствии были разработаны методы с использованием машинного перевода для попытки перевести текстовый словарь в «визуальный словарь», представленный кластеризованными областями, известными как капли. Последующая работа включала подходы к классификации, модели релевантности и другие связанные методы.
Преимущества автоматического аннотирования изображений по сравнению с поиском изображений на основе содержимого (CBIR) заключаются в том, что запросы могут быть более естественно заданы пользователем. [1] В настоящее время поиск изображений на основе содержимого (CBIR) обычно требует от пользователей поиска по концепциям изображений, таким как цвет и текстура , или путем поиска примеров запросов. Однако определенные особенности изображений в примерах изображений могут переопределять концепцию, на которой пользователь действительно сосредоточен. Традиционные методы поиска изображений, такие как используемые библиотеками, полагались на вручную аннотированные изображения, что является дорогостоящим и трудоемким, особенно с учетом больших и постоянно растущих баз данных изображений.
^ "Архивная копия" (PDF) . i.yz.yamagata-u.ac.jp . Архивировано из оригинала (PDF) 8 августа 2014 года . Получено 13 января 2022 года .{{cite web}}: CS1 maint: архивная копия как заголовок ( ссылка )
Датта, Ритендра; Дхирадж Джоши; Цзя Ли ; Джеймс З. Ван (2008). «Поиск изображений: идеи, влияния и тенденции нового века». ACM Computing Surveys . 40 (2): 1– 60. doi :10.1145/1348246.1348248. S2CID 7060187.
Николя Эрве; Ножа Бужемаа (2007). «Аннотация изображений: какой подход для реалистичных баз данных?» (PDF) . Международная конференция ACM по поиску изображений и видео . Архивировано из оригинала (PDF) 2011-05-20.
M Inoue (2004). «О необходимости поиска изображений на основе аннотаций» (PDF) . Практикум по поиску информации в контексте . стр. 44–46 . Архивировано из оригинала (PDF) 2014-08-08.
Y Mori; H Takahashi & R Oka (1999). "Преобразование изображения в слово на основе деления и векторного квантования изображений со словами". Труды Международного семинара по интеллектуальному хранению и управлению поиском мультимедиа . CiteSeerX 10.1.1.31.1704 .
Аннотация как машинный перевод
P Duygulu; K Barnard; N de Fretias & D Forsyth (2002). «Распознавание объектов как машинный перевод: изучение лексикона для фиксированного словаря изображений». Труды Европейской конференции по компьютерному зрению . С. 97–112 . Архивировано из оригинала 2005-03-05.
Статистические модели
J Li & JZ Wang (2006). «Компьютеризированное аннотирование изображений в реальном времени». Proc. ACM Multimedia . С. 911–920 .
JZ Wang & J Li (2002). «Обучающее лингвистическое индексирование изображений с помощью двумерных MHMM». Proc. ACM Multimedia . С. 436–445 .
J Li & JZ Wang (2008). «Компьютеризированное аннотирование изображений в реальном времени». Труды IEEE по анализу образов и машинному интеллекту .
J Li & JZ Wang (2003). «Автоматическая лингвистическая индексация изображений с помощью подхода статистического моделирования». Труды IEEE по анализу образов и машинному интеллекту . С. 1075–1088 .
Иерархическая модель аспектного кластера
K Barnard; DA Forsyth (2001). «Изучение семантики слов и изображений». Труды Международной конференции по компьютерному зрению . С. 408–415 . Архивировано из оригинала 28.09.2007.
Модель распределения скрытых Дирихле
D Blei; A Ng & M Jordan (2003). "Скрытое распределение Дирихле" (PDF) . Журнал исследований машинного обучения . стр. 3:993–1022. Архивировано из оригинала (PDF) 16 марта 2005 г.
G Carneiro; AB Chan; P Moreno & N Vasconcelos (2006). «Управляемое обучение семантических классов для аннотации и поиска изображений» (PDF) . Труды IEEE по анализу образов и машинному интеллекту . С. 394–410 .
Сходство текстуры
RW Picard & TP Minka (1995). "Vision Texture for Annotation". Мультимедийные системы .
Метод опорных векторов
С Кусано; Дж. Чокка и Р. Скеттини (2004). Сантини, Симона и Скеттини, Раймондо (ред.). «Аннотация изображения с использованием SVM». Интернет-изображения V . 5304 : 330–338 . Бибкод : 2003SPIE.5304..330C. дои : 10.1117/12.526746. S2CID 16246057.
Ансамбль деревьев решений и случайных подокнов
R Maree; P Geurts; J Piater & L Wehenkel (2005). «Случайные подокна для надежной классификации изображений». Труды Международной конференции IEEE по компьютерному зрению и распознаванию образов . стр. 1:34–30.
Максимальная энтропия
J Jeon; R Manmatha (2004). «Использование максимальной энтропии для автоматического аннотирования изображений» (PDF) . Международная конференция по поиску изображений и видео (CIVR 2004) . стр. 24–32 .
Модели релевантности
J Jeon; V Lavrenko & R Manmatha (2003). "Автоматическое аннотирование и поиск изображений с использованием моделей релевантности кросс-медиа" (PDF) . Труды конференции ACM SIGIR по исследованиям и разработкам в области поиска информации . С. 119–126 .
Модели релевантности с использованием непрерывных функций плотности вероятности
V Lavrenko; R Manmatha & J Jeon (2003). "Модель для изучения семантики изображений" (PDF) . Труды 16-й конференции по достижениям в области нейронных систем обработки информации NIPS .
Модель связного языка
R Jin; JY Chai; L Si (2004). "Эффективное автоматическое аннотирование изображений с помощью последовательной языковой модели и активного обучения" (PDF) . Труды MM'04 .
Сети вывода
D Metzler & R Manmatha (2004). "Подход к поиску изображений с помощью сетей вывода" (PDF) . Труды Международной конференции по поиску изображений и видео . С. 42–50 .
Множественное распределение Бернулли
S Feng; R Manmatha & V Lavrenko (2004). "Множественные модели релевантности Бернулли для аннотирования изображений и видео" (PDF) . Конференция IEEE по компьютерному зрению и распознаванию образов . стр. 1002–1009 .
Несколько вариантов дизайна
JY Pan; HJ Yang; P Duygulu; C Faloutsos (2004). "Автоматическое создание подписей к изображениям" (PDF) . Труды Международной конференции IEEE 2004 года по мультимедиа и экспо (ICME'04) . Архивировано из оригинала (PDF) 2004-12-09.
Подпись к изображению
Куан Хоанг Лам; Куанг Зуй Ле; Киет Ван Нгуен; Нган Луу-Туй Нгуен (2020). «UIT-ViIC: набор данных для первой оценки вьетнамских подписей к изображениям». Труды Международной конференции по вычислительному коллективному интеллекту 2020 года (ICCCI 2020) . arXiv : 2002.00175 . doi : 10.1007/978-3-030-63007-2_57.
Аннотация естественной сцены
J Fan; Y Gao; H Luo; G Xu (2004). «Автоматическая аннотация изображений с использованием концептуально-чувствительных выступающих объектов для представления содержимого изображений». Труды 27-й ежегодной международной конференции по исследованиям и разработкам в области информационного поиска . С. 361–368 .
Соответствующие низкоуровневые глобальные фильтры
A Oliva & A Torralba (2001). «Моделирование формы сцены: целостное представление пространственной оболочки» (PDF) . International Journal of Computer Vision . стр. 42:145–175.
Глобальные характеристики изображения и непараметрическая оценка плотности
A Yavlinsky, E Schofield & S Rüger (2005). "Автоматизированная аннотация изображений с использованием глобальных признаков и надежной непараметрической оценки плотности" (PDF) . Международная конференция по поиску изображений и видео (CIVR, Сингапур, июль 2005 г.) . Архивировано из оригинала (PDF) 20.12.2005.
Видео семантика
N Vasconcelos & A Lippman (2001). "Статистические модели структуры видео для анализа и характеристики контента" (PDF) . Труды IEEE по обработке изображений . стр. 1–17 .
Илария Бартолини; Марко Пателла и Коррадо Романи (2010). «Шиацу: иерархическая автоматическая маркировка видео на основе семантики путем сегментации с использованием нарезок». 3-й Международный мультимедийный семинар ACM по автоматизированному извлечению информации в медиапроизводстве (AIEMPro10) .
Уточнение аннотации изображения
Йохан Джин; Латифур Хан ; Лей Ван и Мамун Авад (2005). «Аннотации изображений путем объединения нескольких доказательств и WordNet». 13-я ежегодная международная конференция ACM по мультимедиа (MM 05) . стр. 706–715 .
Чанху Ван; Фэн Цзин; Лэй Чжан и Хун-Цзян Чжан (2006). «Усовершенствование аннотаций изображений с использованием случайного блуждания с перезапусками». 14-я ежегодная международная конференция ACM по мультимедиа (MM 06) .
Чанху Ван; Фэн Цзин; Лэй Чжан и Хун-Цзян Чжан (2007). "Уточнение аннотаций изображений на основе контента". Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR 07) . doi :10.1109/CVPR.2007.383221.
Илария Бартолини и Паоло Чачча (2007). «Воображение: использование анализа ссылок для точной аннотации изображений». Springer Adaptive Multimedia Retrieval . doi :10.1007/978-3-540-79860-6_3.
Илария Бартолини и Паоло Чачча (2010). «Многомерная аннотация и поиск изображений на основе ключевых слов». 2-й Международный семинар ACM по поиску ключевых слов в структурированных данных (KEYS 2010) .
Автоматическая аннотация изображений с помощью ансамбля визуальных дескрипторов
Эмре Акбас и Фатос Й. Вурал (2007). «Автоматическая аннотация изображений с помощью ансамбля визуальных дескрипторов». Международная конференция по компьютерному зрению (CVPR) 2007, Семинар по приложениям семантического обучения в мультимедиа . doi :10.1109/CVPR.2007.383484. hdl : 11511/16027 .
Новая основа для аннотации изображений
Амиш Макадиа и Владимир Павлович и Санджив Кумар (2008). "Новая основа для аннотации изображений" (PDF) . Европейская конференция по компьютерному зрению (ECCV) .
Одновременная классификация и аннотация изображений
Чонг Ванг и Дэвид Блей и Ли Фей-Фей (2009). «Одновременная классификация и аннотация изображений» (PDF) . Конференция по компьютерному зрению и распознаванию образов (CVPR) .
TagProp: Дискриминативное метрическое обучение в моделях ближайшего соседа для автоматической аннотации изображений
Матье Гийомен и Томас Менсинк и Якоб Вербек и Корделия Шмид (2009). "TagProp: Дискриминативное метрическое обучение в моделях ближайшего соседа для автоматического аннотирования изображений" (PDF) . Международная конференция по компьютерному зрению (ICCV) .
Аннотация изображений с использованием метрического обучения в семантических окрестностях
Yashaswi Verma & CV Jawahar (2012). "Image Annotation Using Metric Learning in Semantic Neighbourhoods" (PDF) . Европейская конференция по компьютерному зрению (ECCV) . Архивировано из оригинала (PDF) 2013-05-14 . Получено 2014-02-26 .
Автоматическая аннотация изображений с использованием представлений глубокого обучения
Венкатеш Н. Мурти и Субхрансу Маджи и Р. Манматха (2015). "Автоматическая аннотация изображений с использованием представлений глубокого обучения" (PDF) . Международная конференция по мультимедиа (ICMR) .
Целостная аннотация изображения с использованием важных областей и информации о фоновом изображении
Сарин, Супхекмунгкол; Фахрмайр, Майкл; Вагнер, Маттиас и Камеяма, Ватару (2012). Использование признаков фона и заметных областей для автоматического аннотирования изображений. Журнал обработки информации. Т. 20. С. 250–266 .
Аннотирование медицинских изображений с использованием байесовских сетей и активного обучения
NB Marvasti & E. Yörük & B. Acar (2018). «Компьютерная аннотация медицинских изображений: предварительные результаты при исследовании поражений печени на КТ». IEEE Journal of Biomedical and Health Informatics .