Большинство алгоритмов компьютерного зрения и машинного обучения работают, обучаясь на примерах входных данных. Для эффективной работы им требуется большой и разнообразный набор обучающих данных. Например, метод обнаружения лиц в реальном времени , используемый Полом Виолой и Майклом Дж. Джонсом, обучался на 4916 вручную помеченных лицах. [1]
Обрезка, изменение размера и ручная отметка точек интереса — утомительный и трудоемкий процесс.
Исторически большинство наборов данных, используемых в исследованиях компьютерного зрения, были адаптированы к конкретным потребностям проекта, над которым ведется работа. Большой проблемой при сравнении методов компьютерного зрения является тот факт, что большинство групп используют свои собственные наборы данных. Каждый набор может иметь разные свойства, которые затрудняют прямое сравнение сообщаемых результатов, полученных разными методами. Например, различия в размере изображения, качестве изображения, относительном расположении объектов на изображениях и уровне окклюзии и помех могут привести к разным результатам. [2]
Набор данных Caltech 101 направлен на решение многих из этих распространенных проблем.
Изображения обрезаны и изменены в размере.
Представлено множество категорий, что подходит как для алгоритмов распознавания одного, так и нескольких классов.
Отмечены подробные контуры объектов.
Caltech 101 доступен для общего использования и выступает в качестве общего стандарта, с помощью которого можно сравнивать различные алгоритмы без предвзятости из-за разных наборов данных.
Однако последующее исследование показало, что тесты, основанные на неконтролируемых естественных изображениях (например, набор данных Caltech 101), могут быть серьезно обманчивыми, потенциально направляя прогресс в неправильном направлении. [3]
Набор данных
Изображения
Набор данных Caltech 101 состоит из 9146 изображений, разделенных на 101 различную категорию объектов, а также дополнительную категорию фона/помех.
Каждая категория объектов содержит от 40 до 800 изображений. Распространенные и популярные категории, такие как лица, как правило, имеют большее количество изображений, чем другие.
Каждое изображение имеет размер около 300x200 пикселей. Изображения ориентированных объектов, таких как самолеты и мотоциклы, были зеркально отражены для выравнивания слева направо, а вертикально ориентированные структуры, такие как здания, были повернуты для смещения по оси.
Аннотации
Для каждого изображения предоставляется набор аннотаций. Каждый набор аннотаций содержит две части информации: общую ограничивающую рамку, в которой находится объект, и подробный контур, заданный человеком, охватывающий объект.
С аннотациями поставляется скрипт Matlab. Он загружает изображение и соответствующий ему файл аннотации и отображает их в виде рисунка Matlab.
Использует
Набор данных Caltech 101 использовался для обучения и тестирования нескольких алгоритмов распознавания и классификации компьютерного зрения. Первая статья, в которой использовался Caltech 101, представляла собой инкрементальный байесовский подход к одноразовому обучению [4], попытку классифицировать объект, используя всего несколько примеров, основываясь на предыдущих знаниях о других классах.
Изображения Caltech 101 вместе с аннотациями были использованы для еще одной одноразовой обучающей работы в Caltech. [5]
Другие статьи по компьютерному зрению, в которых сообщается об использовании набора данных Caltech 101, включают:
Сопоставление форм и распознавание объектов с использованием соответствия с низким искажением. Александр К. Берг, Тамара Л. Берг, Джитендра Малик . CVPR 2005
Ядро сопоставления пирамиды: дискриминантная классификация с наборами признаков изображения. К. Грауман и Т. Даррелл. Международная конференция по компьютерному зрению (ICCV), 2005 [6]
Объединение генеративных моделей и ядер Фишера для распознавания классов объектов. Голуб, А.Д. Веллинг, М. Перона, П. Международная конференция по компьютерному зрению (ICCV), 2005 [7]
Распознавание объектов с помощью признаков, вдохновленных визуальной корой. Т. Серр, Л. Вольф и Т. Поджио. Труды конференции IEEE Computer Society 2005 года по компьютерному зрению и распознаванию образов (CVPR 2005), IEEE Computer Society Press, Сан-Диего, июнь 2005 г. [8]
Beyond Bags of Features: Пространственное сопоставление пирамид для распознавания категорий природных сцен. Светлана Лазебник , Корделия Шмид и Жан Понсе. CVPR, 2006 [10]
Эмпирическое исследование многомасштабных банков фильтров для категоризации объектов. М. Дж. Маре-Химерес и Н. Перес де ла Бланка. Декабрь 2005 г. [11]
Распознавание многоклассовых объектов с редкими локализованными признаками. Джим Матч и Дэвид Г. Лоу, стр. 11–18, CVPR 2006, IEEE Computer Society Press, Нью-Йорк, июнь 2006 г. [12]
Использование зависимых областей или категоризации объектов в генеративной структуре. G. Wang, Y. Zhang и L. Fei-Fei. IEEE Comp. Vis. Patt. Recog. 2006 [13]
Анализ и сравнение
Преимущества
Caltech 101 имеет ряд преимуществ по сравнению с другими аналогичными наборами данных:
Единый размер и презентация:
Почти все изображения в каждой категории имеют одинаковый размер и относительное положение интересующих объектов. Пользователям Caltech 101 обычно не нужно обрезать или масштабировать изображения перед тем, как их можно будет использовать.
Низкий уровень загромождения/окклюзии:
Алгоритмы, связанные с распознаванием, обычно функционируют, сохраняя уникальные для объекта характеристики. Однако большинство полученных изображений имеют разную степень фонового беспорядка, что означает, что алгоритмы могут строить неправильно.
Подробные аннотации
Слабые стороны
Слабые стороны набора данных Caltech 101 [3] [14] могут быть сознательными компромиссами, но другие являются ограничениями набора данных. Статьи, которые опираются исключительно на Caltech 101, часто отклоняются.
К слабым сторонам относятся:
Набор данных слишком чистый:
Изображения очень единообразны в представлении, выровнены слева направо и обычно не загорожены. В результате изображения не всегда представляют практические входные данные, которые алгоритм мог бы впоследствии ожидать увидеть. В практических условиях изображения более загромождены, загорожены и демонстрируют большую дисперсию в относительном положении и ориентации интересующих объектов. Единообразие позволяет выводить концепции с использованием среднего значения категории, что нереалистично.
Ограниченное количество категорий:
Набор данных Caltech 101 представляет собой лишь малую часть возможных категорий объектов.
Некоторые категории содержат мало изображений:
Некоторые категории представлены не так хорошо, как другие, и содержат всего 31 изображение.
Это означает, что . Количество изображений, используемых для обучения, должно быть меньше или равно 30, что недостаточно для всех целей.
Алиасинг и артефакты, возникающие из-за манипуляций:
Некоторые изображения были повернуты и масштабированы относительно своей исходной ориентации и страдают от некоторого количества артефактов или ступенчатости .
Другие наборы данных
Caltech 256 — еще один набор данных изображений, созданный в 2007 году. Он является преемником Caltech 101. Он призван устранить некоторые недостатки Caltech 101. В целом, это более сложный набор данных, чем Caltech 101, но он страдает от сопоставимых проблем. Он включает [3]
30 607 изображений, охватывающих большее количество категорий
Минимальное количество изображений в категории увеличено до 80
Изображения не выровнены по левому и правому краю.
106 739 изображений, 41 724 аннотированных изображения и 203 363 маркированных объекта.
Пользователи могут добавлять изображения в набор данных путем загрузки, а также добавлять метки или аннотации к существующим изображениям.
Благодаря своей открытости LabelMe содержит гораздо больше изображений, охватывающих гораздо более широкую область, чем Caltech 101. Однако, поскольку каждый человек сам решает, какие изображения загружать, как маркировать и аннотировать каждое изображение, изображения менее единообразны.
VOC 2008 — это европейская попытка собрать изображения для сравнительного анализа методов визуальной категоризации. По сравнению с Caltech 101/256, собирается меньшее количество категорий (около 20). Однако количество изображений в каждой категории больше.
Overhead Imagery Research Data Set (OIRDS) — это аннотированная библиотека изображений и инструментов. [15] OIRDS v1.0 состоит из объектов пассажирских транспортных средств, аннотированных на изображениях сверху. Пассажирские транспортные средства в OIRDS включают автомобили, грузовики, фургоны и т. д. В дополнение к контурам объектов OIRDS включает субъективную и объективную статистику, которая количественно определяет транспортное средство в контексте изображения. Например, включены субъективные измерения беспорядка изображения, четкости, шума и цвета транспортного средства, а также более объективная статистика, такая как расстояние выборки земли (GSD), время суток и день года.
Ограничено для легковых автомобилей на снимках сверху
MICC-Flickr 101 — это набор данных изображений, созданный в Центре интеграции медиа и коммуникаций (MICC) Флорентийского университета в 2012 году. Он основан на Caltech 101 и собран из Flickr . MICC-Flickr 101 [16] исправляет главный недостаток Caltech 101, а именно его низкую межклассовую изменчивость, и предоставляет социальные аннотации через пользовательские теги. Он основан на стандартном и широко используемом наборе данных, состоящем из управляемого числа категорий (101), и поэтому может использоваться для сравнения производительности категоризации объектов в ограниченном сценарии (Caltech 101) и категоризации объектов «в дикой природе» (MICC-Flickr 101) по тем же 101 категориям.
^ Виола, Пол; Джонс, Майкл Дж. (2004). «Надежное обнаружение лиц в реальном времени». Международный журнал компьютерного зрения . 57 (2): 137– 154. doi :10.1023/B:VISI.0000013087.49260.fb. S2CID 2796017.
^ abc Pinto, Nicolas; Cox, David D.; Dicarlo, James J. (2008). «Почему сложно распознавать визуальные объекты в реальном мире?». PLOS Computational Biology . 4 (1): e27. Bibcode : 2008PLSCB...4...27P. doi : 10.1371/journal.pcbi.0040027 . PMC 2211529. PMID 18225950 .
^ Л. Фей-Фей, Р. Фергус и П. Перона. Изучение генеративных визуальных моделей на основе нескольких обучающих примеров: инкрементальный байесовский подход, протестированный на 101 категории объектов. IEEE. CVPR 2004, Семинар по генеративно-моделированному зрению. 2004
^ L. Fei-Fei; R. Fergus; P. Perona (апрель 2006 г.). "One-Shot learning of object categories" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 28 (4): 594– 611. doi :10.1109/TPAMI.2006.79. PMID 16566508. S2CID 6953475. Архивировано из оригинала (PDF) 2007-06-09 . Получено 2008-01-16 .
^ Ядро сопоставления пирамиды: дискриминантная классификация с наборами признаков изображения. К. Грауман и Т. Даррелл. Международная конференция по компьютерному зрению (ICCV), 2005
^ Голуб, А.Д.; Веллинг, М.; Перона, П. Объединение генеративных моделей и ядер Фишера для распознавания классов объектов. Международная конференция по компьютерному зрению (ICCV), 2005. Архивировано из оригинала 2007-08-14 . Получено 2008-01-16 .
^ Распознавание объектов с помощью признаков, вдохновленных визуальной корой. Т. Серр, Л. Вольф и Т. Поджио. Труды конференции IEEE Computer Society 2005 года по компьютерному зрению и распознаванию образов (CVPR 2005), IEEE Computer Society Press, Сан-Диего, июнь 2005 г.
^ SVM-KNN: Дискриминантная классификация ближайшего соседа для распознавания визуальных категорий. Хао Чжан, Алекс Берг, Майкл Майр, Джитендра Малик. CVPR, 2006
^ Beyond Bags of Features: Пространственное сопоставление пирамид для распознавания категорий природных сцен. Светлана Лазебник , Корделия Шмид и Жан Понсе. CVPR, 2006
^ Эмпирическое исследование многомасштабных банков фильтров для категоризации объектов, MJ Marér-Jimérez и N. Péréz de la Blanca. Декабрь 2005 г.
^ Распознавание многоклассовых объектов с разреженными локализованными признаками, Джим Матч и Дэвид Г. Лоу., стр. 11–18, CVPR 2006, IEEE Computer Society Press, Нью-Йорк, июнь 2006 г.
^ G. Wang; Y. Zhang; L. Fei-Fei (2006). "Использование зависимых регионов или категоризация объектов в генеративной структуре" (PDF) . IEEE Comp. Vis. Patt. Recog . Архивировано из оригинала (PDF) 2007-06-09 . Получено 2008-01-16 .
^ J. Ponce; TL Berg; M. Everingham; DA Forsyth; M. Hebert; S. Lazebnik ; M. Marszalek; C. Schmid; BC Russell; A. Torralba; CKI Williams; J. Zhang; A. Zisserman (2006). J. Ponce; M. Hebert; C. Schmid; A. Zisserman (ред.). "Dataset Issues in Object Recognition" (PDF) . Toward Category-Level Object Recognition, Springer-Verlag Lecture Notes in Computer Science. Архивировано из оригинала (PDF) 24.12.2016 . Получено 08.02.2008 .
^ F. Tanner, B. Colder, C. Pullen, D. Heagy, C. Oertel и P. Sallee, Overhead Imagery Research Data Set (OIRDS) – аннотированная библиотека данных и инструменты для помощи в разработке алгоритмов компьютерного зрения , июнь 2009 г., <http://sourceforge.net/apps/mediawiki/oirds/index.php?title=Документация. Архивировано 09.11.2012 на Wayback Machine > (28 декабря 2009 г.)
^ "L. Ballan, M. Bertini, A. Del Bimbo, AM Serain, G. Serra, BF Zaccone. Объединение генеративных и дискриминационных моделей для классификации социальных изображений из 101 категории объектов. Международная конференция по распознаванию образов (ICPR), 2012" (PDF) . Архивировано из оригинала (PDF) 2014-08-26 . Получено 2012-07-11 .
Внешние ссылки
http://www.vision.caltech.edu/Image_Datasets/Caltech101/ Архивировано 06.12.2013 на Wayback Machine – Домашняя страница Caltech 101 (включая загрузку)
http://www.vision.caltech.edu/Image_Datasets/Caltech256/ – Домашняя страница Caltech 256 (включая загрузку)