Part of a series on |
Machine learning and data mining |
---|
Эти наборы данных используются в исследованиях машинного обучения (ML) и цитируются в рецензируемых научных журналах . Наборы данных являются неотъемлемой частью области машинного обучения. Основные достижения в этой области могут быть результатом достижений в алгоритмах обучения (таких как глубокое обучение ), компьютерного оборудования и, что менее интуитивно, доступности высококачественных обучающих наборов данных. [1] Высококачественные маркированные обучающие наборы данных для контролируемых и полуконтролируемых алгоритмов машинного обучения обычно сложны и дороги в производстве из-за большого количества времени, необходимого для маркировки данных. Хотя их не нужно маркировать, высококачественные наборы данных для неконтролируемого обучения также могут быть сложны и дороги в производстве. [2] [3] [4]
Многие организации, включая правительства, публикуют и делятся своими наборами данных . Наборы данных классифицируются на основе лицензий как открытые данные и неоткрытые данные .
Наборы данных из различных правительственных органов представлены в Списке сайтов открытых правительственных данных . Наборы данных портируются на порталы открытых данных . Они доступны для поиска, размещения и доступа через интерфейсы, такие как Open API . Наборы данных доступны в виде различных отсортированных типов и подтипов.
Тип | Подтипы |
---|---|
Конкретная категория | Финансы , Экономика , Коммерция , Общество , Здравоохранение , Академия , Спорт , Еда , Сельское хозяйство , Путешествия , Геопространственные данные , Политические , Потребитель , Транспорт , Логистика , Окружающая среда , Недвижимость , Юридические вопросы , Развлечения , Энергетика , Гостиничный бизнес |
Объем | Наднациональный союз , Национальный , Субнациональный , Муниципальный , Городской , Сельский |
Язык | Китайский , испанский , английский , арабский , хинди , бенгальский |
Тип | Табличный , Графический , Текстовый , Изображение , Звук , Видео |
Использование | Обучение, проверка и тестирование |
Форматы файлов | CSV , JSON , XML , KML , GeoJSON , Шейп-файл , GML |
Лицензии | Creative-Commons , GPL , другие лицензии, не относящиеся к открытым данным |
Последнее обновление | Последний час, Последний день, Последняя неделя, Последний месяц, Последний год |
Размер файла | Минимум, Максимум, Диапазон |
Статус | Проверено, в стадии подготовки, деактивировано (или устарело) |
Количество записей | 100, 1000, 10000, 100000, Миллионы |
Количество переменных | Менее 10, 10, 100, 1000, 10000 |
Услуги | Индивидуальный, Агрегация |
Портал данных классифицируется на основе типа лицензии. Порталы данных с открытым исходным кодом известны как порталы открытых данных , которые используются многими государственными организациями и академическими учреждениями .
Имя-портала | Лицензия | Список установок портала | Типичные случаи использования |
---|---|---|---|
Сеть архивов комплексных знаний ( CKAN ) | АГПЛ | https://ckan.github.io/ckan-instances/ https://github.com/sebneu/ckan_instances/blob/master/instances.csv | Репозиторий данных для государственных или некоммерческих организаций, решение по управлению данными для научно-исследовательских институтов |
ДКАН | GPL | https://getdkan.org/community | Репозиторий данных для государственных или некоммерческих организаций, решение по управлению данными для научно-исследовательских институтов |
Вселенная данных | Апачи | https://dataverse.org/installations https://dataverse.org/metrics | Решение по управлению данными для научно-исследовательских институтов |
DSpace | БСД | https://registry.lyrasis.org/ | Решение по управлению данными для научно-исследовательских институтов |
OpenML | БСД | https://www.openml.org/search?type=data&sort=runs&status=active | Решение по управлению данными для обмена наборами данных, алгоритмами и результатами экспериментов через API. |
Портал данных иногда содержит широкий спектр подтипов наборов данных, относящихся ко многим приложениям машинного обучения .
Академические торренты | https://academictorrents.com |
Наборы данных Amazon | https://registry.opendata.aws/ |
Потрясающая коллекция публичных наборов данных | https://github.com/awesomedata/awesome-public-datasets |
данные.мир | https://data.world/datasets/машинное обучение |
Datahub – основные наборы данных | https://datahub.io/docs/core-data |
DataONE | https://www.dataone.org/ |
Порталы данных | https://dataportals.org/ |
Datasetlist.com | https://www.datasetlist.com |
Глобальный индекс открытых данных – Open Knowledge Foundation | https://okfn.org/ Архивировано 25 мая 2020 г. на Wayback Machine |
Поиск по наборам данных Google | https://datasetsearch.research.google.com/ |
Обнимающее лицо | https://huggingface.co/docs/datasets/ |
Обмен данными IBM | https://developer.ibm.com/exchanges/data/ |
Jupyter – Учебные данные | https://jupyter-tutorial.readthedocs.io/en/latest/data-processing/opendata.html |
Каггл | https://www.kaggle.com/datasets |
Наборы данных машинного обучения | https://macgence.com/data-sets-and-cataloges/ |
Крупнейшие умные города с открытыми данными | https://rlist.io/l/major-smart-cities-with-open-data-portals |
Наборы данных Microsoft | https://msropendata.com/datasets |
Открытые данные Введение | https://opendatainception.io/ |
Opendatasoft | https://data.opendatasoft.com/explore/dataset/open-data-sources%40public/table/?sort=code_en |
OpenDOAR | https://v2.sherpa.ac.uk/opendoar/ |
OpenML | https://www.openml.org/search?type=data |
Документы с кодом | https://paperswithcode.com/datasets |
Тесты машинного обучения в Пенсильвании | https://github.com/EpistasisLab/pmlb/tree/master/datasets |
Публичные API | https://github.com/public-apis/public-apis |
Реестр репозиториев открытого доступа | http://roar.eprints.org/ |
Реестр хранилищ исследовательских данных | https://www.re3data.org/ |
Репозиторий машинного обучения UCI | http://mlr.cs.umass.edu/ml/ Архивировано 26 июня 2020 г. на Wayback Machine |
Речевой набор данных | https://www.shaip.com/offerings/speech-data-catalog/ |
Визуальное обнаружение данных | https://visualdata.io/discovery |
Порталы данных, подходящие для определенного подтипа приложений машинного обучения, перечислены в последующих разделах.
Эти наборы данных в основном состоят из текста для таких задач, как обработка естественного языка , анализ настроений , перевод и кластерный анализ .
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Премия Netflix | Рейтинги фильмов на Netflix. | 100 480 507 оценок, которые дали 480 189 пользователей 17 770 фильмам | Текст, рейтинг | Прогноз рейтинга | 2006 | [5] | Нетфликс | |
Обзоры Амазон | Обзоры товаров из США на Amazon.com . | Никто. | 233,1 миллиона | Текст | Классификация, анализ настроений | 2015 (2018) | [6] [7] | Маколи и др. |
Обзор набора данных OpinRank | Обзоры автомобилей и отелей с Edmunds.com и TripAdvisor соответственно. | Никто. | 42 230 / ~259 000 соответственно | Текст | Анализ настроений, кластеризация | 2011 | [8] [9] | К. Ганесан и др. |
MovieLens | 22 000 000 оценок и 580 000 тегов, присвоенных 33 000 фильмам 240 000 пользователями. | Никто. | ~ 22 млн. | Текст | Регрессия, кластеризация, классификация | 2016 | [10] | GroupLens Исследования |
Рейтинги музыкальных исполнителей на Yahoo! Music | Более 10 млн оценок исполнителей от пользователей Yahoo. | Ничего не описано. | ~ 10 млн. | Текст | Кластеризация, регрессия | 2004 | [11] [12] | Йаху! |
Набор данных для оценки автомобиля | Свойства автомобиля и их общая приемлемость. | Даны шесть категориальных признаков. | 1728 | Текст | Классификация | 1997 | [13] [14] | М. Боханец |
Набор данных о предпочтениях в YouTube Comedy Slam | Данные о голосовании пользователей по парам видео, показанных на YouTube. Пользователи голосовали за более смешные видео. | Приведены метаданные видео. | 1,138,562 | Текст | Классификация | 2012 | [15] [16] | |
Набор данных отзывов пользователей Skytrax | Отзывы пользователей об авиакомпаниях, аэропортах, местах и залах ожидания от Skytrax. | Рейтинги являются подробными и включают в себя многие аспекты опыта пребывания в аэропорту. | 41396 | Текст | Классификация, регрессия | 2015 | [17] | К. Нгуен |
Набор данных для оценки помощника преподавателя | Отзывы помощников преподавателей. | Приведены характеристики каждого экземпляра, такие как класс, размер класса и преподаватель. | 151 | Текст | Классификация | 1997 | [18] [19] | В. Ло и др. |
Корпус отзывов вьетнамских студентов (UIT-VSFC) | Отзывы студентов. | Комментарии | 16,000 | Текст | Классификация | 1997 | [20] | Нгуен и др. |
Корпус эмоций вьетнамских социальных сетей (UIT-VSMEC) | Комментарии пользователей Facebook. | Комментарии | 6,927 | Текст | Классификация | 1997 | [21] | Нгуен и др. |
Набор данных для обнаружения жалоб в открытом доступе во Вьетнаме (ViOCD) | Отзывы клиентов о продукции | Комментарии | 5,485 | Текст | Классификация | 2021 | [22] | Нгуен и др. |
ViHOS: обнаружение проявлений ненависти для вьетнамцев | Тексты социальных сетей | Комментарии | Содержит 26 тыс. разделов и 11 тыс. комментариев | Текст | Обнаружение диапазона | 2021 | [23] | Хоанг и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных NYSK | Английские новостные статьи о деле, связанном с обвинениями в сексуальном насилии против бывшего директора МВФ Доминика Стросс-Кана . | Отфильтровано и представлено в формате XML. | 10,421 | XML, текст | Анализ настроений, извлечение тем | 2013 | [24] | Дермуш, М. и др. |
Корпус Рейтер, том 1 | Большой корпус новостей Reuters на английском языке. | Детальная категоризация и коды тем. | 810,000 | Текст | Классификация, кластеризация, обобщение | 2002 | [25] | Рейтер |
Корпус Рейтер, том 2 | Большой корпус новостей Reuters на нескольких языках. | Детальная категоризация и коды тем. | 487,000 | Текст | Классификация, кластеризация, обобщение | 2005 | [26] | Рейтер |
Коллекция текстовых исследований Thomson Reuters | Большой массив новостных сообщений. | Подробности не описаны. | 1,800,370 | Текст | Классификация, кластеризация, обобщение | 2009 | [27] | Т. Роуз и др. |
Корпус газет Саудовской Аравии | 31 030 статей в арабских газетах. | Метаданные извлечены. | 31,030 | JSON | Обобщение, кластеризация | 2015 | [28] | М. Альхагри |
RE3D (Набор данных для оценки извлечения связей и сущностей) | Данные с маркировкой Entity and Relation из различных новостных и правительственных источников. Спонсируется Dstl | Фильтрация, категоризация с использованием типов Baleen | не известно | JSON | Классификация, распознавание сущностей и отношений | 2017 | [29] | Дстл |
Каталог кликбейтов спама Examiner | Кликбейт, спам, краудсорсинговые заголовки с 2010 по 2015 гг. | Дата публикации и заголовки | 3,089,781 | CSV | Кластеризация, События, Настроения | 2016 | [30] | Р. Кулкарни |
Корпус новостей ABC Australia | Весь новостной корпус ABC Australia с 2003 по 2019 год | Дата публикации и заголовки | 1,186,018 | CSV | Кластеризация, События, Настроения | 2020 | [31] | Р. Кулкарни |
Новости со всего мира – совокупность 20 тыс. каналов | Обзор всех заголовков новостей в Интернете за неделю на более чем 20 языках | Время публикации, URL и заголовки | 1,398,431 | CSV | Кластеризация, События, Определение языка | 2018 | [32] | Р. Кулкарни |
Заголовок новостей Reuters | 11 лет событий с временными метками, опубликованных в новостной ленте | Время публикации, Текст заголовка | 16,121,310 | CSV | НЛП, Компьютерная лингвистика, События | 2018 | [33] | Р. Кулкарни |
The Irish Times Ирландия Новости Корпус | 24 года новостей Ирландии с 1996 по 2019 год | Время публикации, категория заголовка и текст | 1,484,340 | CSV | НЛП, Компьютерная лингвистика, События | 2020 | [34] | Р. Кулкарни |
Набор данных заголовков новостей для обнаружения сарказма | Высококачественный набор данных с саркастическими и несаркастическими заголовками новостей. | Чистый, нормализованный текст | 26,709 | JSON | НЛП, Классификация, Лингвистика | 2018 | [35] | Ришабх Мисра |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Корпус Энрона | Электронные письма от сотрудников Enron, организованные по папкам. | Вложения удалены, недействительные адреса электронной почты преобразованы в user@enron.com или no_address@enron.com. | ~ 500 000 | Текст | Сетевой анализ , анализ настроений | 2004 (2015) | [36] [37] | Климт, Б. и И. Ян |
Набор данных Ling-Spam | Корпус, содержащий как легитимные, так и спам -сообщения. | Четыре версии корпуса, в которых учитывается, был ли включен лемматизатор или стоп-лист. | 2,412 Хам 481 Спам | Текст | Классификация | 2000 | [38] [39] | Андроутсопулос, Дж. и др. |
Набор данных по сбору SMS-спама | Сбор спам-сообщений SMS. | Никто. | 5,574 | Текст | Классификация | 2011 | [40] [41] | Т. Алмейда и др. |
Набор данных двадцати новостных групп | Сообщения из 20 различных групп новостей. | Никто. | 20,000 | Текст | Обработка естественного языка | 1999 | [42] | Т. Митчелл и др. |
Набор данных Spambase | Спам-письма. | Извлечено множество текстовых функций. | 4,601 | Текст | Обнаружение спама, классификация | 1999 | [43] | М. Хопкинс и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
MovieTweetings | Набор данных о рейтингах фильмов, основанный на публичных и хорошо структурированных твитах | ~710,000 | Текст | Классификация, регрессия | 2018 | [44] | С. Думс | |
Twitter100k | Пары изображений и твитов | 100,000 | Текст и изображения | Кросс-медийный поиск | 2017 | [45] [46] | Й. Ху и др. | |
Настроение140 | Данные о твитах за 2009 год, включая оригинальный текст, временную метку, пользователя и тональность. | Классифицировано с использованием дистанционного наблюдения по наличию смайлика в твите. | 1,578,627 | Твиты, запятая, разделенные значения | Анализ настроений | 2009 | [47] [48] | А. Го и др. |
Набор данных Twitter ASU | Данные сети Twitter, а не сами твиты. Показывает связи между большим количеством пользователей. | Никто. | 11,316,811 пользователей, 85,331,846 подключений | Текст | Кластеризация, анализ графов | 2009 | [49] [50] | Р. Зафарани и др. |
Социальные круги SNAP: база данных Twitter | Большие данные сети Twitter. | Узловые характеристики, круги и сети эго. | 1,768,149 | Текст | Кластеризация, анализ графов | 2012 | [51] [52] | Дж. Маколи и др. |
Набор данных Twitter для анализа настроений на арабском языке | Арабские твиты. | Образцы маркируются вручную как положительные или отрицательные. | 2000 | Текст | Классификация | 2014 | [53] [54] | Н. Абдулла |
Набор данных Buzz в социальных сетях | Данные из Twitter и Tom's Hardware. Этот набор данных фокусируется на конкретных темах, обсуждаемых на этих сайтах. | Данные представлены в виде окон, что позволяет пользователю попытаться предсказать события, которые приведут к шумихе в социальных сетях. | 140,000 | Текст | Регрессия, Классификация | 2013 | [55] [56] | Ф. Кавала и др. |
Парафраз и семантическое сходство в Twitter (PIT) | Этот набор данных фокусируется на том, имеют ли твиты (почти) одинаковое значение/информацию или нет. Размечено вручную. | токенизация, части речи и маркировка именованных сущностей | 18,762 | Текст | Регрессия, Классификация | 2015 | [57] [58] | Сюй и др. |
Набор данных для сравнительного анализа Geoparse Twitter | Этот набор данных содержит твиты во время различных новостных событий в разных странах. Упоминания местоположения, помеченные вручную. | Аннотации местоположения добавлены в метаданные JSON | 6,386 | Твиты, JSON | Классификация, Извлечение информации | 2014 | [59] [60] | С. Э. Миддлтон и др. |
Сарказм, воспринятый и намеренный, по реактивному надзору (SPIRS) | Намеренные и воспринимаемые саркастические твиты вместе с их контекстом, собранные с помощью реактивного надзора; равное количество отрицательных (несаркастических) образцов | 30,000 | Идентификаторы твитов, CSV | Классификация | 2020 | [61] [62] | Б. Шмуэли и др. | |
Сборник голландских социальных сетей | Этот набор данных содержит твиты COVID-19, сделанные носителями голландского языка или пользователями из Нидерландов. Данные были помечены машиной | классифицировано по настроению, текст твита и описание пользователя переведены на английский язык. Упоминания в отрасли извлечены | 271,342 | JSONL | Настроение, многоуровневая классификация, машинный перевод | 2020 | [63] [64] [65] | Аакш Гупта, CoronaWhy |
Набор данных ReactionGIF | Набор данных из 30 тыс. твитов и их GIF-реакций | Классифицировано по настроению, реакции и эмоциям | 30,000 | Идентификаторы твитов, JSONL | Классифицировано по настроению, реакции и эмоциям | 2021 | [66] [67] | Б. Шмуэли и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Корпус чата NPS | Сообщения из онлайн-чатов, посвященных возрасту. | Конфиденциальность рук замаскирована, помечена для части речи и диалога-акта. | ~ 500 000 | XML | НЛП, программирование, лингвистика | 2007 | [68] | Форсайт, Э., Лин, Дж. и Мартелл, К. |
Тройной корпус Twitter | Тройки ABA, извлеченные из Twitter. | 4,232 | Текст | НЛП | 2016 | [69] | Сордини, А. и др. | |
Корпус UseNet | Сообщения на форуме UseNet. | Анонимные электронные письма и URL-адреса. Пропущенные документы длиной <500 слов или >500 000 слов, или которые были <90% на английском языке. | 7 миллиардов | Текст | 2011 | [70] | Шауль, К. и Уэстбери К. | |
Корпус СМС NUS | Сбор SMS-сообщений между двумя пользователями с временным анализом. | ~ 10 000 | XML | НЛП | 2011 | [71] | КАН, М | |
Reddit Все комментарии Корпус | Все комментарии Reddit (по состоянию на 2015 год). | ~ 1,7 миллиарда | JSON | НЛП, исследование | 2015 | [72] | Застрял_в_Матрице | |
Корпус диалогов Ubuntu | Диалоги, извлеченные из чата Ubuntu на IRC. | 930 тыс. диалогов, 7,1 млн. высказываний | CSV | Исследования диалоговых систем | 2015 | [73] | Лоу, Р. и др. | |
Задача отслеживания состояния диалога | Задачи отслеживания состояния диалога 2 и 3 (DSTC2&3) представляли собой исследовательские задачи, направленные на улучшение современного уровня отслеживания состояния систем речевого диалога. | Транскрипция разговорных диалогов с маркировкой | DSTC2 содержит ~3,2 тыс. вызовов – DSTC3 содержит ~2,3 тыс. вызовов | Json | Отслеживание состояния диалога | 2014 | [74] | Хендерсон, Мэтью и Томсон, Блейз и Уильямс, Джейсон Д. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
FreeLaw | Отфильтрованные данные из Court Listener, части проекта FreeLaw. | Очищенный и нормализованный текст | 4,940,710 | Json | НЛП, лингвистика | 2020 | [75] | Т. Хоппе |
Куча Закона | Корпус юридических и административных данных | Очищено, нормализовано и приватизировано | ~50,000,000 | Json | НЛП, лингвистика, сентимент | 2022 | [76] [77] | Л. Чжэн; Н. Гуха; Б. Андерсон; П. Хендерсон; Д. Хо |
Проект доступа к судебной практике | Все официальные, опубликованные в виде книг судебные решения штатов и федеральных судов США — каждый том или дело, обозначенное как официальный отчет о решениях суда в Соединенных Штатах. | Очищенный и нормализованный текст | ~10,000 | Json | НЛП, лингвистика | 2022 | [78] | А. Айзман; С. Чепмен; Дж. Кушман; К. Дулин; Х. Эйдолон; и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Web of Science | Иерархические наборы данных для классификации текста | Никто. | 46,985 | Текст | Классификация, Категоризация | 2017 | [79] [80] | К. Коусари и др. |
Отчеты о судебных делах | Дела Федерального суда Австралии с 2006 по 2009 год. | Никто. | 4000 | Текст | Подведение итогов, анализ цитирования | 2012 | [81] [82] | Ф. Галгани и др. |
Корпус авторства блоггеров | Записи в блогах 19 320 человек с blogger.com. | Блогер самостоятельно указал пол, возраст, отрасль и знак зодиака. | 681,288 | Текст | Анализ настроений, обобщение, классификация | 2006 | [83] [84] | Дж. Шлер и др. |
Социальная структура сетей Facebook | Большой набор данных социальной структуры Facebook. | Никто. | 100 охваченных колледжей | Текст | Сетевой анализ, кластеризация | 2012 | [85] [86] | А. Трауд и др. |
Набор данных для машинного понимания текста | Рассказы и сопутствующие вопросы для проверки понимания текста. | Никто. | 660 | Текст | Обработка естественного языка, машинное понимание | 2013 | [87] [88] | М. Ричардсон и др. |
Проект Penn Treebank | Текст естественного происхождения, аннотированный с точки зрения языковой структуры. | Текст разбирается на семантические деревья. | ~ 1 млн слов | Текст | Обработка естественного языка, резюмирование | 1995 | [89] [90] | М. Маркус и др. |
Набор данных DEXTER | Поставлена задача определить на основе предоставленных характеристик, какие статьи посвящены корпоративным поглощениям. | Извлеченные признаки включают основы слов. Включены отвлекающие признаки. | 2600 | Текст | Классификация | 2008 | [91] | Рейтер |
Google Книги N-граммы | N-граммы из очень большого корпуса книг | Никто. | 2,2 ТБ текста | Текст | Классификация, кластеризация, регрессия | 2011 | [92] [93] | |
Корпус Персон | Собрано для экспериментов по атрибуции авторства и прогнозированию личности. Состоит из 145 эссе на голландском языке. | Помимо обычных текстов приводятся синтаксически аннотированные тексты. | 145 | Текст | Классификация, регрессия | 2008 | [94] [95] | К. Люйкс и др. |
НажмитеСдвиг | Архивы сайтов социальных сетей, включая Reddit , Twitter и Hackernews . | Текст, извлеченный и нормализованный из WARC | ~100,000,000 сообщений | Json | НЛП, сентимент, лингвистика | 2022 | [96] [97] | Дж. Баумгартнер |
Документы SEC | ЭДГАР | Документы компании | Текст извлечен. | csv | НЛП | ||||
Набор данных CNAE-9 | Задание по категоризации для свободных текстовых описаний бразильских компаний. | Извлечена частота употребления слова. | 1080 | Текст | Классификация | 2012 | [98] [99] | П. Чиарелли и др. |
Набор данных предложений с маркировкой настроений | 3000 предложений с оценкой настроений. | Тон каждого предложения был вручную помечен как положительный или отрицательный. | 3000 | Текст | Классификация, анализ настроений | 2015 | [100] [101] | Д. Коциас |
Набор данных BlogFeedback | Набор данных для прогнозирования количества комментариев, которые получит пост, на основе характеристик этого поста. | Извлечено множество особенностей каждого поста. | 60,021 | Текст | Регрессия | 2014 | [102] [103] | К. Буза |
PubMed Центральный | PubMed® содержит более 35 миллионов ссылок на биомедицинскую литературу из MEDLINE, журналов по естественным наукам и онлайн-книг. | Никто | 35 миллионов | Текст | НЛП | |||
USPTO | Патентное и товарное бюро США | Текст | НЛП | |||||
ФилПейперс | Открытый доступ к коллекции философских публикаций | Текст | НЛП | |||||
Корпус книги | Популярный большой текстовый корпус. | Никто | Текст | НЛП | 2015 | [104] | Чжу, Юкун и др. | |
Корпус Стэнфордского естественного языка (SNLI) | Подписи к изображениям сопоставляются с вновь составленными предложениями для формирования пар выводов, противоречий или нейтральных пар. | Метки классов вывода, синтаксический анализ с помощью синтаксического анализатора PCFG Стэнфордского университета | 570,000 | Текст | Вывод на естественном языке/распознавание текстовой логики | 2015 | [105] | С. Боуман и др. |
Коллекция корпусов DSL (DSLCC) | Многоязычный сборник коротких отрывков журналистских текстов на схожих языках и диалектах. | Никто | 294 000 фраз | Текст | Различение похожих языков | 2017 | [106] | Тан, Лилинг и др. |
Набор данных городского словаря | Корпус слов, голосов и определений | Имена пользователей анонимизированы | 2,580,925 | CSV | НЛП, Машинное понимание | 2016 май | [107] | Анонимный |
T-REx | Рефераты Википедии, соответствующие сущностям Викиданных | Сопоставление троек Викиданных с аннотациями Википедии | 11 млн выровненных троек | JSON и NIF [4] | НЛП, Извлечение отношений | 2018 | [108] | Х. Эльсахар и др. |
Оценка общего понимания языка (GLUE) | Тест девяти задач | Различный | ~1 млн предложений и пар предложений | НЛУ | 2018 | [109] [110] [111] | Ван и др. | |
Понимание контрактов Atticus Dataset (CUAD) (ранее известный как Atticus Open Contract Dataset (AOK)) | Набор данных юридических контрактов с подробными экспертными аннотациями | ~13 000 этикеток | CSV и PDF | Обработка естественного языка, QnA | 2021 | Проект Аттикус | ||
Набор данных подписей к изображениям на вьетнамском языке (UIT-ViIC) | Набор данных для подписей к изображениям на вьетнамском языке | 19 250 подписей к 3 850 изображениям | CSV и PDF | Обработка естественного языка, Компьютерное зрение | 2020 | [112] | Лэм и др. | |
Вьетнамские имена с указанием пола (UIT-ViNames) | Вьетнамские имена с примечаниями о роде | 26 850 полных вьетнамских имен с указанием пола | CSV | Обработка естественного языка | 2020 | [113] | To et al. | |
Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке (UIT-ViCTSD) | Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке | 10 000 комментариев вьетнамских пользователей к интернет-газетам на 10 доменах | CSV | Обработка естественного языка | 2021 | [114] | Нгуен и др. | |
ПГ-19 | Набор книг, извлеченных из библиотеки книг проекта «Гутенберг» | Текст | Обработка естественного языка | 2019 | Джек В и др. | |||
Математика Deepmind | Математические пары вопросов и ответов. | Текст | Обработка естественного языка | 2018 | [115] | Д. Сакстон и др. | ||
Архив Анны | Полный архив опубликованных книг и статей | Никто | 100,356,641 | Текст, epub, PDF | Обработка естественного языка | 2024 |
Эти наборы данных состоят из звуков и звуковых характеристик, используемых для таких задач, как распознавание и синтез речи .
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Коммутатор-1 | Разговорная речь по телефону. | 260 часов речи 543 ораторов (302 мужчины, 241 женщина) со всех концов Соединенных Штатов, около 2400 двусторонних телефонных разговоров, собранных Texas Instruments в 1990–1991 годах. | аудио, текстовая расшифровка, временные метки на уровне слов, фонетическая транскрипция | распознавание речи, фонетическая транскрипция. | 1992 (2000) | [116] [117] | НИСТ | |
Хаб5'00 | Разговорная речь по телефону. | 260 часов речи 543 ораторов (302 мужчины, 241 женщина) со всех концов США, около 2400 двусторонних телефонных разговоров, ~3 миллиона слов. Собрано Texas Instruments в 1990-1991 годах. | аудио, текстовая расшифровка, временные метки на уровне слов, фонетическая транскрипция | Распознавание речи, фонетическая транскрипция. Наиболее часто используемый набор тестов для этого набора данных называется "Hub5'00". | 1992 (2000) | [118] [119] | НИСТ | |
Выступление с нулевыми ресурсами 2015 | Спонтанная речь (английский), прочитанная речь (ситсонга). | Нет, необработанные файлы WAV. | Английский: 5 ч., 12 говорящих; Сицонга: 2 ч. 30 мин., 24 говорящих | WAV (только аудио) | Неконтролируемое обнаружение речевых признаков/единиц подслов/единиц слов | 2015 | [120] [121] | Верстиг и др. |
Набор данных по речевым данным при болезни Паркинсона | Многочисленные записи людей с болезнью Паркинсона и без нее. | Извлеченные характеристики голоса, болезнь оценивается врачом с использованием единой шкалы оценки болезни Паркинсона . | 1040 | Текст | Классификация, регрессия | 2013 | [122] [123] | Б. Э. Сакар и др. |
Разговорные арабские цифры | Разговорные арабские цифры из 44 мужских и 44 женских. | Временной ряд коэффициентов мел-частотного кепстра . | 8,800 | Текст | Классификация | 2010 | [124] [125] | М. Бедда и др. |
Набор данных ISOLET | Произносимые названия букв. | Характеристики, извлеченные из звуков. | 7797 | Текст | Классификация | 1994 | [126] [127] | Р. Коул и др. |
Набор данных японских гласных | Девять мужчин произнесли две японские гласные подряд. | Применил к нему 12-градусный линейный предсказательный анализ для получения дискретного временного ряда с 12 коэффициентами кепстра. | 640 | Текст | Классификация | 1999 | [128] [129] | М. Кудо и др. |
Набор данных телемониторинга Паркинсона | Многочисленные записи людей с болезнью Паркинсона и без нее. | Извлечены звуковые характеристики. | 5875 | Текст | Классификация | 2009 | [130] [131] | А. Цанас и др. |
ТИМИТ | Записи 630 носителей восьми основных диалектов американского английского языка, каждый из которых читает десять фонетически насыщенных предложений. | Речь транскрибируется лексически и фонематически. | 6300 | Текст | Распознавание речи, классификация. | 1986 | [132] [133] | Дж. Гарофоло и др. |
Корпус арабской речи | Корпус речи современного стандартного арабского языка (MSA) для одного носителя языка с фонетическими и орфографическими транскрипциями, приведенными в соответствие с уровнем фонем. | Речь транскрибируется орфографически и фонетически с указанием ударений. | ~1900 | Текст, WAV | Синтез речи, распознавание речи, выравнивание корпуса, логопедическое лечение, образование. | 2016 | [134] | Н. Халаби |
Общий голос | Общедоступная база данных краудсорсинговых данных на самых разных диалектах. | Проверка другими пользователями. | Английский: 1118 часов | MP3 с соответствующими текстовыми файлами | Распознавание речи | 2017 Июнь (2019 Декабрь) | [135] | Мозилла |
LJSpeech | Корпус аудиокниг на английском языке, являющихся общественным достоянием и записанных одним носителем , разделенный на короткие клипы по знакам препинания. | Проверка качества, нормализованная транскрипция вместе с оригиналом. | 13,100 | CSV-, WAV-файлы | Синтез речи | 2017 | [136] | Кит Ито, Линда Джонсон |
Набор данных арабских речевых команд | Собрано от 30 участников и сгруппировано по 40 ключевым словам. | Необработанные WAV-файлы | 12,000 | WAV-, CSV-файлы | Распознавание речи, обнаружение ключевых слов | 2021 | [137] | Абдулкадер Гандура |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Географическое происхождение набора данных музыки | Аудиохарактеристики музыкальных фрагментов из разных мест. | Аудиохарактеристики извлечены с помощью программного обеспечения MARSYAS. | 1,059 | Текст | Географическая классификация, кластеризация | 2014 | [138] [139] | Ф. Чжоу и др. |
Набор данных «Миллион песен» | Аудиоматериалы из миллиона различных песен. | Извлечены аудиохарактеристики. | 1М | Текст | Классификация, кластеризация | 2011 | [140] [141] | Т. Бертен-Майе и др. |
MUSDB18 | Многодорожечные записи популярной музыки | Необработанный звук | 150 | MP4, WAV | Разделение источников | 2017 | [142] | З. Рафии и др. |
Бесплатный музыкальный архив | Аудио по лицензии Creative Commons из 100 тыс. песен (343 дня, 1 ТиБ) с иерархией из 161 жанра, метаданными, пользовательскими данными, текстом в свободной форме. | Необработанный звук и аудиофункции. | 106,574 | Текст, MP3 | Классификация, рекомендация | 2017 | [143] | М. Дефферрард и др. |
Набор данных хоровой гармонии Баха | Хоральные аккорды Баха. | Извлечены аудиохарактеристики. | 5665 | Текст | Классификация | 2014 | [144] [145] | Д. Радичони и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
UrbanSound | Маркированные звукозаписи звуков, таких как работа кондиционеров, гудки автомобилей и играющие дети. | Сортировка по папкам по классу событий, а также метаданные в файле JSON и аннотации в файле CSV. | 1,059 | Звук ( WAV- файл) | Классификация | 2014 | [146] [147] | Дж. Саламон и др. |
АудиоСет | 10-секундные звуковые фрагменты из видеороликов YouTube и онтология из более чем 500 меток. | 128-дневные PCA-функции VGG-ish каждую секунду. | 2,084,320 | Текстовые файлы (CSV) и файлы записей TensorFlow | Классификация | 2017 | [148] | Дж. Геммеке и др., Google |
Задача на обнаружение звука птиц | Аудиозаписи со станций мониторинга окружающей среды, а также записи, полученные из краудсорсинга | 17,000+ | Классификация | 2016 (2018) | [149] [150] | Университет королевы Марии и Общество обработки сигналов IEEE | ||
WSJ0 Хипстерские эмбиент-миксы | Звук с WSJ0, смешанный с шумом, записанным в районе залива Сан-Франциско | Шумовые клипы, соответствующие клипам WSJ0 | 28,000 | Звук ( WAV ) | Разделение источников звука | 2019 | [151] | Вихерн, Г. и др., Whisper и MERL |
Клото | 4981 аудиофрагмент продолжительностью от 15 до 30 секунд, каждый аудиофрагмент имеет пять различных субтитров длиной от восьми до 20 слов. | 24,905 | Звук ( WAV ) и текст ( CSV ) | Автоматизированные аудио субтитры | 2020 | [152] [153] | К. Дроссос, С. Липпинг и Т. Виртанен |
Наборы данных, содержащие информацию об электрических сигналах, требующие определенной обработки сигнала для дальнейшего анализа.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Witty Worm | Набор данных, описывающий распространение червя Witty и зараженные компьютеры. | Разделен на общедоступный набор и ограниченный набор, содержащий более конфиденциальную информацию, такую как заголовки IP и UDP. | 55 909 IP-адресов | Текст | Классификация | 2004 | [154] [155] | Центр прикладного анализа интернет-данных |
Набор данных для оценки артериального давления без манжеты | Очищенные жизненные сигналы пациентов-людей, которые можно использовать для оценки артериального давления. | Показатели жизнедеятельности 125 Гц были очищены. | 12,000 | Текст | Классификация, регрессия | 2015 | [156] [157] | М. Качуи и др. |
Набор данных о дрейфе массива газовых датчиков | Измерения с 16 химических датчиков, используемых в моделировании для компенсации дрейфа. | Представлено обширное количество характеристик. | 13,910 | Текст | Классификация | 2012 | [158] [159] | А. Вергара |
Набор данных сервопривода | Данные, охватывающие нелинейные зависимости, наблюдаемые в цепи сервоусилителя. | Приведены уровни различных компонентов в зависимости от других компонентов. | 167 | Текст | Регрессия | 1993 | [160] [161] | К. Ульрих |
Набор данных UJIIndoorLoc-Mag | База данных внутренней локализации для тестирования систем позиционирования в помещении. Данные основаны на магнитном поле. | Даны разделы обучения и тестирования. | 40,000 | Текст | Классификация, регрессия, кластеризация | 2015 | [162] [163] | Д. Рамбла и др. |
Набор данных диагностики бессенсорного привода | Электрические сигналы от двигателей с неисправными компонентами. | Извлечены статистические характеристики. | 58,508 | Текст | Классификация | 2015 | [164] [165] | М. Батор |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Носимые компьютеры: классификация поз и движений тела (PUC-Rio) | Люди выполняют пять стандартных действий, надев трекеры движения. | Никто. | 165,632 | Текст | Классификация | 2013 | [166] [167] | Папский католический университет Рио-де-Жанейро |
Набор данных сегментации фазы жеста | Характеристики, извлеченные из видео, на которых люди делают различные жесты. | Извлеченные признаки направлены на изучение сегментации фаз жеста. | 9900 | Текст | Классификация, кластеризация | 2014 | [168] [169] | Р. Мадео и др. |
Набор данных Vicon Physical Action Data Set | 10 обычных и 10 агрессивных физических действий, измеряющих активность человека, отслеживаемую 3D-трекером. | Множество параметров регистрируются 3D-трекером. | 3000 | Текст | Классификация | 2011 | [170] [171] | Т. Теодоридис |
Набор данных о повседневной и спортивной активности | Данные датчиков движения для 19 повседневных и спортивных занятий. | Имеется множество датчиков, предварительная обработка сигналов не производится. | 9120 | Текст | Классификация | 2013 | [172] [173] | Б. Баршан и др. |
Распознавание человеческой активности с использованием набора данных смартфонов | Данные гироскопа и акселерометра людей, использующих смартфоны и выполняющих обычные действия. | Выполняемые действия маркируются, все сигналы предварительно обрабатываются на предмет шума. | 10,299 | Текст | Классификация | 2012 | [174] [175] | Дж. Рейес-Ортис и др. |
Знаки австралийского языка жестов | Жесты австралийского языка жестов, распознаваемые перчатками, отслеживающими движение. | Никто. | 2565 | Текст | Классификация | 2002 | [176] [177] | М. Кадус |
Упражнения по поднятию тяжестей, контролируемые с помощью инерциальных измерительных устройств | Пять вариантов упражнения на сгибание рук на бицепс, контролируемых с помощью инерционных измерительных приборов. | Некоторые статистические данные рассчитаны на основе необработанных данных. | 39,242 | Текст | Классификация | 2013 | [178] [179] | В. Угулино и др. |
sEMG для базовых движений рук. Набор данных | Две базы данных поверхностных электромиографических сигналов 6 движений руки. | Никто. | 3000 | Текст | Классификация | 2014 | [180] [181] | К. Сапсанис и др. |
Набор данных распознавания активности REALDISP | Оценить методы, учитывающие эффекты смещения датчиков при распознавании активности носимых устройств. | Никто. | 1419 | Текст | Классификация | 2014 | [181] [182] | О. Банос и др. |
Набор данных распознавания неоднородности активности | Данные с различных интеллектуальных устройств, свидетельствующие о том, что люди выполняют различные действия. | Никто. | 43,930,257 | Текст | Классификация, кластеризация | 2015 | [183] [184] | А. Стисен и др. |
Прогноз движения пользователей в помещении на основе данных RSS | Временные данные беспроводной сети, которые можно использовать для отслеживания перемещений людей в офисе. | Никто. | 13,197 | Текст | Классификация | 2016 | [185] [186] | Д. Баччу |
Набор данных мониторинга физической активности PAMAP2 | 18 различных видов физической активности, выполняемых 9 субъектами, использующими 3 ИМУ. | Никто. | 3,850,505 | Текст | Классификация | 2012 | [187] | А. Рейсс |
Набор данных распознавания активности OPPORTUNITY | Распознавание человеческой активности с помощью носимых устройств, датчиков объектов и окружающей среды — это набор данных, разработанный для сравнения алгоритмов распознавания человеческой активности. | Никто. | 2551 | Текст | Классификация | 2012 | [188] [189] | Д. Рогген и др. |
Набор данных распознавания активности в реальном мире | Распознавание активности человека с помощью носимых устройств. Различает семь положений устройства на теле и включает шесть различных типов датчиков. | Никто. | 3 150 000 (на датчик) | Текст | Классификация | 2016 | [190] | Т. Штилер и др. |
Набор данных позы инсульта в реабилитационном центре Торонто | Трехмерная оценка позы человека (Kinect) у пациентов, перенесших инсульт, и здоровых участников, выполняющих ряд задач с использованием робота для реабилитации после инсульта. | Никто. | 10 здоровых человек и 9 человек, переживших инсульт (3500–6000 кадров на человека) | CSV | Классификация | 2017 | [191] [192] [193] | Э. Долатабади и др. |
Корпус социальных контактов (CoST) | 7805 захватов жестов 14 различных социальных жестов прикосновения, выполненных 31 субъектом. Жесты выполнялись в трех вариантах: нежно, нормально и грубо, на сетке датчика давления, обернутой вокруг руки манекена. | Выполняемые сенсорные жесты сегментируются и маркируются. | 7805 захватов жестов | CSV | Классификация | 2016 | [194] [195] | М. Юнг и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о вине | Химический анализ вин, выращенных в одном регионе Италии, но полученных из трех разных сортов винограда. | Приведены 13 свойств каждого вина. | 178 | Текст | Классификация, регрессия | 1991 | [196] [197] | М. Форина и др. |
Набор данных по электростанции комбинированного цикла | Данные с различных датчиков на электростанции, работающей в течение 6 лет. | Никто | 9568 | Текст | Регрессия | 2014 | [198] [199] | П. Туфекчи и др. |
Наборы данных из физических систем.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных HIGGS | Моделирование столкновений ускорителей частиц методом Монте-Карло. | Приведено 28 характеристик каждого столкновения. | 11М | Текст | Классификация | 2014 | [200] [201] [202] | Д. Уайтсон |
Набор данных HEPMASS | Моделирование Монте-Карло столкновений ускорителей частиц. Цель — отделить сигнал от шума. | Приведено 28 характеристик каждого столкновения. | 10,500,000 | Текст | Классификация | 2016 | [201] [202] [203] | Д. Уайтсон |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных по гидродинамике яхт | Характеристики яхты в зависимости от ее размеров. | Для каждой яхты дано шесть характеристик. | 308 | Текст | Регрессия | 2013 | [204] [205] | Р. Лопес |
Набор данных об ошибках выполнения робота | 5 наборов данных, посвященных неспособности роботов выполнять типичные задачи. | Целочисленные характеристики, такие как крутящий момент и другие измерения датчиков. | 463 | Текст | Классификация | 1999 | [206] | Л. Сибра и др. |
Набор данных о мостах Питтсбурга | Описание конструкции дается с учетом ряда свойств различных мостов. | Приведены различные характеристики моста. | 108 | Текст | Классификация | 1990 | [207] [208] | Y. Райх и др. |
Автомобильный набор данных | Данные об автомобилях, их страховом риске и их нормализованных убытках. | Извлечены характеристики автомобиля. | 205 | Текст | Регрессия | 1987 | [209] [210] | Дж. Шиммер и др. |
Автоматический набор данных MPG | Данные о расходе топлива для автомобилей. | Приведены восемь характеристик каждого автомобиля. | 398 | Текст | Регрессия | 1993 | [211] | Университет Карнеги-Меллона |
Набор данных по энергоэффективности | Требования к отоплению и охлаждению указаны в зависимости от параметров здания. | Указаны параметры здания. | 768 | Текст | Классификация, регрессия | 2012 | [212] [213] | А. Ксифара и др. |
Набор данных по собственному шуму аэродинамического профиля | Серия аэродинамических и акустических испытаний двух- и трехмерных сечений лопаток аэродинамического профиля. | Приведены данные о частоте, угле атаки и т. д. | 1503 | Текст | Регрессия | 2014 | [214] | Р. Лопес |
Набор данных по уплотнительным кольцам космического челнока Challenger USA | Попытка предсказать проблемы с уплотнительными кольцами на основе прошлых данных Challenger. | Приведены некоторые характеристики каждого полета, такие как температура запуска. | 23 | Текст | Регрессия | 1993 | [215] [216] | Д. Дрейпер и др. |
Набор данных Statlog (Shuttle) | Наборы данных космических челноков НАСА. | Даны девять характеристик. | 58,000 | Текст | Классификация | 2002 | [217] | НАСА |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Вулканы на Венере – набор данных эксперимента JARtool | Снимки Венеры, полученные космическим аппаратом «Магеллан». | Изображения помечены людьми. | не дано | Изображения | Классификация | 1991 | [218] [219] | М. Берл |
Набор данных гамма-телескопа MAGIC | Метод Монте-Карло генерировал события с высокоэнергетическими гамма-частицами. | Многочисленные особенности, извлеченные из моделирования. | 19,020 | Текст | Классификация | 2007 | [219] [220] | Р. Бок |
Набор данных по солнечным вспышкам | Измерения количества определенных типов солнечных вспышек, происходящих в течение 24-часового периода. | Приведены многочисленные характеристики, характерные для солнечных вспышек. | 1389 | Текст | Регрессия, классификация | 1989 | [221] | Г. Брэдшоу |
Многополевой набор данных CAMELS | 2D-карты и 3D-сетки на основе тысяч N-тел и современных гидродинамических симуляций, охватывающих широкий диапазон значений космологических и астрофизических параметров. | Каждая карта и сетка имеет 6 космологических и астрофизических параметров, связанных с ней. | 405 000 2D-карт и 405 000 3D-сеток | 2D-карты и 3D-сетки | Регрессия | 2021 | [222] | Франсиско Вильяескуза-Наварро и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Вулканы мира | Данные об извержениях вулканов для всех известных вулканических событий на Земле. | Приведены такие сведения, как регион, субрегион, тектоническая обстановка, преобладающий тип горных пород. | 1535 | Текст | Регрессия, классификация | 2013 | [223] | Э. Венцке и др. |
Набор данных по сейсмическим ударам | Сейсмическая активность угольной шахты. | Сейсмическая активность классифицировалась как опасная или нет. | 2584 | Текст | Классификация | 2013 | [224] [225] | М. Сикора и др. |
CAMELS-US | Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 671 | CSV, текст, шейп-файл | Регрессия | 2017 | [226] [227] | Н. Аддор и др. / А. Ньюман и др. |
CAMELS-Чили | Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 516 | CSV, текст, шейп-файл | Регрессия | 2018 | [228] | C. Альварес-Гарретон и др. |
CAMELS-Бразилия | Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 897 | CSV, текст, шейп-файл | Регрессия | 2020 | [229] | В. Шагас и др. |
CAMELS-GB | Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 671 | CSV, текст, шейп-файл | Регрессия | 2020 | [230] | Г. Коксон и др. |
CAMELS-Австралия | Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 222 | CSV, текст, шейп-файл | Регрессия | 2021 | [231] | К. Фаулер и др. |
ЛамаХ -CE | Набор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 859 | CSV, текст, шейп-файл | Регрессия | 2021 | [232] | К. Клинглер и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных по прочности бетона на сжатие | Набор данных о свойствах бетона и прочности на сжатие. | Для каждого образца приведено девять характеристик. | 1030 | Текст | Регрессия | 2007 | [233] [234] | Я. Да |
Набор данных для испытаний на осадку бетона | Текучесть бетона, заданная с точки зрения свойств. | Указаны характеристики бетона, такие как летучая зола, вода и т. д. | 103 | Текст | Регрессия | 2009 | [235] [236] | Я. Да |
Набор данных Маска | Предскажите, будет ли молекула, учитывая ее характеристики, мускусом или не мускусом. | Для каждой молекулы дано 168 характеристик. | 6598 | Текст | Классификация | 1994 | [237] | Аррис Фармасьютикал Корпорейшн |
Набор данных о неисправностях стальных пластин | Стальные пластины 7 различных типов. | Для каждого образца приведено 27 характеристик. | 1941 | Текст | Классификация | 2010 | [238] | Исследовательский центр «Семейон» |
Наборы данных по монометаллическим наночастицам благородных металлов | Технологические и структурные особенности монометаллических наночастиц, метки - энергия образования. | Для каждого образца приведено 85–182 характеристики. | 425-4000 | CSV | Регрессия | 2017-2023 | [239] [240] [241] [242] [243] [244] | А. Барнард и Г. Оплетал |
Наборы данных по биметаллическим наночастицам благородных металлов | Технологические и структурные особенности биметаллических наночастиц, метки - энергия образования. | Для каждого образца дано 922 характеристики. | 138147 по 162770 | CSV | Регрессия | 2023 | [245] [246] [247 ] [248] [249] [250] [251] [252] [ 253] [254] [255] [256] | Дж. Тинг и др. |
Набор данных по триметаллическим наночастицам AuPdPt | Технологические и структурные особенности наночастиц AuPdPt, метки – энергия образования. | Для каждого образца приведено 1958 характеристик. | 48136 | CSV | Регрессия | 2023 | [257] | К. Лу и др. |
Наборы данных из биологических систем.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Возрастной набор данных | Структурированный набор данных общего назначения о жизни, работе и смерти 1,22 млн выдающихся людей. Общественное достояние. | Пятиэтапный метод определения года рождения и смерти, пола и рода занятий на основе данных, предоставленных сообществом для всех языковых версий проекта Википедия. | 1,223,009 | Текст | Регрессия, Классификация | 2022 | Бумага [258] Набор данных [259] | Амораднежад и др. |
Синтетический набор данных глазного дна [260] | Фотореалистичные изображения сетчатки и сегментации сосудов. Общественное достояние. | 2500 изображений размером 1500*1152 пикселей, полезных для сегментации и классификации вен и артерий на одном фоне. | 2500 | Изображения | Классификация, Сегментация | 2020 | [261] | К. Валенти и др. |
База данных ЭЭГ | Исследование по изучению ЭЭГ-коррелятов генетической предрасположенности к алкоголизму. | Измерения с 64 электродов, размещенных на коже головы, с частотой 256 Гц (эпоха 3,9 мс) в течение 1 секунды. | 122 | Текст | Классификация | 1999 | [262] | Х. Беглейтер |
Интерфейсный набор данных P300 | Данные девяти испытуемых, собранные с использованием интерфейса «мозг-компьютер» на базе P300 для людей с ограниченными возможностями. | Разделено на четыре сессии по каждому предмету. Приведен код MATLAB . | 1,224 | Текст | Классификация | 2008 | [263] [264] | У. Хоффман и др. |
Набор данных о сердечных заболеваниях | Относится к пациентам с заболеваниями сердца и без них. | Для каждого пациента дано 75 атрибутов с некоторыми пропущенными значениями. | 303 | Текст | Классификация | 1988 | [265] [266] | А. Яноши и др. |
Набор данных по раку молочной железы в Висконсине (диагностика) | Набор данных о характеристиках образований молочной железы. Приведены диагнозы врача. | Приведено 10 характеристик для каждого образца. | 569 | Текст | Классификация | 1995 | [267] [268] | В. Вольберг и др. |
Национальное исследование по употреблению наркотиков и здоровью | Масштабное исследование по вопросам здоровья и употребления наркотиков в Соединенных Штатах. | Никто. | 55,268 | Текст | Классификация, регрессия | 2012 | [269] | Министерство здравоохранения и социальных служб США |
Набор данных по раку легких | Набор данных по раку легких без определений атрибутов | Для каждого случая приведено 56 характеристик. | 32 | Текст | Классификация | 1992 | [270] [271] | З. Хонг и др. |
Набор данных по аритмии | Данные по группе пациентов, у некоторых из которых наблюдается сердечная аритмия. | 276 функций для каждого экземпляра. | 452 | Текст | Классификация | 1998 | [272] [273] | Х. Алтай и др. |
Диабет 130-больницы США за 1999–2008 гг. Набор данных | Данные за 9 лет о повторной госпитализации пациентов с диабетом в 130 больницах США. | Приведены многочисленные характеристики каждой повторной госпитализации. | 100,000 | Текст | Классификация, кластеризация | 2014 | [274] [275] | Дж. Клор и др. |
Диабетическая ретинопатия Дебрецен Dataset | Характеристики, извлеченные из изображений глаз с диабетической ретинопатией и без нее. | Извлеченные признаки и диагностированные состояния. | 1151 | Текст | Классификация | 2014 | [276] [277] | Б. Антал и др. |
Диабетическая ретинопатия Мессидор Dataset | Методы оценки сегментации и индексации в области ретинальной офтальмологии (MESSIDOR) | Особенности степени ретинопатии и риска отека желтого пятна | 1200 | Изображения, Текст | Классификация, Сегментация | 2008 | [278] [279] | Проект Мессидор |
Набор данных о заболеваниях печени | Данные по людям с заболеваниями печени. | Для каждого пациента дано семь биологических характеристик. | 345 | Текст | Классификация | 1990 | [280] [281] | Bupa Medical Research Ltd. |
Набор данных по заболеваниям щитовидной железы | 10 баз данных пациентов с заболеваниями щитовидной железы. | Никто. | 7200 | Текст | Классификация | 1987 | [282] [283] | Р. Куинлан |
Набор данных по мезотелиоме | Данные о пациентах с мезотелиомой. | Приведено большое количество характеристик, включая воздействие асбеста. | 324 | Текст | Классификация | 2016 | [284] [285] | А. Танрикулу и др. |
Набор данных для оценки позы на основе зрения при болезни Паркинсона | Двумерные оценки позы человека у пациентов с болезнью Паркинсона, выполняющих различные задачи. | Дрожание камеры удалено из траекторий. | 134 | Текст | Классификация, регрессия | 2017 | [286] [287] [288] | М. Ли и др. |
Набор данных сети метаболических реакций KEGG (ненаправленный) | Сеть метаболических путей. Даны сеть реакций и сеть отношений . | Приведены подробные характеристики каждого сетевого узла и пути. | 65,554 | Текст | Классификация, кластеризация, регрессия | 2011 | [289] | М. Наим и др. |
Модифицированный набор данных анализа морфологии сперматозоидов человека (MHSMA) | Изображения спермы человека от 235 пациентов с мужским фактором бесплодия, маркированные на предмет нормальных или аномальных акросом, головки, вакуоли и хвоста сперматозоида. | Обрезано вокруг одной головки сперматозоида. Увеличение нормализовано. Созданы разделы обучающего, проверочного и тестового наборов. | 1,540 | .npy-файлы | Классификация | 2019 | [290] [291] | С. Джавади и С.А. Миррошандель |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Abalone | Физические измерения Abalone. Также даны погодные условия и местоположение. | Никто. | 4177 | Текст | Регрессия | 1995 | [292] | Лаборатории морских исследований - Таруна |
Набор данных зоопарка | Искусственный набор данных, охватывающий 7 классов животных. | Животные классифицируются по 7 категориям, и для каждой из них приводятся характеристики. | 101 | Текст | Классификация | 1990 | [293] | Р. Форсайт |
Набор данных Demospongiae | Данные о морских губках. | 503 губки класса Demosponge описаны по различным признакам. | 503 | Текст | Классификация | 2010 | [294] | Э. Арменгол и др. |
Данные о сельскохозяйственных животных | Инвентаризация данных PLF (коровы, свиньи; местоположение, ускорение и т. д.). | Маркированные наборы данных. | Список постоянно обновляется. | Текст | Классификация | 2020 | [295] | В. Блох |
Набор данных последовательностей генов сплайсинг-соединения | Последовательности генов сплайс-контактов (ДНК) приматов с соответствующей теорией несовершенных доменов. | Никто. | 3190 | Текст | Классификация | 1992 | [271] | Г. Тоуэлл и др. |
Набор данных по экспрессии белка у мышей | Уровни экспрессии 77 белков, измеренные в коре головного мозга мышей. | Никто. | 1080 | Текст | Классификация, Кластеризация | 2015 | [296] [297] | К. Хигуэра и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных UCI Mushroom | Атрибуты и классификация грибов. | Приведены многочисленные свойства каждого гриба. | 8124 | Текст | Классификация | 1987 | [298] | Дж. Шлиммер |
Вторичный набор данных по грибам | Атрибуты и классификация грибов | Смоделированные данные из более крупных и реалистичных первичных записей грибов. Полностью воспроизводимые. | 61069 | Текст | Классификация | 2020 | [299] [300] | Д. Вагнер и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных по лесным пожарам | Лесные пожары и их свойства. | Извлекаются 13 характеристик каждого пожара. | 517 | Текст | Регрессия | 2008 | [301] [302] | П. Кортес и др. |
Набор данных Iris | Три типа растений ириса описываются четырьмя различными признаками. | Никто. | 150 | Текст | Классификация | 1936 | [303] [304] | Р. Фишер |
Виды растений Листья Набор данных | Шестнадцать образцов листьев каждого из ста видов растений. | Приведены дескриптор формы, мелкомасштабные поля и гистограммы текстуры. | 1600 | Текст | Классификация | 2012 | [305] [306] | Дж. Коуп и др. |
Набор данных по сое | База данных больных растений сои. | Для каждого растения дано 35 характеристик. Растения классифицированы по 19 категориям. | 307 | Текст | Классификация | 1988 | [307] | Р. Михальски и др. |
Набор данных семян | Измерения геометрических свойств зерен, принадлежащих трем различным сортам пшеницы. | Никто. | 210 | Текст | Классификация, кластеризация | 2012 | [308] [309] | Хаританович и др. |
Набор данных Covertype | Данные для прогнозирования типа лесного покрова строго по картографическим переменным. | Приведены многочисленные географические особенности. | 581,012 | Текст | Классификация | 1998 | [310] [311] | Дж. Блэкард и др. |
Набор данных сети сигнализации абсцизовой кислоты | Данные для сигнальной сети завода. Цель — определить набор правил, управляющих сетью. | Никто. | 300 | Текст | Каузальное открытие | 2008 | [312] | Дж. Дженкенс и др. |
Набор данных фолио | 20 фотографий листьев каждого из 32 видов. | Никто. | 637 | Изображения, текст | Классификация, кластеризация | 2015 | [313] [314] | Т. Мунисами и др. |
Набор данных цветов Оксфорда | Набор данных из 17 категорий цветов. | Разделение на обучающие и тестовые данные, маркированные изображения, | 1360 | Изображения, текст | Классификация | 2006 | [315] [316] | М.Э. Нильсбак и др. |
Набор данных по рассаде растений | Набор данных по 12 категориям саженцев растений. | Маркированные изображения, сегментированные изображения, | 5544 | Изображения | Классификация, обнаружение | 2017 | [317] | Гисельссон и др. |
Фрукты-360 | База данных с изображениями 131 фрукта и овоща. | 100x100 пикселей, белый фон. | 90483 | Изображения (jpg) | Классификация | 2017–2024 | [318] | Михай Олтеан |
Weed-ID.App | База данных с 1025 видами, 13 500+ изображений и 120 000+ характеристик | Различный размер и фон. Маркировка доктора ботаники. | 13,500 | Изображения, текст | Классификация | 1999-2024 | [319] | Ричард Олд |
Набор данных CottonWeedDet3 | Набор данных по обнаружению сорняков в 3 классах для систем возделывания хлопка | 3 вида сорняков. | 848 | Изображения | Классификация | 2022 | [320] | Рахман и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Ecoli | Места локализации белков. | Приведены различные характеристики мест локализации белков. | 336 | Текст | Классификация | 1996 | [321] [322] | К. Накаи и др. |
Набор данных MicroMass | Идентификация микроорганизмов по данным масс-спектрометрии. | Различные характеристики масс-спектрометра. | 931 | Текст | Классификация | 2013 | [323] [324] | П. Маэ и др. |
Набор данных по дрожжам | Прогнозы мест клеточной локализации белков. | Для каждого экземпляра дано восемь характеристик. | 1484 | Текст | Классификация | 1996 | [325] [326] | К. Накаи и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Tox21 | Прогнозирование результатов биологических анализов. | Даны химические описания молекул. | 12707 | Текст | Классификация | 2016 | [327] | А. Майр и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Тест аномалий Numenta (NAB) | Данные упорядочены, имеют временные метки, однозначные метрики. Все файлы данных содержат аномалии, если не указано иное. | Никто | 50+ файлов | CSV | Обнаружение аномалий | 2016 (постоянно обновляется) | [328] | Нумента |
Сколтехский тест аномалий (SKAB) | Каждый файл представляет собой один эксперимент и содержит одну аномалию. Набор данных представляет собой многомерный временной ряд, собранный с датчиков, установленных на испытательном стенде. | Существует две разметки для задач обнаружения выбросов (точечных аномалий) и обнаружения точек изменения (коллективных аномалий). | 30+ файлов (v0.9) | CSV | Обнаружение аномалий | 2020 (постоянно обновляется) | [329] [330] | Кацер Юрий Дмитриевич и Козицын Вячеслав Олегович |
Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование | Большинство файлов данных адаптированы из данных репозитория машинного обучения UCI, некоторые собраны из литературы. | обработаны для отсутствующих значений, только числовые атрибуты, различные проценты аномалий, метки | 1000+ файлов | АРФФ | Обнаружение аномалий | 2016 (возможно, обновлено новыми наборами данных и/или результатами) | [331] | Кампос и др. |
В этот раздел включены наборы данных, имеющие дело со структурированными данными.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных DBpedia Neural Question Answering (DBNQA) | Большая коллекция вопросов на SPARQL, специально разработанная для Open Domain Neural Question Answering через базу знаний DBpedia. | Этот набор данных содержит большую коллекцию открытых нейронных шаблонов SPARQL и экземпляров для обучения нейронных машин SPARQL; он был предварительно обработан полуавтоматическими инструментами аннотации, а также тремя экспертами SPARQL. | 894,499 | Пары вопрос-запрос | Вопрос Ответ | 2018 | [332] [333] | Хартманн, Сору и Маркс и др. |
Вьетнамский набор вопросов и ответов (UIT-ViQuAD) | Большая коллекция вьетнамских вопросов для оценки моделей MRC. | Этот набор данных содержит более 23 000 пар вопросов и ответов, созданных человеком на основе 5109 отрывков из 174 вьетнамских статей из Википедии. | 23,074 | Пары вопрос-ответ | Вопрос Ответ | 2020 | [334] | Нгуен и др. |
Вьетнамский корпус машинного чтения и понимания с множественным выбором (ViMMRC) | Коллекция вьетнамских вопросов с множественным выбором для оценки моделей MRC. | В этот корпус входят 2783 вопроса с несколькими вариантами ответов на вьетнамском языке. | 2,783 | Пары вопрос-ответ | Ответы на вопросы/Понимание машинного чтения | 2020 | [335] | Нгуен и др. |
Ответы на вопросы в открытом формате становятся разговорными благодаря переписыванию вопросов | Сквозной открытый вопрос-ответ. | Этот набор данных включает 14 000 разговоров с 81 000 парами вопросов и ответов. | Контекст, Вопрос, Переписать, Ответ, URL_ответа, Номер_разговора, Номер_поворота, Источник_разговора Более подробная информация представлена в репозитории проекта на GitHub и соответствующей карточке набора данных Hugging Face. | Вопрос Ответ | 2021 | [336] | Ананта и Вакуленко и др. | |
UnifiedQA | Вопросно-ответные данные | Обработанный набор данных | Вопрос Ответ | 2020 | [337] | Хашаби и др. |
В этот раздел включены наборы данных, которые...
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Надсмотрщик | «Корпус Taskmaster состоит из ТРЕХ наборов данных: Taskmaster-1 (TM-1), Taskmaster-2 (TM-2) и Taskmaster-3 (TM-3), включающих более 55 000 устных и письменных диалогов, ориентированных на выполнение задач, в более чем дюжине доменов». [338] | Taskmaster-1: целевой разговорный набор данных. Включает 13 215 диалогов, основанных на задачах, охватывающих шесть доменов. Taskmaster-2: 17 289 диалогов в семи областях (рестораны, заказ еды, фильмы, отели, авиаперелеты, музыка и спорт). Таскмастер-3: 23 757 диалогов по покупке билетов в кино. | Мастер-1 и Мастер-2: идентификатор разговора, высказывания, идентификатор инструкции Таскмастер-3: идентификатор разговора, высказывания, вертикаль, сценарий, инструкции. Более подробную информацию можно найти в репозитории проекта на GitHub или на карточках набора данных Hugging Face (taskmaster-1, taskmaster-2, taskmaster-3). | Диалог/инструкция запрошена | 2019 | [339] | Бирн и Кришнамурти и др. | |
DrRepair | Маркированный набор данных для восстановления программы. | Предварительно обработанные данные | Проверьте детали формата в рабочем листе проекта. | Диалог/инструкция запрошена | 2020 | [340] | Мичихиро и др. | |
Естественные инструкции v2 | Большой набор данных, охватывающий более широкий спектр способностей к рассуждению | Каждая задача состоит из ввода/вывода и определения задачи. Кроме того, каждый вопрос содержит определение задачи. Дополнительная информация представлена в репозитории проекта GitHub и на карточке данных Hugging Face. | Ввод/вывод и определение задачи | 2022 | [341] | Ван и др. | ||
ЛАМБАДА | «LAMBADA — это коллекция повествовательных отрывков, имеющих общую характеристику: испытуемые способны угадать их последнее слово, если им показывают весь отрывок, но не если они видят только последнее предложение, предшествующее целевому слову». [342] | Информация о формате этого набора данных доступна на карточке набора данных HuggingFace и на веб-сайте проекта. Набор данных можно загрузить здесь, а отклоненные данные — здесь. | 2016 | [343] | Паперно и др. | |||
ФЛАН | Повторно обработанная версия набора данных FLAN с обновлениями с момента выпуска исходного набора данных FLAN доступна в Hugging Face:
Скрипты для обработки данных доступны в репозитории GitHub, упомянутом в статье: https://github.com/google-research/FLAN/tree/main/flan. Также был создан еще один репозиторий FLAN GitHub. Он связан с карточкой набора данных в Hugging Face. | 2021 | [344] | Вэй и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
АТАКА МИТРЫ | ATT&CK — это доступная по всему миру база знаний о тактиках и методах противника. | Данные можно загрузить из этих двух репозиториев GitHub: версии 2.1 и версии 2.0. | [345] | АТАКА МИТРЫ | ||||
КАТЭК | Перечень и классификация распространенных схем атак | Данные можно загрузить с сайта CAPEC: Механизмы атаки Домены атаки | [346] | КАТЭК | ||||
CVE | CVE — это список публично раскрытых уязвимостей кибербезопасности, который можно свободно искать, использовать и включать в продукты и услуги. | Данные можно загрузить с: Allitems | [347] | CVE | ||||
КВЕ | Данные по перечню распространенных недостатков. | Данные можно загрузить с: Разработка программного обеспечения Проектирование оборудования [ постоянная мертвая ссылка ] Концепции исследований | [348] | КВЕ | ||||
MalwareTextDB | Аннотированная база данных текстов вредоносных программ. | Репозиторий проекта GitHub содержит данные для загрузки. | [349] | Киат и др. | ||||
Труды симпозиума по безопасности USENIX | Сборник материалов по безопасности симпозиума по безопасности USENIX – технические сессии с 1995 по 2022 год. | Эти данные не подвергаются предварительной обработке. | 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022. | [350] | Симпозиум по безопасности USENIX | |||
APTNotes | Сборник публичных документов, технических документов и статей о кампаниях APT. Все документы являются общедоступными данными. | Эти данные не подвергаются предварительной обработке. | Репозиторий проекта на GitHub содержит файл со ссылками на данные, хранящиеся в box. Файлы данных также можно загрузить здесь. | [351] | Заметки APT | |||
arXiv Криптография и документы по безопасности | Сборник статей о кибербезопасности | Эти данные не подвергаются предварительной обработке. | Все статьи доступны здесь. | [352] | arXiv | |||
Электронные книги по безопасности бесплатно | Небольшая коллекция электронных книг по безопасности и презентаций по безопасности, находящихся в открытом доступе. | Эти данные не подвергаются предварительной обработке. | [353] [354] [355 ] [356] [357] [358] [359] [360] [ 361] [ 362] [363] [364] | |||||
Репозиторий национальной стратегии кибербезопасности | Репозиторий всемирных стратегических документов по кибербезопасности. | Эти данные не подвергаются предварительной обработке. | [365] | |||||
Кибербезопасность Обработка естественного языка | Данные о стратегиях кибербезопасности из более чем 75 стран. | Токенизация, удаление бессмысленных часто встречающихся слов. | [366] | Яньлинь Чен, Юньцзянь Вэй, Ифань Юй, Вэнь Сюэ, Сянья Цинь | ||||
Сбор отчетов APT | Примеры отчетов об APT, вредоносном ПО, технологиях и сборе разведывательной информации | Доступны необработанные и токенизированные данные. | Все данные доступны в этом репозитории GitHub. | [ необходима ссылка ] | blackorbird | |||
Набор данных идентификации оскорбительной лексики (OLID) | Данные доступны на сайте проекта. Данные также доступны здесь. | [367] | Зампьери и др. | |||||
Киберотчеты от Национального центра кибербезопасности | Эти данные не подвергаются предварительной обработке. | Отчеты об угрозах, отчеты и рекомендации, новости, записи в блогах, выступления. Альтернативный список отчетов. | [368] | |||||
Отчеты APT от Касперского | Эти данные не подвергаются предварительной обработке. | [369] | ||||||
Киберпровод | Эти данные не подвергаются предварительной обработке. | Информационные бюллетени, подкасты и истории. | [370] | |||||
Новости о утечках данных | Эти данные не подвергаются предварительной обработке. | Новости, список новостей с августа 2022 г. по февраль 2023 г. | [371] | |||||
Киберновости | Эти данные не подвергаются предварительной обработке. | Новости, кураторский список новостей | [372] | |||||
Писккомпьютер | Эти данные не подвергаются предварительной обработке. | Новости | [373] | |||||
Запись | Эти данные не подвергаются предварительной обработке. | Новости киберпреступности | [374] | |||||
Хакрид | Эти данные не подвергаются предварительной обработке. | Новости о взломе | [375] | |||||
Securelist | Эти данные не подвергаются предварительной обработке. | Отчеты об APT, архив, отчеты о DDOS-атаках, инциденты, бюллетень по безопасности «Лаборатории Касперского», промышленные угрозы, отчеты о вредоносном ПО, мнения, публикации, исследования и SAS. | [376] | |||||
Проект лепнины | Проект Stucco собирает данные, которые обычно не интегрируются в системы безопасности. | Эти данные не подвергаются предварительной обработке. | Сайт проекта с данными информацииПроверенный источник со ссылками на источники данных | [377] | ||||
Farsightsecurity | Веб-сайт с технической информацией, отчетами и другой информацией по вопросам безопасности. | Эти данные не подвергаются предварительной обработке. | Техническая информация, исследования, отчеты. | [378] | ||||
Шнайер | Сайт с научными статьями по вопросам безопасности. | Эти данные не подвергаются предварительной обработке. | Статьи по категориям, архив статей по дате. | [379] | ||||
Трендмикро | Веб-сайт с исследованиями, новостями и точками зрения по вопросам безопасности. | Эти данные не подвергаются предварительной обработке. | Проверенные списки исследований, новостей и перспектив Trendmicro. | [380] | ||||
Хакерские новости | Новости по темам кибербезопасности. | Эти данные не подвергаются предварительной обработке. | новости об утечках данных, кибератаках, уязвимостях, вредоносном ПО. | [381] | ||||
Krebsonsecurity | Новости безопасности и расследования | Эти данные не подвергаются предварительной обработке. | кураторский список новостей | [382] | ||||
Митра Defend | Матрица артефактов Защиты | json-файлы | [383] | |||||
Митра Атлас | Mitre Atlas — это база знаний о тактиках, методах и примерах действий противников для систем машинного обучения (МО), основанная на реальных наблюдениях. | Эти данные не подвергаются предварительной обработке. | [384] | |||||
Митра Engage | MITRE Engage — это платформа для планирования и обсуждения операций по противодействию противникам, которая позволяет вам взаимодействовать с противниками и достигать целей в области кибербезопасности. | Эти данные не подвергаются предварительной обработке. | [385] | |||||
Учебники по взлому | Эти данные не подвергаются предварительной обработке. | [386] |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Отчеты TCFD | База данных отчетов компаний, включающих раскрытие информации, связанной с TCFD. | Эти данные не подвергаются предварительной обработке. | Прямая ссылка на отчетыСписок тщательно отобранных отчетов | [387] | Центр знаний TCFD | |||
Отчеты о корпоративной социальной ответственности | Список отчетов об ответственности в Интернете. | Эти данные не подвергаются предварительной обработке. | Подборка отчетов | [388] | ОтветственностьОтчеты | |||
Межправительственная группа экспертов по изменению климата (МГЭИК) | Сборник комплексных оценочных отчетов о знаниях об изменении климата, его причинах, потенциальных последствиях и вариантах реагирования. | Эти данные не подвергаются предварительной обработке. | ОтчетыСписок отчетов, отобранных специально для вас | [389] | МГЭИК | |||
Альянс по исследованиям в области корпоративной устойчивости | Эти данные не подвергаются предварительной обработке. | Кураторский список постов блога | [390] | АРКС | ||||
ESG corpus: Центр знаний по учету устойчивого развития | Эти данные не подвергаются предварительной обработке. | Руководства, тематические исследования, блоги, отчеты и опросы. | [391] | Мехра и др. | ||||
КЛИМАТИЧЕСКАЯ ЛИХОРАДКА | Набор данных, созданный на основе методологии FEVER и состоящий из 1535 реальных заявлений об изменении климата, собранных в Интернете. | Каждое утверждение сопровождается пятью вручную аннотированными предложениями-доказательствами, извлеченными из английской Википедии, которые подтверждают, опровергают или не дают достаточной информации для подтверждения утверждения, что в общей сложности составляет 7675 пар утверждение-доказательство. [392] | Карточка HF набора данных и репозиторий проекта на GitHub. | [393] | Диггельманн и др. | |||
Набор данных новостей о климате | Набор данных для исследователей НЛП и климатических изменений в СМИ | Набор данных состоит из ряда артефактов данных (текстовые файлы JSON, JSONL и CSV, а также база данных SQLite). | База данных новостей о климате, репозиторий проекта на GitHub | [394] | ADGэффективность | |||
Климаттекст | Climatext — это набор данных для обнаружения тем изменения климата на основе предложений. | набор данных HF | [395] | Университет Цюриха | ||||
GreenBiz | Сборник статей и новостей о климате и устойчивом развитии | Эти данные не подвергаются предварительной обработке. | Подборка статей о климатеПодборка статей об устойчивом развитии | [396] | ||||
Лучшие исследовательские препринты в области климата и устойчивого развития | Список препринтов исследователей из горячего списка Reuters | Эти данные не подвергаются предварительной обработке. | Тщательно подобранный список препринтов | [397] | Морис Тамман | |||
АРКС | Эти данные не подвергаются предварительной обработке. | Подборка блогов по корпоративному устойчивому развитию | [398] | |||||
GreenBiz | Сайт со статьями о климате и устойчивом развитии | Эти данные не подвергаются предварительной обработке. | [399] | GreenBiz | ||||
CSRWIRE | Эти данные не подвергаются предварительной обработке. | Кураторский список статей | [400] | CSRWIRE | ||||
КДП | Статьи о климате, воде и лесах | Эти данные не подвергаются предварительной обработке. | [401] | КДП |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Стек | Набор данных объемом 3,1 ТБ, состоящий из разрешенного исходного кода на 30 языках программирования. | Фильтрация посредством обнаружения лицензий и дедупликации. | 6 ТБ, 51,76 Б файлов (до дедупликации); 3 ТБ, 5,28 Б файлов (после). 358 языков программирования. | Паркет | Моделирование языка, автодополнение, синтез программ. | 2022 | [402] [403] | Д. Кочетков, Р. Ли, Л. Бен Аллаль, Л. фон Верра, Х. де Врис |
Репозитории GitHub | Эти данные не подвергаются предварительной обработке. | Курируемый список репозиториев с GitHub : 61 62 63 64 65 66 67 68 69 70 71, 72, 73, 74, 75, 76, 77 101 | ||||||
Публичные репозитории IBM GitHub | Эти данные не подвергаются предварительной обработке. | Курируемый список репозиториев из GitHub | ||||||
Публичные репозитории RedHat GitHub | Эти данные не подвергаются предварительной обработке. | Курируемый список репозиториев из GitHub | ||||||
Файлы StackExchange Public Archive.org | Эти данные не подвергаются предварительной обработке. | Подготовленный список файлов с Archive.org | ||||||
Публичные репозитории Gitlab | Эти данные не подвергаются предварительной обработке. | Список репозиториев, отобранных Gitlab : 1 2 | ||||||
Публичные репозитории коллекций Ansible | Эти данные не подвергаются предварительной обработке. | Подготовленный список репозиториев с GitHub . | ||||||
CodeParrot GitHub набор данных кода | Эти данные не подвергаются предварительной обработке. | Список репозиториев от Hugging Face : 1 2 3 4 5 6 7 8 9 10 | ||||||
ОКД | Сообщество дистрибутивов Kubernetes, на котором работает Red Hat OpenShift | Эти данные не подвергаются предварительной обработке. | Список GitHub-репозиториев проекта | |||||
OpenShift | Удобный для разработчиков и эксплуатации дистрибутив Kubernetes | Список GitHub-репозиториев проекта | ||||||
Кубернетес | Эти данные не подвергаются предварительной обработке. | Список GitHub-репозиториев проекта | ||||||
Разработчик Red Hat | GitHub — дом программы Red Hat Developer | Эти данные не подвергаются предварительной обработке. | Список GitHub-репозиториев проекта | |||||
Красная Шапочка Мастер-классы | Эти данные не подвергаются предварительной обработке. | Список GitHub-репозиториев проекта | ||||||
Kubernetes SIG | Эти данные не подвергаются предварительной обработке. | Список GitHub-репозиториев проекта | ||||||
Конвейер | Эти данные не подвергаются предварительной обработке. | Список GitHub-репозиториев проекта | ||||||
Торговая площадка RedHat | Эти данные не подвергаются предварительной обработке. | Список GitHub-репозиториев проекта | ||||||
Блог RedHat | Эти данные не подвергаются предварительной обработке. | [404] | ||||||
Kubernetes io | Эти данные не подвергаются предварительной обработке. | [405] | ||||||
Документы Openshift | Эти данные не подвергаются предварительной обработке. | [406] | ||||||
cncf io | Эти данные не подвергаются предварительной обработке. | [407] | ||||||
Презентации Kubernetes | Список общедоступных презентаций Kubernetes | Эти данные не подвергаются предварительной обработке. | канал передачи данных | |||||
Red Hat Open Innovation Labs | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Red Hat Demos | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Red Hat OpenShift Online | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Software Collections | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Red Hat Insights | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Red Hat Government | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Red Hat Consulting | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Red Hat Communities of Practice | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Red Hat Partner Tech | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Red Hat Documentation | This data is not pre-processed | List of GitHub repositories of the project | ||||||
IBM | This data is not pre-processed | List of GitHub repositories of the project | ||||||
IBM Cloud | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Build Lab Team | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Terraform IBM Modules | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Cloud Schematics | This data is not pre-processed | List of GitHub repositories of the project | ||||||
OCP Power Demos | This data is not pre-processed | List of GitHub repositories of the project | ||||||
IBM App Modernization | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Kubernetes OperatorHub | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Cloud Native Computing Foundation (CNCF) | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Operator Framework | This data is not pre-processed | List of GitHub repositories of the project | [408] | |||||
GitHub repositories referenced in artifacthub.io | This data is not pre-processed | List of GitHub repositories in artifacthub.io | ||||||
Red Hat Communities of Practice | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Red Hat partner | This data is not pre-processed | List of GitHub repositories of the project | ||||||
IBM Repositories | This data is not pre-processed | List of GitHub repositories for the project | ||||||
Build Lab Team | This data is not pre-processed | List of GitHub repositories for the project | ||||||
Operator Framework | This data is not pre-processed | List of GitHub repositories for the project | ||||||
GitHub repositories | This data is not pre-processed | List of GitHub repositories for the project | ||||||
Red Hat | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Kubernetes Patterns | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Kubernetes Deployment & Security Patterns | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Kubernetes for Full-Stack Developers | This data is not pre-processed | List of GitHub repositories of the project | ||||||
Load Balancer Cloudwatch Metrics | This data is not pre-processed | GitHub repository of the project | ||||||
Dynatrace | This data is not pre-processed | [5] | ||||||
AIOps Challenge 2020 Data | This data is not pre-processed | GitHub repository of the project | ||||||
Loghub | This data is not pre-processed | List of repositories | ||||||
HTML Pages | This data is not pre-processed | List of HTML pages | ||||||
Opensift ebooks | This data is not pre-processed | [409] | ||||||
Kubernetes ebooks | This data is not pre-processed | Kubernetes Patterns, Kubernetes Deployment, Kubernetes for Full-Stack Developers | ||||||
Kubernetes for Full-Stack Developers | This data is not pre-processed | Kubernetes for Full-Stack Developers | ||||||
List of public and licensed Github repositories | This data is not pre-processed | List of repositories |
Dataset Name | Brief description | Preprocessing | Instances | Format | Default Task | Created (updated) | Reference | Creator |
---|---|---|---|---|---|---|---|---|
Dow Jones Index | Weekly data of stocks from the first and second quarters of 2011. | Calculated values included such as percentage change and a lags. | 750 | Comma separated values | Classification, regression, Time series | 2014 | [410][411] | M. Brown et al. |
Statlog (Australian Credit Approval) | Credit card applications either accepted or rejected and attributes about the application. | Attribute names are removed as well as identifying information. Factors have been relabeled. | 690 | Comma separated values | Classification | 1987 | [412][413] | R. Quinlan |
eBay auction data | Auction data from various eBay.com objects over various length auctions | Contains all bids, bidderID, bid times, and opening prices. | ~ 550 | Text | Regression, classification | 2012 | [414][415] | G. Shmueli et al. |
Statlog (German Credit Data) | Binary credit classification into "good" or "bad" with many features | Various financial features of each person are given. | 690 | Text | Classification | 1994 | [416] | H. Hofmann |
Bank Marketing Dataset | Data from a large marketing campaign carried out by a large bank . | Many attributes of the clients contacted are given. If the client subscribed to the bank is also given. | 45,211 | Text | Classification | 2012 | [417][418] | S. Moro et al. |
Istanbul Stock Exchange Dataset | Several stock indexes tracked for almost two years. | None. | 536 | Text | Classification, regression | 2013 | [419][420] | O. Akbilgic |
Default of Credit Card Clients | Credit default data for Taiwanese creditors. | Various features about each account are given. | 30,000 | Text | Classification | 2016 | [421][422] | I. Yeh |
StockNet | Stock movement prediction from tweets and historical stock prices | None | Text | NLP | 2018 | [423] | Yumo Xu and Shay B. Cohen |
Dataset Name | Brief description | Preprocessing | Instances | Format | Default Task | Created (updated) | Reference | Creator |
---|---|---|---|---|---|---|---|---|
Cloud DataSet | Data about 1024 different clouds. | Image features extracted. | 1024 | Text | Classification, clustering | 1989 | [424] | P. Collard |
El Nino Dataset | Oceanographic and surface meteorological readings taken from a series of buoys positioned throughout the equatorial Pacific. | 12 weather attributes are measured at each buoy. | 178080 | Text | Regression | 1999 | [425] | Pacific Marine Environmental Laboratory |
Greenhouse Gas Observing Network Dataset | Time-series of greenhouse gas concentrations at 2921 grid cells in California created using simulations of the weather. | None. | 2921 | Text | Regression | 2015 | [426] | D. Lucas |
Atmospheric CO2 from Continuous Air Samples at Mauna Loa Observatory | Continuous air samples in Hawaii, USA. 44 years of records. | None. | 44 years | Text | Regression | 2001 | [427] | Mauna Loa Observatory |
Ionosphere Dataset | Radar data from the ionosphere. Task is to classify into good and bad radar returns. | Many radar features given. | 351 | Text | Classification | 1989 | [283][428] | Johns Hopkins University |
Ozone Level Detection Dataset | Two ground ozone level datasets. | Many features given, including weather conditions at time of measurement. | 2536 | Text | Classification | 2008 | [429][430] | K. Zhang et al. |
Dataset Name | Brief description | Preprocessing | Instances | Format | Default Task | Created (updated) | Reference | Creator |
---|---|---|---|---|---|---|---|---|
Adult Dataset | Census data from 1994 containing demographic features of adults and their income. | Cleaned and anonymized. | 48,842 | Comma separated values | Classification | 1996 | [431] | United States Census Bureau |
Census-Income (KDD) | Weighted census data from the 1994 and 1995 Current Population Surveys. | Split into training and test sets. | 299,285 | Comma separated values | Classification | 2000 | [432][433] | United States Census Bureau |
IPUMS Census Database | Census data from the Los Angeles and Long Beach areas. | None | 256,932 | Text | Classification, regression | 1999 | [434] | IPUMS |
US Census Data 1990 | Partial data from 1990 US census. | Results randomized and useful attributes selected. | 2,458,285 | Text | Classification, regression | 1990 | [435] | United States Census Bureau |
Dataset Name | Brief description | Preprocessing | Instances | Format | Default Task | Created (updated) | Reference | Creator |
---|---|---|---|---|---|---|---|---|
Bike Sharing Dataset | Hourly and daily count of rental bikes in a large city. | Many features, including weather, length of trip, etc., are given. | 17,389 | Text | Regression | 2013 | [436][437] | H. Fanaee-T |
New York City Taxi Trip Data | Trip data for yellow and green taxis in New York City. | Gives pick up and drop off locations, fares, and other details of trips. | 6 years | Text | Classification, clustering | 2015 | [438] | New York City Taxi and Limousine Commission |
Taxi Service Trajectory ECML PKDD | Trajectories of all taxis in a large city. | Many features given, including start and stop points. | 1,710,671 | Text | Clustering, causal-discovery | 2015 | [439][440] | M. Ferreira et al. |
METR-LA | Speed from loop detectors in the highway of Los Angeles County. | Average speed in 5 minutes timesteps. | 7,094,304 from 207 sensors and 34,272 timesteps | Comma separated values | Regression, Forecasting | 2014 | [441] | Jagadish et al. |
PeMS | Speed, flow, occupancy and other metrics from loop detectors and other sensors in the freeway of the State of California, U.S.A.. | Metric usually aggregated via Average into 5 minutes timesteps. | 39,000 individual detectors, each containing years of timeseries | Comma separated values | Regression, Forecasting, Nowcasting, Interpolation | (updated realtime) | [442] | California Department of Transportation |
Dataset Name | Brief description | Preprocessing | Instances | Format | Default Task | Created (updated) | Reference | Creator |
---|---|---|---|---|---|---|---|---|
Webpages from Common Crawl 2012 | Large collection of webpages and how they are connected via hyperlinks | None. | 3.5B | Text | clustering, classification | 2013 | [443] | V. Granville |
Internet Advertisements Dataset | Dataset for predicting if a given image is an advertisement or not. | Features encode geometry of ads and phrases occurring in the URL. | 3279 | Text | Classification | 1998 | [444][445] | N. Kushmerick |
Internet Usage Dataset | General demographics of internet users. | None. | 10,104 | Text | Classification, clustering | 1999 | [446] | D. Cook |
URL Dataset | 120 days of URL data from a large conference. | Many features of each URL are given. | 2,396,130 | Text | Classification | 2009 | [447][448] | J. Ma |
Phishing Websites Dataset | Dataset of phishing websites. | Many features of each site are given. | 2456 | Text | Classification | 2015 | [449] | R. Mustafa et al. |
Online Retail Dataset | Online transactions for a UK online retailer. | Details of each transaction given. | 541,909 | Text | Classification, clustering | 2015 | [450] | D. Chen |
Freebase Simple Topic Dump | Freebase is an online effort to structure all human knowledge. | Topics from Freebase have been extracted. | large | Text | Classification, clustering | 2011 | [451][452] | Freebase |
Farm Ads Dataset | The text of farm ads from websites. Binary approval or disapproval by content owners is given. | SVMlight sparse vectors of text words in ads calculated. | 4143 | Text | Classification | 2011 | [453][454] | C. Masterharm et al. |
The Pile | Assembling several large datasets of diverse and unstructured texts | Various (removing HTML and Javascript from websites, removing duplicated sentences) | 825 GiB English text | JSON Lines[455][456] | Natural Language Processing, Text Prediction | 2021 | [457][455] | Gao et al. |
OSCAR | Large collection of monolingual corpora extracted from web data (Common Crawl dumps) covering 150+ languages | Various (filtering, language classification, adult-content detection and other labelling) | 3.4 TB English text, 1.4 TB Chinese text, 1.1 TB Russian text, 595 MB German text, 431 MB French text, and data for 150+ languages (figures for version 23.01) | JSON Lines[458] | Natural Language Processing, Text Prediction | 2021 | [459][460] | Ortiz Suarez, Abadji, Sagot et al. |
OpenWebText | An open-source recreation of the WebText corpus. The text is web content extracted from URLs shared on Reddit with at least three upvotes. | Extracted non-HTML content, deduplicated, and tokenized. | 8,013,769 Documents, 38GB | Text | Natural Language Processing, Text Prediction | 2019 | [461][462] | A. Gokaslan, V. Cohen |
ROOTS | A well-documented and representative multilingual dataset with the explicit goal of doing good for and by the people whose data was collected. | Extracted non-HTML content, cleaned out UI and ads, deduplicated, removed PII, and tokenized. | 1.6 TB, 59 languages. | Parquet | Natural Language Processing, Text Prediction | 2022 | [463][464] | H. Laurençon, L. Saulnier, T. Wang, C. Akiki, A. Villanova del Moral, T. Le Scao |
Dataset Name | Brief description | Preprocessing | Instances | Format | Default Task | Created (updated) | Reference | Creator |
---|---|---|---|---|---|---|---|---|
Poker Hand Dataset | 5 card hands from a standard 52 card deck. | Attributes of each hand are given, including the Poker hands formed by the cards it contains. | 1,025,010 | Text | Regression, classification | 2007 | [465] | R. Cattral |
Connect-4 Dataset | Contains all legal 8-ply positions in the game of connect-4 in which neither player has won yet, and in which the next move is not forced. | None. | 67,557 | Text | Classification | 1995 | [466] | J. Tromp |
Chess (King-Rook vs. King) Dataset | Endgame Database for White King and Rook against Black King. | None. | 28,056 | Text | Classification | 1994 | [467][468] | M. Bain et al. |
Chess (King-Rook vs. King-Pawn) Dataset | King+Rook versus King+Pawn on a7. | None. | 3196 | Text | Classification | 1989 | [469] | R. Holte |
Tic-Tac-Toe Endgame Dataset | Binary classification for win conditions in tic-tac-toe. | None. | 958 | Text | Classification | 1991 | [470] | D. Aha |
Dataset Name | Brief description | Preprocessing | Instances | Format | Default Task | Created (updated) | Reference | Creator |
---|---|---|---|---|---|---|---|---|
Housing Data Set | Median home values of Boston with associated home and neighborhood attributes. | None. | 506 | Text | Regression | 1993 | [471] | D. Harrison et al. |
The Getty Vocabularies | structured terminology for art and other material culture, archival materials, visual surrogates, and bibliographic materials. | None. | large | Text | Classification | 2015 | [472] | Getty Center |
Yahoo! Front Page Today Module User Click Log | User click log for news articles displayed in the Featured Tab of the Today Module on Yahoo! Front Page. | Conjoint analysis with a bilinear model. | 45,811,883 user visits | Text | Regression, clustering | 2009 | [473][474] | Chu et al. |
British Oceanographic Data Centre | Biological, chemical, physical and geophysical data for oceans. 22K variables tracked. | Various. | 22K variables, many instances | Text | Regression, clustering | 2015 | [475] | British Oceanographic Data Centre |
Congressional Voting Records Dataset | Voting data for all USA representatives on 16 issues. | Beyond the raw voting data, various other features are provided. | 435 | Text | Classification | 1987 | [476] | J. Schlimmer |
Entree Chicago Recommendation Dataset | Record of user interactions with Entree Chicago recommendation system. | Details of each user's usage of the app are recorded in detail. | 50,672 | Text | Regression, recommendation | 2000 | [477] | R. Burke |
Insurance Company Benchmark (COIL 2000) | Information on customers of an insurance company. | Many features of each customer and the services they use. | 9,000 | Text | Regression, classification | 2000 | [478][479] | P. van der Putten |
Nursery Dataset | Data from applicants to nursery schools. | Data about applicant's family and various other factors included. | 12,960 | Text | Classification | 1997 | [480][481] | V. Rajkovic et al. |
University Dataset | Data describing attributed of a large number of universities. | None. | 285 | Text | Clustering, classification | 1988 | [482] | S. Sounders et al. |
Blood Transfusion Service Center Dataset | Data from blood transfusion service center. Gives data on donors return rate, frequency, etc. | None. | 748 | Text | Classification | 2008 | [483][484] | I. Yeh |
Record Linkage Comparison Patterns Dataset | Large dataset of records. Task is to link relevant records together. | Blocking procedure applied to select only certain record pairs. | 5,749,132 | Text | Classification | 2011 | [485][486] | University of Mainz |
Nomao Dataset | Nomao collects data about places from many different sources. Task is to detect items that describe the same place. | Duplicates labeled. | 34,465 | Text | Classification | 2012 | [487][488] | Nomao Labs |
Movie Dataset | Data for 10,000 movies. | Several features for each movie are given. | 10,000 | Text | Clustering, classification | 1999 | [489] | G. Wiederhold |
Open University Learning Analytics Dataset | Information about students and their interactions with a virtual learning environment. | None. | ~ 30,000 | Text | Classification, clustering, regression | 2015 | [490][491] | J. Kuzilek et al. |
Mobile phone records | Telecommunications activity and interactions | Aggregation per geographical grid cells and every 15 minutes. | large | Text | Classification, Clustering, Regression | 2015 | [492] | G. Barlacchi et al. |
As datasets come in myriad formats and can sometimes be difficult to use, there has been considerable work put into curating and standardizing the format of datasets to make them easier to use for machine learning research.
{{cite arXiv}}
: CS1 maint: multiple names: authors list (link){{cite arXiv}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: Cite journal requires |journal=
(help){{cite web}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: DOI inactive as of November 2024 (link){{cite journal}}
: Cite journal requires |journal=
(help)