Список наборов данных для исследований в области машинного обучения

Эти наборы данных используются в исследованиях машинного обучения (ML) и цитируются в рецензируемых научных журналах . Наборы данных являются неотъемлемой частью области машинного обучения. Основные достижения в этой области могут быть результатом достижений в алгоритмах обучения (таких как глубокое обучение ), компьютерного оборудования и, что менее интуитивно, доступности высококачественных обучающих наборов данных. [1] Высококачественные маркированные обучающие наборы данных для контролируемых и полуконтролируемых алгоритмов машинного обучения обычно сложны и дороги в производстве из-за большого количества времени, необходимого для маркировки данных. Хотя их не нужно маркировать, высококачественные наборы данных для неконтролируемого обучения также могут быть сложны и дороги в производстве. [2] [3] [4]

Многие организации, включая правительства, публикуют и делятся своими наборами данных . Наборы данных классифицируются на основе лицензий как открытые данные и неоткрытые данные .

Наборы данных из различных правительственных органов представлены в Списке сайтов открытых правительственных данных . Наборы данных портируются на порталы открытых данных . Они доступны для поиска, размещения и доступа через интерфейсы, такие как Open API . Наборы данных доступны в виде различных отсортированных типов и подтипов.

Список сортировок, используемых для наборов данных

ТипПодтипы
Конкретная категорияФинансы , Экономика , Коммерция , Общество , Здравоохранение , Академия , Спорт , Еда , Сельское хозяйство , Путешествия , Геопространственные данные , Политические , Потребитель , Транспорт , Логистика , Окружающая среда , Недвижимость , Юридические вопросы , Развлечения , Энергетика , Гостиничный бизнес
ОбъемНаднациональный союз , Национальный , Субнациональный , Муниципальный , Городской , Сельский
ЯзыкКитайский , испанский , английский , арабский , хинди , бенгальский
ТипТабличный , Графический , Текстовый , Изображение , Звук , Видео
ИспользованиеОбучение, проверка и тестирование
Форматы файловCSV , JSON , XML , KML , GeoJSON , Шейп-файл , GML
ЛицензииCreative-Commons , GPL , другие лицензии, не относящиеся к открытым данным
Последнее обновлениеПоследний час, Последний день, Последняя неделя, Последний месяц, Последний год
Размер файлаМинимум, Максимум, Диапазон
СтатусПроверено, в стадии подготовки, деактивировано (или устарело)
Количество записей100, 1000, 10000, 100000, Миллионы
Количество переменныхМенее 10, 10, 100, 1000, 10000
УслугиИндивидуальный, Агрегация

Портал данных классифицируется на основе типа лицензии. Порталы данных с открытым исходным кодом известны как порталы открытых данных , которые используются многими государственными организациями и академическими учреждениями .

Список порталов открытых данных

Имя-порталаЛицензияСписок установок порталаТипичные случаи использования
Сеть архивов комплексных знаний ( CKAN )АГПЛhttps://ckan.github.io/ckan-instances/

https://github.com/sebneu/ckan_instances/blob/master/instances.csv

Репозиторий данных для государственных или некоммерческих организаций, решение по управлению данными для научно-исследовательских институтов
ДКАНGPLhttps://getdkan.org/communityРепозиторий данных для государственных или некоммерческих организаций, решение по управлению данными для научно-исследовательских институтов
Вселенная данныхАпачиhttps://dataverse.org/installations

https://dataverse.org/metrics

Решение по управлению данными для научно-исследовательских институтов
DSpaceБСДhttps://registry.lyrasis.org/Решение по управлению данными для научно-исследовательских институтов
OpenMLБСДhttps://www.openml.org/search?type=data&sort=runs&status=activeРешение по управлению данными для обмена наборами данных, алгоритмами и результатами экспериментов через API.

Список порталов, подходящих для различных типов приложений

Портал данных иногда содержит широкий спектр подтипов наборов данных, относящихся ко многим приложениям машинного обучения .

Академические торрентыhttps://academictorrents.com
Наборы данных Amazonhttps://registry.opendata.aws/
Потрясающая коллекция публичных наборов данныхhttps://github.com/awesomedata/awesome-public-datasets
данные.мирhttps://data.world/datasets/машинное обучение
Datahub – основные наборы данныхhttps://datahub.io/docs/core-data
DataONEhttps://www.dataone.org/
Порталы данныхhttps://dataportals.org/
Datasetlist.comhttps://www.datasetlist.com
Глобальный индекс открытых данных – Open Knowledge Foundationhttps://okfn.org/ Архивировано 25 мая 2020 г. на Wayback Machine
Поиск по наборам данных Googlehttps://datasetsearch.research.google.com/
Обнимающее лицоhttps://huggingface.co/docs/datasets/
Обмен данными IBMhttps://developer.ibm.com/exchanges/data/
Jupyter – Учебные данныеhttps://jupyter-tutorial.readthedocs.io/en/latest/data-processing/opendata.html
Кагглhttps://www.kaggle.com/datasets
Наборы данных машинного обученияhttps://macgence.com/data-sets-and-cataloges/
Крупнейшие умные города с открытыми даннымиhttps://rlist.io/l/major-smart-cities-with-open-data-portals
Наборы данных Microsofthttps://msropendata.com/datasets
Открытые данные Введениеhttps://opendatainception.io/
Opendatasofthttps://data.opendatasoft.com/explore/dataset/open-data-sources%40public/table/?sort=code_en
OpenDOARhttps://v2.sherpa.ac.uk/opendoar/
OpenMLhttps://www.openml.org/search?type=data
Документы с кодомhttps://paperswithcode.com/datasets
Тесты машинного обучения в Пенсильванииhttps://github.com/EpistasisLab/pmlb/tree/master/datasets
Публичные APIhttps://github.com/public-apis/public-apis
Реестр репозиториев открытого доступаhttp://roar.eprints.org/ 
Реестр хранилищ исследовательских данныхhttps://www.re3data.org/ 
Репозиторий машинного обучения UCIhttp://mlr.cs.umass.edu/ml/ Архивировано 26 июня 2020 г. на Wayback Machine
Речевой набор данныхhttps://www.shaip.com/offerings/speech-data-catalog/
Визуальное обнаружение данныхhttps://visualdata.io/discovery

Список порталов, подходящих для определенного подтипа приложений

Порталы данных, подходящие для определенного подтипа приложений машинного обучения, перечислены в последующих разделах.

Данные изображения

Текстовые данные

Эти наборы данных в основном состоят из текста для таких задач, как обработка естественного языка , анализ настроений , перевод и кластерный анализ .

Обзоры

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Премия NetflixРейтинги фильмов на Netflix.100 480 507 оценок, которые дали 480 189 пользователей 17 770 фильмамТекст, рейтингПрогноз рейтинга2006[5]Нетфликс
Обзоры АмазонОбзоры товаров из США на Amazon.com .Никто.233,1 миллионаТекстКлассификация, анализ настроений2015 (2018)[6] [7]Маколи и др.
Обзор набора данных OpinRankОбзоры автомобилей и отелей с Edmunds.com и TripAdvisor соответственно.Никто.42 230 / ~259 000 соответственноТекстАнализ настроений, кластеризация2011[8] [9]К. Ганесан и др.
MovieLens22 000 000 оценок и 580 000 тегов, присвоенных 33 000 фильмам 240 000 пользователями.Никто.~ 22 млн.ТекстРегрессия, кластеризация, классификация2016[10]GroupLens Исследования
Рейтинги музыкальных исполнителей на Yahoo! MusicБолее 10 млн оценок исполнителей от пользователей Yahoo.Ничего не описано.~ 10 млн.ТекстКластеризация, регрессия2004[11] [12]Йаху!
Набор данных для оценки автомобиляСвойства автомобиля и их общая приемлемость.Даны шесть категориальных признаков.1728ТекстКлассификация1997[13] [14]М. Боханец
Набор данных о предпочтениях в YouTube Comedy SlamДанные о голосовании пользователей по парам видео, показанных на YouTube. Пользователи голосовали за более смешные видео.Приведены метаданные видео.1,138,562ТекстКлассификация2012[15] [16]Google
Набор данных отзывов пользователей SkytraxОтзывы пользователей об авиакомпаниях, аэропортах, местах и ​​залах ожидания от Skytrax.Рейтинги являются подробными и включают в себя многие аспекты опыта пребывания в аэропорту.41396ТекстКлассификация, регрессия2015[17]К. Нгуен
Набор данных для оценки помощника преподавателяОтзывы помощников преподавателей.Приведены характеристики каждого экземпляра, такие как класс, размер класса и преподаватель.151ТекстКлассификация1997[18] [19]В. Ло и др.
Корпус отзывов вьетнамских студентов (UIT-VSFC)Отзывы студентов.Комментарии16,000ТекстКлассификация1997[20]Нгуен и др.
Корпус эмоций вьетнамских социальных сетей (UIT-VSMEC)Комментарии пользователей Facebook.Комментарии6,927ТекстКлассификация1997[21]Нгуен и др.
Набор данных для обнаружения жалоб в открытом доступе во Вьетнаме (ViOCD)Отзывы клиентов о продукцииКомментарии5,485ТекстКлассификация2021[22]Нгуен и др.
ViHOS: обнаружение проявлений ненависти для вьетнамцевТексты социальных сетейКомментарииСодержит 26 тыс. разделов и 11 тыс. комментариевТекстОбнаружение диапазона2021[23]Хоанг и др.

Новостные статьи

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных NYSKАнглийские новостные статьи о деле, связанном с обвинениями в сексуальном насилии против бывшего директора МВФ Доминика Стросс-Кана .Отфильтровано и представлено в формате XML.10,421XML, текстАнализ настроений, извлечение тем2013[24]Дермуш, М. и др.
Корпус Рейтер, том 1Большой корпус новостей Reuters на английском языке.Детальная категоризация и коды тем.810,000ТекстКлассификация, кластеризация, обобщение2002[25]Рейтер
Корпус Рейтер, том 2Большой корпус новостей Reuters на нескольких языках.Детальная категоризация и коды тем.487,000ТекстКлассификация, кластеризация, обобщение2005[26]Рейтер
Коллекция текстовых исследований Thomson ReutersБольшой массив новостных сообщений.Подробности не описаны.1,800,370ТекстКлассификация, кластеризация, обобщение2009[27]Т. Роуз и др.
Корпус газет Саудовской Аравии31 030 статей в арабских газетах.Метаданные извлечены.31,030JSONОбобщение, кластеризация2015[28]М. Альхагри
RE3D (Набор данных для оценки извлечения связей и сущностей)Данные с маркировкой Entity and Relation из различных новостных и правительственных источников. Спонсируется DstlФильтрация, категоризация с использованием типов Baleenне известноJSONКлассификация, распознавание сущностей и отношений2017[29]Дстл
Каталог кликбейтов спама ExaminerКликбейт, спам, краудсорсинговые заголовки с 2010 по 2015 гг.Дата публикации и заголовки3,089,781CSVКластеризация, События, Настроения2016[30]Р. Кулкарни
Корпус новостей ABC AustraliaВесь новостной корпус ABC Australia с 2003 по 2019 годДата публикации и заголовки1,186,018CSVКластеризация, События, Настроения2020[31]Р. Кулкарни
Новости со всего мира – совокупность 20 тыс. каналовОбзор всех заголовков новостей в Интернете за неделю на более чем 20 языкахВремя публикации, URL и заголовки1,398,431CSVКластеризация, События, Определение языка2018[32]Р. Кулкарни
Заголовок новостей Reuters11 лет событий с временными метками, опубликованных в новостной лентеВремя публикации, Текст заголовка16,121,310CSVНЛП, Компьютерная лингвистика, События2018[33]Р. Кулкарни
The Irish Times Ирландия Новости Корпус24 года новостей Ирландии с 1996 по 2019 годВремя публикации, категория заголовка и текст1,484,340CSVНЛП, Компьютерная лингвистика, События2020[34]Р. Кулкарни
Набор данных заголовков новостей для обнаружения сарказмаВысококачественный набор данных с саркастическими и несаркастическими заголовками новостей.Чистый, нормализованный текст26,709JSONНЛП, Классификация, Лингвистика2018[35]Ришабх Мисра

Сообщения

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Корпус ЭнронаЭлектронные письма от сотрудников Enron, организованные по папкам.Вложения удалены, недействительные адреса электронной почты преобразованы в user@enron.com или no_address@enron.com.~ 500 000ТекстСетевой анализ , анализ настроений2004 (2015)[36] [37]Климт, Б. и И. Ян
Набор данных Ling-SpamКорпус, содержащий как легитимные, так и спам -сообщения.Четыре версии корпуса, в которых учитывается, был ли включен лемматизатор или стоп-лист.2,412 Хам 481 СпамТекстКлассификация2000[38] [39]Андроутсопулос, Дж. и др.
Набор данных по сбору SMS-спамаСбор спам-сообщений SMS.Никто.5,574ТекстКлассификация2011[40] [41]Т. Алмейда и др.
Набор данных двадцати новостных группСообщения из 20 различных групп новостей.Никто.20,000ТекстОбработка естественного языка1999[42]Т. Митчелл и др.
Набор данных SpambaseСпам-письма.Извлечено множество текстовых функций.4,601ТекстОбнаружение спама, классификация1999[43]М. Хопкинс и др.

Twitter и твиты

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
MovieTweetingsНабор данных о рейтингах фильмов, основанный на публичных и хорошо структурированных твитах~710,000ТекстКлассификация, регрессия2018[44]С. Думс
Twitter100kПары изображений и твитов100,000Текст и изображенияКросс-медийный поиск2017[45] [46]Й. Ху и др.
Настроение140Данные о твитах за 2009 год, включая оригинальный текст, временную метку, пользователя и тональность.Классифицировано с использованием дистанционного наблюдения по наличию смайлика в твите.1,578,627Твиты, запятая, разделенные значенияАнализ настроений2009[47] [48]А. Го и др.
Набор данных Twitter ASUДанные сети Twitter, а не сами твиты. Показывает связи между большим количеством пользователей.Никто.11,316,811 пользователей, 85,331,846 подключенийТекстКластеризация, анализ графов2009[49] [50]Р. Зафарани и др.
Социальные круги SNAP: база данных TwitterБольшие данные сети Twitter.Узловые характеристики, круги и сети эго.1,768,149ТекстКластеризация, анализ графов2012[51] [52]Дж. Маколи и др.
Набор данных Twitter для анализа настроений на арабском языкеАрабские твиты.Образцы маркируются вручную как положительные или отрицательные.2000ТекстКлассификация2014[53] [54]Н. Абдулла
Набор данных Buzz в социальных сетяхДанные из Twitter и Tom's Hardware. Этот набор данных фокусируется на конкретных темах, обсуждаемых на этих сайтах.Данные представлены в виде окон, что позволяет пользователю попытаться предсказать события, которые приведут к шумихе в социальных сетях.140,000ТекстРегрессия, Классификация2013[55] [56]Ф. Кавала и др.
Парафраз и семантическое сходство в Twitter (PIT)Этот набор данных фокусируется на том, имеют ли твиты (почти) одинаковое значение/информацию или нет. Размечено вручную.токенизация, части речи и маркировка именованных сущностей18,762ТекстРегрессия, Классификация2015[57] [58]Сюй и др.
Набор данных для сравнительного анализа Geoparse TwitterЭтот набор данных содержит твиты во время различных новостных событий в разных странах. Упоминания местоположения, помеченные вручную.Аннотации местоположения добавлены в метаданные JSON6,386Твиты, JSONКлассификация, Извлечение информации2014[59] [60]С. Э. Миддлтон и др.
Сарказм, воспринятый и намеренный, по реактивному надзору (SPIRS)Намеренные и воспринимаемые саркастические твиты вместе с их контекстом, собранные с помощью реактивного надзора; равное количество отрицательных (несаркастических) образцов30,000Идентификаторы твитов, CSVКлассификация2020[61] [62]Б. Шмуэли и др.
Сборник голландских социальных сетейЭтот набор данных содержит твиты COVID-19, сделанные носителями голландского языка или пользователями из Нидерландов. Данные были помечены машинойклассифицировано по настроению, текст твита и описание пользователя переведены на английский язык. Упоминания в отрасли извлечены271,342JSONLНастроение, многоуровневая классификация, машинный перевод2020[63] [64] [65]Аакш Гупта, CoronaWhy
Набор данных ReactionGIFНабор данных из 30 тыс. твитов и их GIF-реакцийКлассифицировано по настроению, реакции и эмоциям30,000Идентификаторы твитов, JSONLКлассифицировано по настроению, реакции и эмоциям2021[66] [67]Б. Шмуэли и др.

Диалоги

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Корпус чата NPSСообщения из онлайн-чатов, посвященных возрасту.Конфиденциальность рук замаскирована, помечена для части речи и диалога-акта.~ 500 000XMLНЛП, программирование, лингвистика2007[68]Форсайт, Э., Лин, Дж. и Мартелл, К.
Тройной корпус TwitterТройки ABA, извлеченные из Twitter.4,232ТекстНЛП2016[69]Сордини, А. и др.
Корпус UseNetСообщения на форуме UseNet.Анонимные электронные письма и URL-адреса. Пропущенные документы длиной <500 слов или >500 000 слов, или которые были <90% на английском языке.7 миллиардовТекст2011[70]Шауль, К. и Уэстбери К.
Корпус СМС NUSСбор SMS-сообщений между двумя пользователями с временным анализом.~ 10 000XMLНЛП2011[71]КАН, М
Reddit Все комментарии КорпусВсе комментарии Reddit (по состоянию на 2015 год).~ 1,7 миллиардаJSONНЛП, исследование2015[72]Застрял_в_Матрице
Корпус диалогов UbuntuДиалоги, извлеченные из чата Ubuntu на IRC.930 тыс. диалогов, 7,1 млн. высказыванийCSVИсследования диалоговых систем2015[73]Лоу, Р. и др.
Задача отслеживания состояния диалогаЗадачи отслеживания состояния диалога 2 и 3 (DSTC2&3) представляли собой исследовательские задачи, направленные на улучшение современного уровня отслеживания состояния систем речевого диалога.Транскрипция разговорных диалогов с маркировкойDSTC2 содержит ~3,2 тыс. вызовов – DSTC3 содержит ~2,3 тыс. вызововJsonОтслеживание состояния диалога2014[74]Хендерсон, Мэтью и Томсон, Блейз и Уильямс, Джейсон Д.
Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
FreeLawОтфильтрованные данные из Court Listener, части проекта FreeLaw.Очищенный и нормализованный текст4,940,710JsonНЛП, лингвистика2020[75]Т. Хоппе
Куча ЗаконаКорпус юридических и административных данныхОчищено, нормализовано и приватизировано~50,000,000JsonНЛП, лингвистика, сентимент2022[76] [77]Л. Чжэн; Н. Гуха; Б. Андерсон; П. Хендерсон; Д. Хо
Проект доступа к судебной практикеВсе официальные, опубликованные в виде книг судебные решения штатов и федеральных судов США — каждый том или дело, обозначенное как официальный отчет о решениях суда в Соединенных Штатах.Очищенный и нормализованный текст~10,000JsonНЛП, лингвистика2022[78]А. Айзман; С. Чепмен; Дж. Кушман; К. Дулин; Х. Эйдолон; и др.

Другой текст

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных Web of ScienceИерархические наборы данных для классификации текстаНикто.46,985ТекстКлассификация,

Категоризация

2017[79] [80]К. Коусари и др.
Отчеты о судебных делахДела Федерального суда Австралии с 2006 по 2009 год.Никто.4000ТекстПодведение итогов,

анализ цитирования

2012[81] [82]Ф. Галгани и др.
Корпус авторства блоггеровЗаписи в блогах 19 320 человек с blogger.com.Блогер самостоятельно указал пол, возраст, отрасль и знак зодиака.681,288ТекстАнализ настроений, обобщение, классификация2006[83] [84]Дж. Шлер и др.
Социальная структура сетей FacebookБольшой набор данных социальной структуры Facebook.Никто.100 охваченных колледжейТекстСетевой анализ, кластеризация2012[85] [86]А. Трауд и др.
Набор данных для машинного понимания текстаРассказы и сопутствующие вопросы для проверки понимания текста.Никто.660ТекстОбработка естественного языка, машинное понимание2013[87] [88]М. Ричардсон и др.
Проект Penn TreebankТекст естественного происхождения, аннотированный с точки зрения языковой структуры.Текст разбирается на семантические деревья.~ 1 млн словТекстОбработка естественного языка, резюмирование1995[89] [90]М. Маркус и др.
Набор данных DEXTERПоставлена ​​задача определить на основе предоставленных характеристик, какие статьи посвящены корпоративным поглощениям.Извлеченные признаки включают основы слов. Включены отвлекающие признаки.2600ТекстКлассификация2008[91]Рейтер
Google Книги N-граммыN-граммы из очень большого корпуса книгНикто.2,2 ТБ текстаТекстКлассификация, кластеризация, регрессия2011[92] [93]Google
Корпус ПерсонСобрано для экспериментов по атрибуции авторства и прогнозированию личности. Состоит из 145 эссе на голландском языке.Помимо обычных текстов приводятся синтаксически аннотированные тексты.145ТекстКлассификация, регрессия2008[94] [95]К. Люйкс и др.
НажмитеСдвигАрхивы сайтов социальных сетей, включая Reddit , Twitter и Hackernews .Текст, извлеченный и нормализованный из WARC~100,000,000 сообщенийJsonНЛП, сентимент, лингвистика2022[96] [97]Дж. Баумгартнер
Документы SECЭДГАР | Документы компанииТекст извлечен.csvНЛП
Набор данных CNAE-9Задание по категоризации для свободных текстовых описаний бразильских компаний.Извлечена частота употребления слова.1080ТекстКлассификация2012[98] [99]П. Чиарелли и др.
Набор данных предложений с маркировкой настроений3000 предложений с оценкой настроений.Тон каждого предложения был вручную помечен как положительный или отрицательный.3000ТекстКлассификация, анализ настроений2015[100] [101]Д. Коциас
Набор данных BlogFeedbackНабор данных для прогнозирования количества комментариев, которые получит пост, на основе характеристик этого поста.Извлечено множество особенностей каждого поста.60,021ТекстРегрессия2014[102] [103]К. Буза
PubMed ЦентральныйPubMed® содержит более 35 миллионов ссылок на биомедицинскую литературу из MEDLINE, журналов по естественным наукам и онлайн-книг.Никто35 миллионовТекстНЛП
USPTOПатентное и товарное бюро СШАТекстНЛП
ФилПейперсОткрытый доступ к коллекции философских публикацийТекстНЛП
Корпус книгиПопулярный большой текстовый корпус.НиктоТекстНЛП2015[104]Чжу, Юкун и др.
Корпус Стэнфордского естественного языка (SNLI)Подписи к изображениям сопоставляются с вновь составленными предложениями для формирования пар выводов, противоречий или нейтральных пар.Метки классов вывода, синтаксический анализ с помощью синтаксического анализатора PCFG Стэнфордского университета570,000ТекстВывод на естественном языке/распознавание текстовой логики2015[105]С. Боуман и др.
Коллекция корпусов DSL (DSLCC)Многоязычный сборник коротких отрывков журналистских текстов на схожих языках и диалектах.Никто294 000 фразТекстРазличение похожих языков2017[106]Тан, Лилинг и др.
Набор данных городского словаряКорпус слов, голосов и определенийИмена пользователей анонимизированы2,580,925CSVНЛП, Машинное понимание2016 май[107]Анонимный
T-RExРефераты Википедии, соответствующие сущностям ВикиданныхСопоставление троек Викиданных с аннотациями Википедии11 млн выровненных троекJSON и NIF [4]НЛП, Извлечение отношений2018[108]Х. Эльсахар и др.
Оценка общего понимания языка (GLUE)Тест девяти задачРазличный~1 млн предложений и пар предложенийНЛУ2018[109] [110] [111]Ван и др.
Понимание контрактов Atticus Dataset (CUAD) (ранее известный как Atticus Open Contract Dataset (AOK))Набор данных юридических контрактов с подробными экспертными аннотациями~13 000 этикетокCSV и PDFОбработка естественного языка, QnA2021Проект Аттикус
Набор данных подписей к изображениям на вьетнамском языке (UIT-ViIC)Набор данных для подписей к изображениям на вьетнамском языке19 250 подписей к 3 850 изображениямCSV и PDFОбработка естественного языка, Компьютерное зрение2020[112]Лэм и др.
Вьетнамские имена с указанием пола (UIT-ViNames)Вьетнамские имена с примечаниями о роде26 850 полных вьетнамских имен с указанием полаCSVОбработка естественного языка2020[113]To et al.
Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке (UIT-ViCTSD)Набор данных для обнаружения конструктивной и токсичной речи на вьетнамском языке10 000 комментариев вьетнамских пользователей к интернет-газетам на 10 доменахCSVОбработка естественного языка2021[114]Нгуен и др.
ПГ-19Набор книг, извлеченных из библиотеки книг проекта «Гутенберг»ТекстОбработка естественного языка2019Джек В и др.
Математика DeepmindМатематические пары вопросов и ответов.ТекстОбработка естественного языка2018[115]Д. Сакстон и др.
Архив АнныПолный архив опубликованных книг и статейНикто100,356,641Текст, epub, PDFОбработка естественного языка2024

Звуковые данные

Эти наборы данных состоят из звуков и звуковых характеристик, используемых для таких задач, как распознавание и синтез речи .

Речь

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Коммутатор-1Разговорная речь по телефону.260 часов речи 543 ораторов (302 мужчины, 241 женщина) со всех концов Соединенных Штатов, около 2400 двусторонних телефонных разговоров, собранных Texas Instruments в 1990–1991 годах.аудио, текстовая расшифровка, временные метки на уровне слов, фонетическая транскрипцияраспознавание речи, фонетическая транскрипция.1992 (2000)[116] [117]НИСТ
Хаб5'00Разговорная речь по телефону.260 часов речи 543 ораторов (302 мужчины, 241 женщина) со всех концов США, около 2400 двусторонних телефонных разговоров, ~3 миллиона слов. Собрано Texas Instruments в 1990-1991 годах.аудио, текстовая расшифровка, временные метки на уровне слов, фонетическая транскрипцияРаспознавание речи, фонетическая транскрипция. Наиболее часто используемый набор тестов для этого набора данных называется "Hub5'00".1992 (2000)[118] [119]НИСТ
Выступление с нулевыми ресурсами 2015Спонтанная речь (английский), прочитанная речь (ситсонга).Нет, необработанные файлы WAV.Английский: 5 ч., 12 говорящих; Сицонга: 2 ч. 30 мин., 24 говорящихWAV (только аудио)Неконтролируемое обнаружение речевых признаков/единиц подслов/единиц слов2015[120] [121]Верстиг и др.
Набор данных по речевым данным при болезни ПаркинсонаМногочисленные записи людей с болезнью Паркинсона и без нее.Извлеченные характеристики голоса, болезнь оценивается врачом с использованием единой шкалы оценки болезни Паркинсона .1040ТекстКлассификация, регрессия2013[122] [123]Б. Э. Сакар и др.
Разговорные арабские цифрыРазговорные арабские цифры из 44 мужских и 44 женских.Временной ряд коэффициентов мел-частотного кепстра .8,800ТекстКлассификация2010[124] [125]М. Бедда и др.
Набор данных ISOLETПроизносимые названия букв.Характеристики, извлеченные из звуков.7797ТекстКлассификация1994[126] [127]Р. Коул и др.
Набор данных японских гласныхДевять мужчин произнесли две японские гласные подряд.Применил к нему 12-градусный линейный предсказательный анализ для получения дискретного временного ряда с 12 коэффициентами кепстра.640ТекстКлассификация1999[128] [129]М. Кудо и др.
Набор данных телемониторинга ПаркинсонаМногочисленные записи людей с болезнью Паркинсона и без нее.Извлечены звуковые характеристики.5875ТекстКлассификация2009[130] [131]А. Цанас и др.
ТИМИТЗаписи 630 носителей восьми основных диалектов американского английского языка, каждый из которых читает десять фонетически насыщенных предложений.Речь транскрибируется лексически и фонематически.6300ТекстРаспознавание речи, классификация.1986[132] [133]Дж. Гарофоло и др.
Корпус арабской речиКорпус речи современного стандартного арабского языка (MSA) для одного носителя языка с фонетическими и орфографическими транскрипциями, приведенными в соответствие с уровнем фонем.Речь транскрибируется орфографически и фонетически с указанием ударений.~1900Текст, WAVСинтез речи, распознавание речи, выравнивание корпуса, логопедическое лечение, образование.2016[134]Н. Халаби
Общий голосОбщедоступная база данных краудсорсинговых данных на самых разных диалектах.Проверка другими пользователями.Английский: 1118 часовMP3 с соответствующими текстовыми файламиРаспознавание речи2017 Июнь (2019 Декабрь)[135]Мозилла
LJSpeechКорпус аудиокниг на английском языке, являющихся общественным достоянием и записанных одним носителем , разделенный на короткие клипы по знакам препинания.Проверка качества, нормализованная транскрипция вместе с оригиналом.13,100CSV-, WAV-файлыСинтез речи2017[136]Кит Ито, Линда Джонсон
Набор данных арабских речевых командСобрано от 30 участников и сгруппировано по 40 ключевым словам.Необработанные WAV-файлы12,000WAV-, CSV-файлыРаспознавание речи, обнаружение ключевых слов2021[137]Абдулкадер Гандура

Музыка

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Географическое происхождение набора данных музыкиАудиохарактеристики музыкальных фрагментов из разных мест.Аудиохарактеристики извлечены с помощью программного обеспечения MARSYAS.1,059ТекстГеографическая классификация, кластеризация2014[138] [139]Ф. Чжоу и др.
Набор данных «Миллион песен»Аудиоматериалы из миллиона различных песен.Извлечены аудиохарактеристики.ТекстКлассификация, кластеризация2011[140] [141]Т. Бертен-Майе и др.
MUSDB18Многодорожечные записи популярной музыкиНеобработанный звук150MP4, WAVРазделение источников2017[142]З. Рафии и др.
Бесплатный музыкальный архивАудио по лицензии Creative Commons из 100 тыс. песен (343 дня, 1 ТиБ) с иерархией из 161 жанра, метаданными, пользовательскими данными, текстом в свободной форме.Необработанный звук и аудиофункции.106,574Текст, MP3Классификация, рекомендация2017[143]М. Дефферрард и др.
Набор данных хоровой гармонии БахаХоральные аккорды Баха.Извлечены аудиохарактеристики.5665ТекстКлассификация2014[144] [145]Д. Радичони и др.

Другие звуки

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
UrbanSoundМаркированные звукозаписи звуков, таких как работа кондиционеров, гудки автомобилей и играющие дети.Сортировка по папкам по классу событий, а также метаданные в файле JSON и аннотации в файле CSV.1,059Звук

( WAV- файл)

Классификация2014[146] [147]Дж. Саламон и др.
АудиоСет10-секундные звуковые фрагменты из видеороликов YouTube и онтология из более чем 500 меток.128-дневные PCA-функции VGG-ish каждую секунду.2,084,320Текстовые файлы (CSV) и файлы записей TensorFlowКлассификация2017[148]Дж. Геммеке и др., Google
Задача на обнаружение звука птицАудиозаписи со станций мониторинга окружающей среды, а также записи, полученные из краудсорсинга17,000+Классификация2016 (2018)[149] [150]Университет королевы Марии и Общество обработки сигналов IEEE
WSJ0 Хипстерские эмбиент-миксыЗвук с WSJ0, смешанный с шумом, записанным в районе залива Сан-ФранцискоШумовые клипы, соответствующие клипам WSJ028,000Звук ( WAV )Разделение источников звука2019[151]Вихерн, Г. и др., Whisper и MERL
Клото4981 аудиофрагмент продолжительностью от 15 до 30 секунд, каждый аудиофрагмент имеет пять различных субтитров длиной от восьми до 20 слов.24,905Звук ( WAV ) и текст ( CSV )Автоматизированные аудио субтитры2020[152] [153]К. Дроссос, С. Липпинг и Т. Виртанен

Данные сигнала

Наборы данных, содержащие информацию об электрических сигналах, требующие определенной обработки сигнала для дальнейшего анализа.

Электрические

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных Witty WormНабор данных, описывающий распространение червя Witty и зараженные компьютеры.Разделен на общедоступный набор и ограниченный набор, содержащий более конфиденциальную информацию, такую ​​как заголовки IP и UDP.55 909 IP-адресовТекстКлассификация2004[154] [155]Центр прикладного анализа интернет-данных
Набор данных для оценки артериального давления без манжетыОчищенные жизненные сигналы пациентов-людей, которые можно использовать для оценки артериального давления.Показатели жизнедеятельности 125 Гц были очищены.12,000ТекстКлассификация, регрессия2015[156] [157]М. Качуи и др.
Набор данных о дрейфе массива газовых датчиковИзмерения с 16 химических датчиков, используемых в моделировании для компенсации дрейфа.Представлено обширное количество характеристик.13,910ТекстКлассификация2012[158] [159]А. Вергара
Набор данных сервоприводаДанные, охватывающие нелинейные зависимости, наблюдаемые в цепи сервоусилителя.Приведены уровни различных компонентов в зависимости от других компонентов.167ТекстРегрессия1993[160] [161]К. Ульрих
Набор данных UJIIndoorLoc-MagБаза данных внутренней локализации для тестирования систем позиционирования в помещении. Данные основаны на магнитном поле.Даны разделы обучения и тестирования.40,000ТекстКлассификация, регрессия, кластеризация2015[162] [163]Д. Рамбла и др.
Набор данных диагностики бессенсорного приводаЭлектрические сигналы от двигателей с неисправными компонентами.Извлечены статистические характеристики.58,508ТекстКлассификация2015[164] [165]М. Батор

Отслеживание движения

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Носимые компьютеры: классификация поз и движений тела (PUC-Rio)Люди выполняют пять стандартных действий, надев трекеры движения.Никто.165,632ТекстКлассификация2013[166] [167]Папский католический университет Рио-де-Жанейро
Набор данных сегментации фазы жестаХарактеристики, извлеченные из видео, на которых люди делают различные жесты.Извлеченные признаки направлены на изучение сегментации фаз жеста.9900ТекстКлассификация, кластеризация2014[168] [169]Р. Мадео и др.
Набор данных Vicon Physical Action Data Set10 обычных и 10 агрессивных физических действий, измеряющих активность человека, отслеживаемую 3D-трекером.Множество параметров регистрируются 3D-трекером.3000ТекстКлассификация2011[170] [171]Т. Теодоридис
Набор данных о повседневной и спортивной активностиДанные датчиков движения для 19 повседневных и спортивных занятий.Имеется множество датчиков, предварительная обработка сигналов не производится.9120ТекстКлассификация2013[172] [173]Б. Баршан и др.
Распознавание человеческой активности с использованием набора данных смартфоновДанные гироскопа и акселерометра людей, использующих смартфоны и выполняющих обычные действия.Выполняемые действия маркируются, все сигналы предварительно обрабатываются на предмет шума.10,299ТекстКлассификация2012[174] [175]Дж. Рейес-Ортис и др.
Знаки австралийского языка жестовЖесты австралийского языка жестов, распознаваемые перчатками, отслеживающими движение.Никто.2565ТекстКлассификация2002[176] [177]М. Кадус
Упражнения по поднятию тяжестей, контролируемые с помощью инерциальных измерительных устройствПять вариантов упражнения на сгибание рук на бицепс, контролируемых с помощью инерционных измерительных приборов.Некоторые статистические данные рассчитаны на основе необработанных данных.39,242ТекстКлассификация2013[178] [179]В. Угулино и др.
sEMG для базовых движений рук. Набор данныхДве базы данных поверхностных электромиографических сигналов 6 движений руки.Никто.3000ТекстКлассификация2014[180] [181]К. Сапсанис и др.
Набор данных распознавания активности REALDISPОценить методы, учитывающие эффекты смещения датчиков при распознавании активности носимых устройств.Никто.1419ТекстКлассификация2014[181] [182]О. Банос и др.
Набор данных распознавания неоднородности активностиДанные с различных интеллектуальных устройств, свидетельствующие о том, что люди выполняют различные действия.Никто.43,930,257ТекстКлассификация, кластеризация2015[183] ​​[184]А. Стисен и др.
Прогноз движения пользователей в помещении на основе данных RSSВременные данные беспроводной сети, которые можно использовать для отслеживания перемещений людей в офисе.Никто.13,197ТекстКлассификация2016[185] [186]Д. Баччу
Набор данных мониторинга физической активности PAMAP218 различных видов физической активности, выполняемых 9 субъектами, использующими 3 ИМУ.Никто.3,850,505ТекстКлассификация2012[187]А. Рейсс
Набор данных распознавания активности OPPORTUNITYРаспознавание человеческой активности с помощью носимых устройств, датчиков объектов и окружающей среды — это набор данных, разработанный для сравнения алгоритмов распознавания человеческой активности.Никто.2551ТекстКлассификация2012[188] [189]Д. Рогген и др.
Набор данных распознавания активности в реальном миреРаспознавание активности человека с помощью носимых устройств. Различает семь положений устройства на теле и включает шесть различных типов датчиков.Никто.3 150 000 (на датчик)ТекстКлассификация2016[190]Т. Штилер и др.
Набор данных позы инсульта в реабилитационном центре ТоронтоТрехмерная оценка позы человека (Kinect) у пациентов, перенесших инсульт, и здоровых участников, выполняющих ряд задач с использованием робота для реабилитации после инсульта.Никто.10 здоровых человек и 9 человек, переживших инсульт (3500–6000 кадров на человека)CSVКлассификация2017[191] [192] [193]Э. Долатабади и др.
Корпус социальных контактов (CoST)7805 захватов жестов 14 различных социальных жестов прикосновения, выполненных 31 субъектом. Жесты выполнялись в трех вариантах: нежно, нормально и грубо, на сетке датчика давления, обернутой вокруг руки манекена.Выполняемые сенсорные жесты сегментируются и маркируются.7805 захватов жестовCSVКлассификация2016[194] [195]М. Юнг и др.

Другие сигналы

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных о винеХимический анализ вин, выращенных в одном регионе Италии, но полученных из трех разных сортов винограда.Приведены 13 свойств каждого вина.178ТекстКлассификация, регрессия1991[196] [197]М. Форина и др.
Набор данных по электростанции комбинированного циклаДанные с различных датчиков на электростанции, работающей в течение 6 лет.Никто9568ТекстРегрессия2014[198] [199]П. Туфекчи и др.

Физические данные

Наборы данных из физических систем.

Физика высоких энергий

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных HIGGSМоделирование столкновений ускорителей частиц методом Монте-Карло.Приведено 28 характеристик каждого столкновения.11МТекстКлассификация2014[200] [201] [202]Д. Уайтсон
Набор данных HEPMASSМоделирование Монте-Карло столкновений ускорителей частиц. Цель — отделить сигнал от шума.Приведено 28 характеристик каждого столкновения.10,500,000ТекстКлассификация2016[201] [202] [203]Д. Уайтсон

Системы

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных по гидродинамике яхтХарактеристики яхты в зависимости от ее размеров.Для каждой яхты дано шесть характеристик.308ТекстРегрессия2013[204] [205]Р. Лопес
Набор данных об ошибках выполнения робота5 наборов данных, посвященных неспособности роботов выполнять типичные задачи.Целочисленные характеристики, такие как крутящий момент и другие измерения датчиков.463ТекстКлассификация1999[206]Л. Сибра и др.
Набор данных о мостах ПиттсбургаОписание конструкции дается с учетом ряда свойств различных мостов.Приведены различные характеристики моста.108ТекстКлассификация1990[207] [208]Y. Райх и др.
Автомобильный набор данныхДанные об автомобилях, их страховом риске и их нормализованных убытках.Извлечены характеристики автомобиля.205ТекстРегрессия1987[209] [210]Дж. Шиммер и др.
Автоматический набор данных MPGДанные о расходе топлива для автомобилей.Приведены восемь характеристик каждого автомобиля.398ТекстРегрессия1993[211]Университет Карнеги-Меллона
Набор данных по энергоэффективностиТребования к отоплению и охлаждению указаны в зависимости от параметров здания.Указаны параметры здания.768ТекстКлассификация, регрессия2012[212] [213]А. Ксифара и др.
Набор данных по собственному шуму аэродинамического профиляСерия аэродинамических и акустических испытаний двух- и трехмерных сечений лопаток аэродинамического профиля.Приведены данные о частоте, угле атаки и т. д.1503ТекстРегрессия2014[214]Р. Лопес
Набор данных по уплотнительным кольцам космического челнока Challenger USAПопытка предсказать проблемы с уплотнительными кольцами на основе прошлых данных Challenger.Приведены некоторые характеристики каждого полета, такие как температура запуска.23ТекстРегрессия1993[215] [216]Д. Дрейпер и др.
Набор данных Statlog (Shuttle)Наборы данных космических челноков НАСА.Даны девять характеристик.58,000ТекстКлассификация2002[217]НАСА

Астрономия

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Вулканы на Венере – набор данных эксперимента JARtoolСнимки Венеры, полученные космическим аппаратом «Магеллан».Изображения помечены людьми.не даноИзображенияКлассификация1991[218] [219]М. Берл
Набор данных гамма-телескопа MAGICМетод Монте-Карло генерировал события с высокоэнергетическими гамма-частицами.Многочисленные особенности, извлеченные из моделирования.19,020ТекстКлассификация2007[219] [220]Р. Бок
Набор данных по солнечным вспышкамИзмерения количества определенных типов солнечных вспышек, происходящих в течение 24-часового периода.Приведены многочисленные характеристики, характерные для солнечных вспышек.1389ТекстРегрессия, классификация1989[221]Г. Брэдшоу
Многополевой набор данных CAMELS2D-карты и 3D-сетки на основе тысяч N-тел и современных гидродинамических симуляций, охватывающих широкий диапазон значений космологических и астрофизических параметров.Каждая карта и сетка имеет 6 космологических и астрофизических параметров, связанных с ней.405 000 2D-карт и 405 000 3D-сеток2D-карты и 3D-сеткиРегрессия2021[222]Франсиско Вильяескуза-Наварро и др.

Науки о Земле

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Вулканы мираДанные об извержениях вулканов для всех известных вулканических событий на Земле.Приведены такие сведения, как регион, субрегион, тектоническая обстановка, преобладающий тип горных пород.1535ТекстРегрессия, классификация2013[223]Э. Венцке и др.
Набор данных по сейсмическим ударамСейсмическая активность угольной шахты.Сейсмическая активность классифицировалась как опасная или нет.2584ТекстКлассификация2013[224] [225]М. Сикора и др.
CAMELS-USНабор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутамисм. ссылку671CSV, текст, шейп-файлРегрессия2017[226] [227]Н. Аддор и др. / А. Ньюман и др.
CAMELS-ЧилиНабор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутамисм. ссылку516CSV, текст, шейп-файлРегрессия2018[228]C. Альварес-Гарретон и др.
CAMELS-БразилияНабор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутамисм. ссылку897CSV, текст, шейп-файлРегрессия2020[229]В. Шагас и др.
CAMELS-GBНабор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутамисм. ссылку671CSV, текст, шейп-файлРегрессия2020[230]Г. Коксон и др.
CAMELS-АвстралияНабор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутамисм. ссылку222CSV, текст, шейп-файлРегрессия2021[231]К. Фаулер и др.
ЛамаХ -CEНабор данных по гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутамисм. ссылку859CSV, текст, шейп-файлРегрессия2021[232]К. Клинглер и др.

Другие физические

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных по прочности бетона на сжатиеНабор данных о свойствах бетона и прочности на сжатие.Для каждого образца приведено девять характеристик.1030ТекстРегрессия2007[233] [234]Я. Да
Набор данных для испытаний на осадку бетонаТекучесть бетона, заданная с точки зрения свойств.Указаны характеристики бетона, такие как летучая зола, вода и т. д.103ТекстРегрессия2009[235] [236]Я. Да
Набор данных МаскаПредскажите, будет ли молекула, учитывая ее характеристики, мускусом или не мускусом.Для каждой молекулы дано 168 характеристик.6598ТекстКлассификация1994[237]Аррис Фармасьютикал Корпорейшн
Набор данных о неисправностях стальных пластинСтальные пластины 7 различных типов.Для каждого образца приведено 27 характеристик.1941ТекстКлассификация2010[238]Исследовательский центр «Семейон»
Наборы данных по монометаллическим наночастицам благородных металловТехнологические и структурные особенности монометаллических наночастиц, метки - энергия образования.Для каждого образца приведено 85–182 характеристики.425-4000CSVРегрессия2017-2023[239] [240] [241] [242] [243] [244]А. Барнард и Г. Оплетал
Наборы данных по биметаллическим наночастицам благородных металловТехнологические и структурные особенности биметаллических наночастиц, метки - энергия образования.Для каждого образца дано 922 характеристики.138147 по 162770CSVРегрессия2023[245] [246] [247 ] [248] [249] [250] [251] [252] [ 253] [254] [255] [256]Дж. Тинг и др.
Набор данных по триметаллическим наночастицам AuPdPtТехнологические и структурные особенности наночастиц AuPdPt, метки – энергия образования.Для каждого образца приведено 1958 характеристик.48136CSVРегрессия2023[257]К. Лу и др.

Биологические данные

Наборы данных из биологических систем.

Человек

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Возрастной набор данныхСтруктурированный набор данных общего назначения о жизни, работе и смерти 1,22 млн выдающихся людей. Общественное достояние.Пятиэтапный метод определения года рождения и смерти, пола и рода занятий на основе данных, предоставленных сообществом для всех языковых версий проекта Википедия.1,223,009ТекстРегрессия, Классификация2022Бумага [258]

Набор данных [259]

Амораднежад и др.
Синтетический набор данных глазного дна [260]Фотореалистичные изображения сетчатки и сегментации сосудов. Общественное достояние.2500 изображений размером 1500*1152 пикселей, полезных для сегментации и классификации вен и артерий на одном фоне.2500ИзображенияКлассификация, Сегментация2020[261]К. Валенти и др.
База данных ЭЭГИсследование по изучению ЭЭГ-коррелятов генетической предрасположенности к алкоголизму.Измерения с 64 электродов, размещенных на коже головы, с частотой 256 Гц (эпоха 3,9 мс) в течение 1 секунды.122ТекстКлассификация1999[262]Х. Беглейтер
Интерфейсный набор данных P300Данные девяти испытуемых, собранные с использованием интерфейса «мозг-компьютер» на базе P300 для людей с ограниченными возможностями.Разделено на четыре сессии по каждому предмету. Приведен код MATLAB .1,224ТекстКлассификация2008[263] [264]У. Хоффман и др.
Набор данных о сердечных заболеванияхОтносится к пациентам с заболеваниями сердца и без них.Для каждого пациента дано 75 атрибутов с некоторыми пропущенными значениями.303ТекстКлассификация1988[265] [266]А. Яноши и др.
Набор данных по раку молочной железы в Висконсине (диагностика)Набор данных о характеристиках образований молочной железы. Приведены диагнозы врача.Приведено 10 характеристик для каждого образца.569ТекстКлассификация1995[267] [268]В. Вольберг и др.
Национальное исследование по употреблению наркотиков и здоровьюМасштабное исследование по вопросам здоровья и употребления наркотиков в Соединенных Штатах.Никто.55,268ТекстКлассификация, регрессия2012[269]Министерство здравоохранения и социальных служб США
Набор данных по раку легкихНабор данных по раку легких без определений атрибутовДля каждого случая приведено 56 характеристик.32ТекстКлассификация1992[270] [271]З. Хонг и др.
Набор данных по аритмииДанные по группе пациентов, у некоторых из которых наблюдается сердечная аритмия.276 функций для каждого экземпляра.452ТекстКлассификация1998[272] [273]Х. Алтай и др.
Диабет 130-больницы США за 1999–2008 гг. Набор данныхДанные за 9 лет о повторной госпитализации пациентов с диабетом в 130 больницах США.Приведены многочисленные характеристики каждой повторной госпитализации.100,000ТекстКлассификация, кластеризация2014[274] [275]Дж. Клор и др.
Диабетическая ретинопатия Дебрецен DatasetХарактеристики, извлеченные из изображений глаз с диабетической ретинопатией и без нее.Извлеченные признаки и диагностированные состояния.1151ТекстКлассификация2014[276] [277]Б. Антал и др.
Диабетическая ретинопатия Мессидор DatasetМетоды оценки сегментации и индексации в области ретинальной офтальмологии (MESSIDOR)Особенности степени ретинопатии и риска отека желтого пятна1200Изображения, ТекстКлассификация, Сегментация2008[278] [279]Проект Мессидор
Набор данных о заболеваниях печениДанные по людям с заболеваниями печени.Для каждого пациента дано семь биологических характеристик.345ТекстКлассификация1990[280] [281]Bupa Medical Research Ltd.
Набор данных по заболеваниям щитовидной железы10 баз данных пациентов с заболеваниями щитовидной железы.Никто.7200ТекстКлассификация1987[282] [283]Р. Куинлан
Набор данных по мезотелиомеДанные о пациентах с мезотелиомой.Приведено большое количество характеристик, включая воздействие асбеста.324ТекстКлассификация2016[284] [285]А. Танрикулу и др.
Набор данных для оценки позы на основе зрения при болезни ПаркинсонаДвумерные оценки позы человека у пациентов с болезнью Паркинсона, выполняющих различные задачи.Дрожание камеры удалено из траекторий.134ТекстКлассификация, регрессия2017[286] [287] [288]М. Ли и др.
Набор данных сети метаболических реакций KEGG (ненаправленный)Сеть метаболических путей. Даны сеть реакций и сеть отношений .Приведены подробные характеристики каждого сетевого узла и пути.65,554ТекстКлассификация, кластеризация, регрессия2011[289]М. Наим и др.
Модифицированный набор данных анализа морфологии сперматозоидов человека (MHSMA)Изображения спермы человека от 235 пациентов с мужским фактором бесплодия, маркированные на предмет нормальных или аномальных акросом, головки, вакуоли и хвоста сперматозоида.Обрезано вокруг одной головки сперматозоида. Увеличение нормализовано. Созданы разделы обучающего, проверочного и тестового наборов.1,540.npy-файлыКлассификация2019[290] [291]С. Джавади и С.А. Миррошандель

Животное

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных AbaloneФизические измерения Abalone. Также даны погодные условия и местоположение.Никто.4177ТекстРегрессия1995[292]Лаборатории морских исследований - Таруна
Набор данных зоопаркаИскусственный набор данных, охватывающий 7 классов животных.Животные классифицируются по 7 категориям, и для каждой из них приводятся характеристики.101ТекстКлассификация1990[293]Р. Форсайт
Набор данных DemospongiaeДанные о морских губках.503 губки класса Demosponge описаны по различным признакам.503ТекстКлассификация2010[294]Э. Арменгол и др.
Данные о сельскохозяйственных животныхИнвентаризация данных PLF (коровы, свиньи; местоположение, ускорение и т. д.).Маркированные наборы данных.Список постоянно обновляется.ТекстКлассификация2020[295]В. Блох
Набор данных последовательностей генов сплайсинг-соединенияПоследовательности генов сплайс-контактов (ДНК) приматов с соответствующей теорией несовершенных доменов.Никто.3190ТекстКлассификация1992[271]Г. Тоуэлл и др.
Набор данных по экспрессии белка у мышейУровни экспрессии 77 белков, измеренные в коре головного мозга мышей.Никто.1080ТекстКлассификация, Кластеризация2015[296] [297]К. Хигуэра и др.

Грибы

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных UCI MushroomАтрибуты и классификация грибов.Приведены многочисленные свойства каждого гриба.8124ТекстКлассификация1987[298]Дж. Шлиммер
Вторичный набор данных по грибамАтрибуты и классификация грибовСмоделированные данные из более крупных и реалистичных первичных записей грибов. Полностью воспроизводимые.61069ТекстКлассификация2020[299] [300]Д. Вагнер и др.

Растение

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных по лесным пожарамЛесные пожары и их свойства.Извлекаются 13 характеристик каждого пожара.517ТекстРегрессия2008[301] [302]П. Кортес и др.
Набор данных IrisТри типа растений ириса описываются четырьмя различными признаками.Никто.150ТекстКлассификация1936[303] [304]Р. Фишер
Виды растений Листья Набор данныхШестнадцать образцов листьев каждого из ста видов растений.Приведены дескриптор формы, мелкомасштабные поля и гистограммы текстуры.1600ТекстКлассификация2012[305] [306]Дж. Коуп и др.
Набор данных по соеБаза данных больных растений сои.Для каждого растения дано 35 характеристик. Растения классифицированы по 19 категориям.307ТекстКлассификация1988[307]Р. Михальски и др.
Набор данных семянИзмерения геометрических свойств зерен, принадлежащих трем различным сортам пшеницы.Никто.210ТекстКлассификация, кластеризация2012[308] [309]Хаританович и др.
Набор данных CovertypeДанные для прогнозирования типа лесного покрова строго по картографическим переменным.Приведены многочисленные географические особенности.581,012ТекстКлассификация1998[310] [311]Дж. Блэкард и др.
Набор данных сети сигнализации абсцизовой кислотыДанные для сигнальной сети завода. Цель — определить набор правил, управляющих сетью.Никто.300ТекстКаузальное открытие2008[312]Дж. Дженкенс и др.
Набор данных фолио20 фотографий листьев каждого из 32 видов.Никто.637Изображения, текстКлассификация, кластеризация2015[313] [314]Т. Мунисами и др.
Набор данных цветов ОксфордаНабор данных из 17 категорий цветов.Разделение на обучающие и тестовые данные, маркированные изображения,1360Изображения, текстКлассификация2006[315] [316]М.Э. Нильсбак и др.
Набор данных по рассаде растенийНабор данных по 12 категориям саженцев растений.Маркированные изображения, сегментированные изображения,5544ИзображенияКлассификация, обнаружение2017[317]Гисельссон и др.
Фрукты-360База данных с изображениями 131 фрукта и овоща.100x100 пикселей, белый фон.90483Изображения (jpg)Классификация2017–2024[318]Михай Олтеан
Weed-ID.AppБаза данных с 1025 видами, 13 500+ изображений и 120 000+ характеристикРазличный размер и фон. Маркировка доктора ботаники.13,500Изображения, текстКлассификация1999-2024[319]Ричард Олд
Набор данных CottonWeedDet3Набор данных по обнаружению сорняков в 3 классах для систем возделывания хлопка3 вида сорняков.848ИзображенияКлассификация2022[320]Рахман и др.

Микроб

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных EcoliМеста локализации белков.Приведены различные характеристики мест локализации белков.336ТекстКлассификация1996[321] [322]К. Накаи и др.
Набор данных MicroMassИдентификация микроорганизмов по данным масс-спектрометрии.Различные характеристики масс-спектрометра.931ТекстКлассификация2013[323] [324]П. Маэ и др.
Набор данных по дрожжамПрогнозы мест клеточной локализации белков.Для каждого экземпляра дано восемь характеристик.1484ТекстКлассификация1996[325] [326]К. Накаи и др.

Открытие лекарств

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных Tox21Прогнозирование результатов биологических анализов.Даны химические описания молекул.12707ТекстКлассификация2016[327]А. Майр и др.

Аномальные данные

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Тест аномалий Numenta (NAB)Данные упорядочены, имеют временные метки, однозначные метрики. Все файлы данных содержат аномалии, если не указано иное.Никто50+ файловCSVОбнаружение аномалий2016 (постоянно обновляется)[328]Нумента
Сколтехский тест аномалий (SKAB)Каждый файл представляет собой один эксперимент и содержит одну аномалию. Набор данных представляет собой многомерный временной ряд, собранный с датчиков, установленных на испытательном стенде.Существует две разметки для задач обнаружения выбросов (точечных аномалий) и обнаружения точек изменения (коллективных аномалий).30+ файлов (v0.9)CSVОбнаружение аномалий2020 (постоянно обновляется)

[329] [330]

Кацер Юрий Дмитриевич и Козицын Вячеслав Олегович
Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследованиеБольшинство файлов данных адаптированы из данных репозитория машинного обучения UCI, некоторые собраны из литературы.обработаны для отсутствующих значений, только числовые атрибуты, различные проценты аномалий, метки1000+ файловАРФФОбнаружение аномалий2016 (возможно, обновлено новыми наборами данных и/или результатами)

[331]

Кампос и др.

Вопрос-ответ данные

В этот раздел включены наборы данных, имеющие дело со структурированными данными.

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных DBpedia Neural Question Answering (DBNQA)Большая коллекция вопросов на SPARQL, специально разработанная для Open Domain Neural Question Answering через базу знаний DBpedia.Этот набор данных содержит большую коллекцию открытых нейронных шаблонов SPARQL и экземпляров для обучения нейронных машин SPARQL; он был предварительно обработан полуавтоматическими инструментами аннотации, а также тремя экспертами SPARQL.894,499Пары вопрос-запросВопрос Ответ2018[332] [333]Хартманн, Сору и Маркс и др.
Вьетнамский набор вопросов и ответов (UIT-ViQuAD)Большая коллекция вьетнамских вопросов для оценки моделей MRC.Этот набор данных содержит более 23 000 пар вопросов и ответов, созданных человеком на основе 5109 отрывков из 174 вьетнамских статей из Википедии.23,074Пары вопрос-ответВопрос Ответ2020[334]Нгуен и др.
Вьетнамский корпус машинного чтения и понимания с множественным выбором (ViMMRC)Коллекция вьетнамских вопросов с множественным выбором для оценки моделей MRC.В этот корпус входят 2783 вопроса с несколькими вариантами ответов на вьетнамском языке.2,783Пары вопрос-ответОтветы на вопросы/Понимание машинного чтения2020[335]Нгуен и др.
Ответы на вопросы в открытом формате становятся разговорными благодаря переписыванию вопросовСквозной открытый вопрос-ответ.Этот набор данных включает 14 000 разговоров с 81 000 парами вопросов и ответов.Контекст, Вопрос, Переписать, Ответ, URL_ответа, Номер_разговора, Номер_поворота, Источник_разговора

Более подробная информация представлена ​​в репозитории проекта на GitHub и соответствующей карточке набора данных Hugging Face.

Вопрос Ответ2021[336]Ананта и Вакуленко и др.
UnifiedQAВопросно-ответные данныеОбработанный набор данныхВопрос Ответ2020[337]Хашаби и др.

Диалог или инструкция, запрашивающая данные

В этот раздел включены наборы данных, которые...

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Надсмотрщик«Корпус Taskmaster состоит из ТРЕХ наборов данных: Taskmaster-1 (TM-1), Taskmaster-2 (TM-2) и Taskmaster-3 (TM-3), включающих более 55 000 устных и письменных диалогов, ориентированных на выполнение задач, в более чем дюжине доменов». [338]Taskmaster-1: целевой разговорный набор данных. Включает 13 215 диалогов, основанных на задачах, охватывающих шесть доменов.

Taskmaster-2: 17 289 диалогов в семи областях (рестораны, заказ еды, фильмы, отели, авиаперелеты, музыка и спорт).

Таскмастер-3: 23 757 диалогов по покупке билетов в кино.

Мастер-1 и Мастер-2: идентификатор разговора, высказывания, идентификатор инструкции

Таскмастер-3: идентификатор разговора, высказывания, вертикаль, сценарий, инструкции.

Более подробную информацию можно найти в репозитории проекта на GitHub или на карточках набора данных Hugging Face (taskmaster-1, taskmaster-2, taskmaster-3).

Диалог/инструкция запрошена2019[339]Бирн и Кришнамурти и др.
DrRepairМаркированный набор данных для восстановления программы.Предварительно обработанные данныеПроверьте детали формата в рабочем листе проекта.Диалог/инструкция запрошена2020[340]Мичихиро и др.
Естественные инструкции v2Большой набор данных, охватывающий более широкий спектр способностей к рассуждениюКаждая задача состоит из ввода/вывода и определения задачи.

Кроме того, каждый вопрос содержит определение задачи.

Дополнительная информация представлена ​​в репозитории проекта GitHub и на карточке данных Hugging Face.

Ввод/вывод и определение задачи2022[341]Ван и др.
ЛАМБАДА«LAMBADA — это коллекция повествовательных отрывков, имеющих общую характеристику: испытуемые способны угадать их последнее слово, если им показывают весь отрывок, но не если они видят только последнее предложение, предшествующее целевому слову». [342]Информация о формате этого набора данных доступна на карточке набора данных HuggingFace и на веб-сайте проекта.

Набор данных можно загрузить здесь, а отклоненные данные — здесь.

2016[343]Паперно и др.
ФЛАНПовторно обработанная версия набора данных FLAN с обновлениями с момента выпуска исходного набора данных FLAN доступна в Hugging Face:
  1. тестовые данные
  2. данные поезда
  3. данные проверки

Скрипты для обработки данных доступны в репозитории GitHub, упомянутом в статье: https://github.com/google-research/FLAN/tree/main/flan.

Также был создан еще один репозиторий FLAN GitHub. Он связан с карточкой набора данных в Hugging Face.

2021[344]Вэй и др.

Кибербезопасность

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
АТАКА МИТРЫATT&CK — это доступная по всему миру база знаний о тактиках и методах противника.Данные можно загрузить из этих двух репозиториев GitHub: версии 2.1 и версии 2.0.[345]АТАКА МИТРЫ
КАТЭКПеречень и классификация распространенных схем атакДанные можно загрузить с сайта CAPEC:

Механизмы атаки Домены атаки

[346]КАТЭК
CVECVE — это список публично раскрытых уязвимостей кибербезопасности, который можно свободно искать, использовать и включать в продукты и услуги.Данные можно загрузить с: Allitems[347]CVE
КВЕДанные по перечню распространенных недостатков.Данные можно загрузить с:

Разработка программного обеспечения Проектирование оборудования [ постоянная мертвая ссылка ‍ ] Концепции исследований

[348]КВЕ
MalwareTextDBАннотированная база данных текстов вредоносных программ.Репозиторий проекта GitHub содержит данные для загрузки.[349]Киат и др.
Труды симпозиума по безопасности USENIXСборник материалов по безопасности симпозиума по безопасности USENIX – технические сессии с 1995 по 2022 год.Эти данные не подвергаются предварительной обработке.1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008,

2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022.

[350]Симпозиум по безопасности USENIX
APTNotesСборник публичных документов, технических документов и статей о кампаниях APT. Все документы являются общедоступными данными.Эти данные не подвергаются предварительной обработке.Репозиторий проекта на GitHub содержит файл со ссылками на данные, хранящиеся в box.

Файлы данных также можно загрузить здесь.

[351]Заметки APT
arXiv Криптография и документы по безопасностиСборник статей о кибербезопасностиЭти данные не подвергаются предварительной обработке.Все статьи доступны здесь.[352]arXiv
Электронные книги по безопасности бесплатноНебольшая коллекция электронных книг по безопасности и презентаций по безопасности, находящихся в открытом доступе.Эти данные не подвергаются предварительной обработке.[353] [354] [355 ] [356] [357] [358] [359] [360] [ 361] [ 362] [363] [364]
Репозиторий национальной стратегии кибербезопасностиРепозиторий всемирных стратегических документов по кибербезопасности.Эти данные не подвергаются предварительной обработке.[365]
Кибербезопасность Обработка естественного языкаДанные о стратегиях кибербезопасности из более чем 75 стран.Токенизация, удаление бессмысленных часто встречающихся слов.[366]Яньлинь Чен, Юньцзянь Вэй, Ифань Юй, Вэнь Сюэ, Сянья Цинь
Сбор отчетов APTПримеры отчетов об APT, вредоносном ПО, технологиях и сборе разведывательной информацииДоступны необработанные и токенизированные данные.Все данные доступны в этом репозитории GitHub.[ необходима ссылка ]blackorbird
Набор данных идентификации оскорбительной лексики (OLID)Данные доступны на сайте проекта.

Данные также доступны здесь.

[367]Зампьери и др.
Киберотчеты от Национального центра кибербезопасностиЭти данные не подвергаются предварительной обработке.Отчеты об угрозах, отчеты и рекомендации, новости, записи в блогах, выступления.

Альтернативный список отчетов.

[368]
Отчеты APT от КасперскогоЭти данные не подвергаются предварительной обработке.[369]
КиберпроводЭти данные не подвергаются предварительной обработке.Информационные бюллетени, подкасты и истории.[370]
Новости о утечках данныхЭти данные не подвергаются предварительной обработке.Новости, список новостей с августа 2022 г. по февраль 2023 г.[371]
КиберновостиЭти данные не подвергаются предварительной обработке.Новости, кураторский список новостей[372]
ПисккомпьютерЭти данные не подвергаются предварительной обработке.Новости[373]
ЗаписьЭти данные не подвергаются предварительной обработке.Новости киберпреступности[374]
ХакридЭти данные не подвергаются предварительной обработке.Новости о взломе[375]
SecurelistЭти данные не подвергаются предварительной обработке.Отчеты об APT, архив, отчеты о DDOS-атаках, инциденты, бюллетень по безопасности «Лаборатории Касперского», промышленные угрозы, отчеты о вредоносном ПО, мнения, публикации, исследования и SAS.[376]
Проект лепниныПроект Stucco собирает данные, которые обычно не интегрируются в системы безопасности.Эти данные не подвергаются предварительной обработке.Сайт проекта с данными информацииПроверенный источник со ссылками на источники данных[377]
FarsightsecurityВеб-сайт с технической информацией, отчетами и другой информацией по вопросам безопасности.Эти данные не подвергаются предварительной обработке.Техническая информация, исследования, отчеты.[378]
ШнайерСайт с научными статьями по вопросам безопасности.Эти данные не подвергаются предварительной обработке.Статьи по категориям, архив статей по дате.[379]
ТрендмикроВеб-сайт с исследованиями, новостями и точками зрения по вопросам безопасности.Эти данные не подвергаются предварительной обработке.Проверенные списки исследований, новостей и перспектив Trendmicro.[380]
Хакерские новостиНовости по темам кибербезопасности.Эти данные не подвергаются предварительной обработке.новости об утечках данных, кибератаках, уязвимостях, вредоносном ПО.[381]
KrebsonsecurityНовости безопасности и расследованияЭти данные не подвергаются предварительной обработке.кураторский список новостей[382]
Митра DefendМатрица артефактов Защитыjson-файлы[383]
Митра АтласMitre Atlas — это база знаний о тактиках, методах и примерах действий противников для систем машинного обучения (МО), основанная на реальных наблюдениях.Эти данные не подвергаются предварительной обработке.[384]
Митра EngageMITRE Engage — это платформа для планирования и обсуждения операций по противодействию противникам, которая позволяет вам взаимодействовать с противниками и достигать целей в области кибербезопасности.Эти данные не подвергаются предварительной обработке.[385]
Учебники по взломуЭти данные не подвергаются предварительной обработке.[386]

Климат и устойчивость

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Отчеты TCFDБаза данных отчетов компаний, включающих раскрытие информации, связанной с TCFD.Эти данные не подвергаются предварительной обработке.Прямая ссылка на отчетыСписок тщательно отобранных отчетов[387]Центр знаний TCFD
Отчеты о корпоративной социальной ответственностиСписок отчетов об ответственности в Интернете.Эти данные не подвергаются предварительной обработке.Подборка отчетов[388]ОтветственностьОтчеты
Межправительственная группа экспертов по изменению климата (МГЭИК)Сборник комплексных оценочных отчетов о знаниях об изменении климата, его причинах, потенциальных последствиях и вариантах реагирования.Эти данные не подвергаются предварительной обработке.ОтчетыСписок отчетов, отобранных специально для вас[389]МГЭИК
Альянс по исследованиям в области корпоративной устойчивостиЭти данные не подвергаются предварительной обработке.Кураторский список постов блога[390]АРКС
ESG corpus: Центр знаний по учету устойчивого развитияЭти данные не подвергаются предварительной обработке.Руководства, тематические исследования, блоги, отчеты и опросы.[391]Мехра и др.
КЛИМАТИЧЕСКАЯ ЛИХОРАДКАНабор данных, созданный на основе методологии FEVER и состоящий из 1535 реальных заявлений об изменении климата, собранных в Интернете.Каждое утверждение сопровождается пятью вручную аннотированными предложениями-доказательствами, извлеченными из английской Википедии, которые подтверждают, опровергают или не дают достаточной информации для подтверждения утверждения, что в общей сложности составляет 7675 пар утверждение-доказательство. [392]Карточка HF набора данных и репозиторий проекта на GitHub.[393]Диггельманн и др.
Набор данных новостей о климатеНабор данных для исследователей НЛП и климатических изменений в СМИНабор данных состоит из ряда артефактов данных (текстовые файлы JSON, JSONL и CSV, а также база данных SQLite).База данных новостей о климате, репозиторий проекта на GitHub[394]ADGэффективность
КлиматтекстClimatext — это набор данных для обнаружения тем изменения климата на основе предложений.набор данных HF[395]Университет Цюриха
GreenBizСборник статей и новостей о климате и устойчивом развитииЭти данные не подвергаются предварительной обработке.Подборка статей о климатеПодборка статей об устойчивом развитии[396]
Лучшие исследовательские препринты в области климата и устойчивого развитияСписок препринтов исследователей из горячего списка ReutersЭти данные не подвергаются предварительной обработке.Тщательно подобранный список препринтов[397]Морис Тамман
АРКСЭти данные не подвергаются предварительной обработке.Подборка блогов по корпоративному устойчивому развитию[398]
GreenBizСайт со статьями о климате и устойчивом развитииЭти данные не подвергаются предварительной обработке.[399]GreenBiz
CSRWIREЭти данные не подвергаются предварительной обработке.Кураторский список статей[400]CSRWIRE
КДПСтатьи о климате, воде и лесахЭти данные не подвергаются предварительной обработке.[401]КДП

Код данных

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
СтекНабор данных объемом 3,1 ТБ, состоящий из разрешенного исходного кода на 30 языках программирования.Фильтрация посредством обнаружения лицензий и дедупликации.6 ТБ, 51,76 Б файлов (до дедупликации); 3 ТБ, 5,28 Б файлов (после). 358 языков программирования.ПаркетМоделирование языка, автодополнение, синтез программ.2022[402] [403]Д. Кочетков, Р. Ли, Л. Бен Аллаль, Л. фон Верра, Х. де Врис
Репозитории GitHubЭти данные не подвергаются предварительной обработке.Курируемый список репозиториев с GitHub : 61 62 63 64 65 66 67 68 69 70 71, 72, 73, 74, 75, 76, 77 101
Публичные репозитории IBM GitHubЭти данные не подвергаются предварительной обработке.Курируемый список репозиториев из GitHub
Публичные репозитории RedHat GitHubЭти данные не подвергаются предварительной обработке.Курируемый список репозиториев из GitHub
Файлы StackExchange Public Archive.orgЭти данные не подвергаются предварительной обработке.Подготовленный список файлов с Archive.org
Публичные репозитории GitlabЭти данные не подвергаются предварительной обработке.Список репозиториев, отобранных Gitlab : 1 2
Публичные репозитории коллекций AnsibleЭти данные не подвергаются предварительной обработке.Подготовленный список репозиториев с GitHub .
CodeParrot GitHub набор данных кодаЭти данные не подвергаются предварительной обработке.Список репозиториев от Hugging Face : 1 2 3 4 5 6 7 8 9 10
ОКДСообщество дистрибутивов Kubernetes, на котором работает Red Hat OpenShiftЭти данные не подвергаются предварительной обработке.Список GitHub-репозиториев проекта
OpenShiftУдобный для разработчиков и эксплуатации дистрибутив KubernetesСписок GitHub-репозиториев проекта
КубернетесЭти данные не подвергаются предварительной обработке.Список GitHub-репозиториев проекта
Разработчик Red HatGitHub — дом программы Red Hat DeveloperЭти данные не подвергаются предварительной обработке.Список GitHub-репозиториев проекта
Красная Шапочка

Мастер-классы

Эти данные не подвергаются предварительной обработке.Список GitHub-репозиториев проекта
Kubernetes SIGЭти данные не подвергаются предварительной обработке.Список GitHub-репозиториев проекта
КонвейерЭти данные не подвергаются предварительной обработке.Список GitHub-репозиториев проекта
Торговая площадка RedHatЭти данные не подвергаются предварительной обработке.Список GitHub-репозиториев проекта
Блог RedHatЭти данные не подвергаются предварительной обработке.[404]
Kubernetes ioЭти данные не подвергаются предварительной обработке.[405]
Документы OpenshiftЭти данные не подвергаются предварительной обработке.[406]
cncf ioЭти данные не подвергаются предварительной обработке.[407]
Презентации KubernetesСписок общедоступных презентаций KubernetesЭти данные не подвергаются предварительной обработке.канал передачи данных
Red Hat Open Innovation LabsThis data is not pre-processedList of GitHub repositories of the project
Red Hat DemosThis data is not pre-processedList of GitHub repositories of the project
Red Hat OpenShift OnlineThis data is not pre-processedList of GitHub repositories of the project
Software CollectionsThis data is not pre-processedList of GitHub repositories of the project
Red Hat InsightsThis data is not pre-processedList of GitHub repositories of the project
Red Hat GovernmentThis data is not pre-processedList of GitHub repositories of the project
Red Hat ConsultingThis data is not pre-processedList of GitHub repositories of the project
Red Hat Communities of PracticeThis data is not pre-processedList of GitHub repositories of the project
Red Hat Partner TechThis data is not pre-processedList of GitHub repositories of the project
Red Hat DocumentationThis data is not pre-processedList of GitHub repositories of the project
IBMThis data is not pre-processedList of GitHub repositories of the project
IBM CloudThis data is not pre-processedList of GitHub repositories of the project
Build Lab TeamThis data is not pre-processedList of GitHub repositories of the project
Terraform IBM ModulesThis data is not pre-processedList of GitHub repositories of the project
Cloud SchematicsThis data is not pre-processedList of GitHub repositories of the project
OCP Power DemosThis data is not pre-processedList of GitHub repositories of the project
IBM App Modernization This data is not pre-processedList of GitHub repositories of the project
Kubernetes OperatorHub This data is not pre-processedList of GitHub repositories of the project
Cloud Native Computing Foundation (CNCF) This data is not pre-processedList of GitHub repositories of the project
Operator FrameworkThis data is not pre-processedList of GitHub repositories of the project[408]
GitHub repositories referenced in artifacthub.ioThis data is not pre-processedList of GitHub repositories in artifacthub.io
Red Hat Communities of PracticeThis data is not pre-processedList of GitHub repositories of the project
Red Hat partnerThis data is not pre-processedList of GitHub repositories of the project
IBM RepositoriesThis data is not pre-processedList of GitHub repositories for the project
Build Lab TeamThis data is not pre-processedList of GitHub repositories for the project
Operator FrameworkThis data is not pre-processedList of GitHub repositories for the project
GitHub repositoriesThis data is not pre-processedList of GitHub repositories for the project
Red HatThis data is not pre-processedList of GitHub repositories of the project
Kubernetes PatternsThis data is not pre-processedList of GitHub repositories of the project
Kubernetes Deployment & Security PatternsThis data is not pre-processedList of GitHub repositories of the project
Kubernetes for Full-Stack DevelopersThis data is not pre-processedList of GitHub repositories of the project
Load Balancer Cloudwatch MetricsThis data is not pre-processedGitHub repository of the project
DynatraceThis data is not pre-processed[5]
AIOps Challenge 2020 DataThis data is not pre-processedGitHub repository of the project
LoghubThis data is not pre-processedList of repositories
HTML PagesThis data is not pre-processedList of HTML pages
Opensift ebooksThis data is not pre-processed[409]
Kubernetes ebooksThis data is not pre-processedKubernetes Patterns, Kubernetes Deployment, Kubernetes for Full-Stack Developers
Kubernetes for Full-Stack DevelopersThis data is not pre-processedKubernetes for Full-Stack Developers
List of public and licensed Github repositoriesThis data is not pre-processedList of repositories

Multivariate data

Financial

Dataset NameBrief descriptionPreprocessingInstancesFormatDefault TaskCreated (updated)ReferenceCreator
Dow Jones IndexWeekly data of stocks from the first and second quarters of 2011.Calculated values included such as percentage change and a lags.750Comma separated valuesClassification, regression, Time series2014[410][411]M. Brown et al.
Statlog (Australian Credit Approval)Credit card applications either accepted or rejected and attributes about the application.Attribute names are removed as well as identifying information. Factors have been relabeled.690Comma separated valuesClassification1987[412][413]R. Quinlan
eBay auction dataAuction data from various eBay.com objects over various length auctionsContains all bids, bidderID, bid times, and opening prices.~ 550TextRegression, classification2012[414][415]G. Shmueli et al.
Statlog (German Credit Data)Binary credit classification into "good" or "bad" with many featuresVarious financial features of each person are given.690TextClassification1994[416]H. Hofmann
Bank Marketing DatasetData from a large marketing campaign carried out by a large bank .Many attributes of the clients contacted are given. If the client subscribed to the bank is also given.45,211TextClassification2012[417][418]S. Moro et al.
Istanbul Stock Exchange DatasetSeveral stock indexes tracked for almost two years.None.536TextClassification, regression2013[419][420]O. Akbilgic
Default of Credit Card ClientsCredit default data for Taiwanese creditors.Various features about each account are given.30,000TextClassification2016[421][422]I. Yeh
StockNetStock movement prediction from tweets and historical stock pricesNoneTextNLP2018[423]Yumo Xu and Shay B. Cohen

Weather

Dataset NameBrief descriptionPreprocessingInstancesFormatDefault TaskCreated (updated)ReferenceCreator
Cloud DataSetData about 1024 different clouds.Image features extracted.1024TextClassification, clustering1989[424]P. Collard
El Nino DatasetOceanographic and surface meteorological readings taken from a series of buoys positioned throughout the equatorial Pacific.12 weather attributes are measured at each buoy.178080TextRegression1999[425]Pacific Marine Environmental Laboratory
Greenhouse Gas Observing Network DatasetTime-series of greenhouse gas concentrations at 2921 grid cells in California created using simulations of the weather.None.2921TextRegression2015[426]D. Lucas
Atmospheric CO2 from Continuous Air Samples at Mauna Loa ObservatoryContinuous air samples in Hawaii, USA. 44 years of records.None.44 yearsTextRegression2001[427]Mauna Loa Observatory
Ionosphere DatasetRadar data from the ionosphere. Task is to classify into good and bad radar returns.Many radar features given.351TextClassification1989[283][428]Johns Hopkins University
Ozone Level Detection DatasetTwo ground ozone level datasets.Many features given, including weather conditions at time of measurement.2536TextClassification2008[429][430]K. Zhang et al.

Census

Dataset NameBrief descriptionPreprocessingInstancesFormatDefault TaskCreated (updated)ReferenceCreator
Adult DatasetCensus data from 1994 containing demographic features of adults and their income.Cleaned and anonymized.48,842Comma separated valuesClassification1996[431]United States Census Bureau
Census-Income (KDD)Weighted census data from the 1994 and 1995 Current Population Surveys.Split into training and test sets.299,285Comma separated valuesClassification2000[432][433]United States Census Bureau
IPUMS Census DatabaseCensus data from the Los Angeles and Long Beach areas.None256,932TextClassification, regression1999[434]IPUMS
US Census Data 1990Partial data from 1990 US census.Results randomized and useful attributes selected.2,458,285TextClassification, regression1990[435]United States Census Bureau

Transit

Dataset NameBrief descriptionPreprocessingInstancesFormatDefault TaskCreated (updated)ReferenceCreator
Bike Sharing DatasetHourly and daily count of rental bikes in a large city.Many features, including weather, length of trip, etc., are given.17,389TextRegression2013[436][437]H. Fanaee-T
New York City Taxi Trip DataTrip data for yellow and green taxis in New York City.Gives pick up and drop off locations, fares, and other details of trips.6 yearsTextClassification, clustering2015[438]New York City Taxi and Limousine Commission
Taxi Service Trajectory ECML PKDDTrajectories of all taxis in a large city.Many features given, including start and stop points.1,710,671TextClustering, causal-discovery2015[439][440]M. Ferreira et al.
METR-LASpeed from loop detectors in the highway of Los Angeles County.Average speed in 5 minutes timesteps.7,094,304 from 207 sensors and 34,272 timestepsComma separated valuesRegression, Forecasting2014[441]Jagadish et al.
PeMSSpeed, flow, occupancy and other metrics from loop detectors and other sensors in the freeway of the State of California, U.S.A..Metric usually aggregated via Average into 5 minutes timesteps.39,000 individual detectors, each containing years of timeseriesComma separated valuesRegression, Forecasting, Nowcasting, Interpolation(updated realtime)[442]California Department of Transportation

Internet

Dataset NameBrief descriptionPreprocessingInstancesFormatDefault TaskCreated (updated)ReferenceCreator
Webpages from Common Crawl 2012Large collection of webpages and how they are connected via hyperlinksNone.3.5BTextclustering, classification2013[443]V. Granville
Internet Advertisements DatasetDataset for predicting if a given image is an advertisement or not.Features encode geometry of ads and phrases occurring in the URL.3279TextClassification1998[444][445]N. Kushmerick
Internet Usage DatasetGeneral demographics of internet users.None.10,104TextClassification, clustering1999[446]D. Cook
URL Dataset120 days of URL data from a large conference.Many features of each URL are given.2,396,130TextClassification2009[447][448]J. Ma
Phishing Websites DatasetDataset of phishing websites.Many features of each site are given.2456TextClassification2015[449]R. Mustafa et al.
Online Retail DatasetOnline transactions for a UK online retailer.Details of each transaction given.541,909TextClassification, clustering2015[450]D. Chen
Freebase Simple Topic DumpFreebase is an online effort to structure all human knowledge.Topics from Freebase have been extracted.largeTextClassification, clustering2011[451][452]Freebase
Farm Ads DatasetThe text of farm ads from websites. Binary approval or disapproval by content owners is given.SVMlight sparse vectors of text words in ads calculated.4143TextClassification2011[453][454]C. Masterharm et al.
The PileAssembling several large datasets of diverse and unstructured textsVarious (removing HTML and Javascript from websites, removing duplicated sentences)825 GiB English textJSON Lines[455][456]Natural Language Processing, Text Prediction2021[457][455]Gao et al.
OSCARLarge collection of monolingual corpora extracted from web data (Common Crawl dumps) covering 150+ languagesVarious (filtering, language classification, adult-content detection and other labelling)3.4 TB English text, 1.4 TB Chinese text, 1.1 TB Russian text, 595 MB German text, 431 MB French text, and data for 150+ languages (figures for version 23.01)JSON Lines[458]Natural Language Processing, Text Prediction2021[459][460]Ortiz Suarez, Abadji, Sagot et al.
OpenWebTextAn open-source recreation of the WebText corpus. The text is web content extracted from URLs shared on Reddit with at least three upvotes.Extracted non-HTML content, deduplicated, and tokenized.8,013,769 Documents, 38GBTextNatural Language Processing, Text Prediction2019[461][462]A. Gokaslan, V. Cohen
ROOTSA well-documented and representative multilingual dataset with the explicit goal of doing good for and by the people whose data was collected.Extracted non-HTML content, cleaned out UI and ads, deduplicated, removed PII, and tokenized.1.6 TB, 59 languages.ParquetNatural Language Processing, Text Prediction2022[463][464]H. Laurençon, L. Saulnier, T. Wang, C. Akiki, A. Villanova del Moral, T. Le Scao

Games

Dataset NameBrief descriptionPreprocessingInstancesFormatDefault TaskCreated (updated)ReferenceCreator
Poker Hand Dataset5 card hands from a standard 52 card deck.Attributes of each hand are given, including the Poker hands formed by the cards it contains.1,025,010TextRegression, classification2007[465]R. Cattral
Connect-4 DatasetContains all legal 8-ply positions in the game of connect-4 in which neither player has won yet, and in which the next move is not forced.None.67,557TextClassification1995[466]J. Tromp
Chess (King-Rook vs. King) DatasetEndgame Database for White King and Rook against Black King.None.28,056TextClassification1994[467][468]M. Bain et al.
Chess (King-Rook vs. King-Pawn) DatasetKing+Rook versus King+Pawn on a7.None.3196TextClassification1989[469]R. Holte
Tic-Tac-Toe Endgame DatasetBinary classification for win conditions in tic-tac-toe.None.958TextClassification1991[470]D. Aha

Other multivariate

Dataset NameBrief descriptionPreprocessingInstancesFormatDefault TaskCreated (updated)ReferenceCreator
Housing Data SetMedian home values of Boston with associated home and neighborhood attributes.None.506TextRegression1993[471]D. Harrison et al.
The Getty Vocabulariesstructured terminology for art and other material culture, archival materials, visual surrogates, and bibliographic materials.None.largeTextClassification2015[472]Getty Center
Yahoo! Front Page Today Module User Click LogUser click log for news articles displayed in the Featured Tab of the Today Module on Yahoo! Front Page.Conjoint analysis with a bilinear model.45,811,883 user visitsTextRegression, clustering2009[473][474]Chu et al.
British Oceanographic Data CentreBiological, chemical, physical and geophysical data for oceans. 22K variables tracked.Various.22K variables, many instancesTextRegression, clustering2015[475]British Oceanographic Data Centre
Congressional Voting Records DatasetVoting data for all USA representatives on 16 issues.Beyond the raw voting data, various other features are provided.435TextClassification1987[476]J. Schlimmer
Entree Chicago Recommendation DatasetRecord of user interactions with Entree Chicago recommendation system.Details of each user's usage of the app are recorded in detail.50,672TextRegression, recommendation2000[477]R. Burke
Insurance Company Benchmark (COIL 2000)Information on customers of an insurance company.Many features of each customer and the services they use.9,000TextRegression, classification2000[478][479]P. van der Putten
Nursery DatasetData from applicants to nursery schools.Data about applicant's family and various other factors included.12,960TextClassification1997[480][481]V. Rajkovic et al.
University DatasetData describing attributed of a large number of universities.None.285TextClustering, classification1988[482]S. Sounders et al.
Blood Transfusion Service Center DatasetData from blood transfusion service center. Gives data on donors return rate, frequency, etc.None.748TextClassification2008[483][484]I. Yeh
Record Linkage Comparison Patterns DatasetLarge dataset of records. Task is to link relevant records together.Blocking procedure applied to select only certain record pairs.5,749,132TextClassification2011[485][486]University of Mainz
Nomao DatasetNomao collects data about places from many different sources. Task is to detect items that describe the same place.Duplicates labeled.34,465TextClassification2012[487][488]Nomao Labs
Movie DatasetData for 10,000 movies.Several features for each movie are given.10,000TextClustering, classification1999[489]G. Wiederhold
Open University Learning Analytics DatasetInformation about students and their interactions with a virtual learning environment.None.~ 30,000TextClassification, clustering, regression2015[490][491]J. Kuzilek et al.
Mobile phone recordsTelecommunications activity and interactionsAggregation per geographical grid cells and every 15 minutes.largeTextClassification, Clustering, Regression2015[492]G. Barlacchi et al.

Curated repositories of datasets

As datasets come in myriad formats and can sometimes be difficult to use, there has been considerable work put into curating and standardizing the format of datasets to make them easier to use for machine learning research.

  • OpenML:[493] Web platform with Python, R, Java, and other APIs for downloading hundreds of machine learning datasets, evaluating algorithms on datasets, and benchmarking algorithm performance against dozens of other algorithms.
  • PMLB:[494] A large, curated repository of benchmark datasets for evaluating supervised machine learning algorithms. Provides classification and regression datasets in a standardized format that are accessible through a Python API.
  • Metatext NLP: https://metatext.io/datasets web repository maintained by community, containing nearly 1000 benchmark datasets, and counting. Provides many tasks from classification to QA, and various languages from English, Portuguese to Arabic.
  • Appen: Off The Shelf and Open Source Datasets hosted and maintained by the company. These biological, image, physical, question answering, signal, sound, text, and video resources number over 250 and can be applied to over 25 different use cases.[495][496]

See also

References

  1. ^ Wissner-Gross, A. "Datasets Over Algorithms". Edge.com. Retrieved 8 January 2016.
  2. ^ Weiss, G. M.; Provost, F. (October 2003). "Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction". Journal of Artificial Intelligence Research. 19: 315–354. doi:10.1613/jair.1199.
  3. ^ Abney, Steven (2007). Semisupervised Learning for Computational Linguistics. CRC Press. ISBN 978-1-4200-1080-0.[page needed]
  4. ^ Žliobaitė, Indrė; Bifet, Albert; Pfahringer, Bernhard; Holmes, Geoff (2011). "Active Learning with Evolving Streaming Data". Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science. Vol. 6913. pp. 597–612. doi:10.1007/978-3-642-23808-6_39. ISBN 978-3-642-23807-9.
  5. ^ James Bennett; Stan Lanning (12 August 2007). "The Netflix Prize" (PDF). Proceedings of KDD Cup and Workshop 2007. Archived from the original (PDF) on 27 September 2007. Retrieved 25 August 2007.
  6. ^ McAuley, Julian; Targett, Christopher; Shi, Qinfeng; Anton van den Hengel (2015). "Image-based Recommendations on Styles and Substitutes". arXiv:1506.04757 [cs.CV].
  7. ^ "Amazon review data". nijianmo.github.io. Retrieved 8 October 2021.
  8. ^ Ganesan, Kavita; Zhai, Chengxiang (2012). "Opinion-based entity ranking". Information Retrieval. 15 (2): 116–150. doi:10.1007/s10791-011-9174-8. hdl:2142/15252. S2CID 16258727.
  9. ^ Lv, Yuanhua; Lymberopoulos, Dimitrios; Wu, Qiang (2012). "An exploration of ranking heuristics in mobile local search". Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. pp. 295–304. doi:10.1145/2348283.2348325. ISBN 978-1-4503-1472-5.
  10. ^ Harper, F. Maxwell; Konstan, Joseph A. (2015). "The MovieLens Datasets: History and Context". ACM Transactions on Interactive Intelligent Systems. 5 (4): 19. doi:10.1145/2827872. S2CID 16619709.
  11. ^ Koenigstein, Noam; Dror, Gideon; Koren, Yehuda (2011). "Yahoo! Music recommendations: Modeling music ratings with temporal dynamics and item taxonomy". Proceedings of the fifth ACM conference on Recommender systems. pp. 165–172. doi:10.1145/2043932.2043964. ISBN 978-1-4503-0683-6.
  12. ^ McFee, Brian; Bertin-Mahieux, Thierry; Ellis, Daniel P.W.; Lanckriet, Gert R.G. (2012). "The million song dataset challenge". Proceedings of the 21st International Conference on World Wide Web. pp. 909–916. doi:10.1145/2187980.2188222. ISBN 978-1-4503-1230-1.
  13. ^ Bohanec, Marko, and Vladislav Rajkovic. "Knowledge acquisition and explanation for multi-attribute decision making." 8th Intl Workshop on Expert Systems and their Applications. 1988.
  14. ^ Tan, Peter J., and David L. Dowe. "MML inference of decision graphs with multi-way joins." Australian Joint Conference on Artificial Intelligence. 2002.
  15. ^ "Quantifying comedy on YouTube: why the number of o's in your LOL matter". Metatext NLP Database. Retrieved 26 October 2020.
  16. ^ Kim, Byung Joo (2012). "A Classifier for Big Data". Convergence and Hybrid Information Technology. Communications in Computer and Information Science. Vol. 310. pp. 505–512. doi:10.1007/978-3-642-32692-9_63. ISBN 978-3-642-32691-2.
  17. ^ Pérezgonzález, Jose D.; Gilbey, Andrew (2011). "Predicting Skytrax airport rankings from customer reviews". Journal of Airport Management. 5 (4): 335–339. doi:10.69554/RFZC4321.
  18. ^ Loh, Wei-Yin, and Yu-Shan Shih. "Split selection methods for classification trees." Statistica sinica(1997): 815–840.
  19. ^ Lim, Tjen-Sien; Loh, Wei-Yin; Shih, Yu-Shan (2000). "A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms". Machine Learning. 40 (3): 203–228. doi:10.1023/a:1007608224229. S2CID 17030953.
  20. ^ Nguyen, Kiet Van; Nguyen, Vu Duc; Nguyen, Phu X. V.; Truong, Tham T. H.; Nguyen, Ngan Luu-Thuy (2018). "UIT-VSFC: Vietnamese Students' Feedback Corpus for Sentiment Analysis". 2018 10th International Conference on Knowledge and Systems Engineering (KSE). pp. 19–24. doi:10.1109/KSE.2018.8573337. ISBN 978-1-5386-6113-0.
  21. ^ Ho, Vong Anh; Nguyen, Duong Huynh-Cong; Nguyen, Danh Hoang; Pham, Linh Thi-Van; Nguyen, Duc-Vu; Nguyen, Kiet Van; Nguyen, Ngan Luu-Thuy (2020). "Emotion Recognition for Vietnamese Social Media Text". Computational Linguistics. Communications in Computer and Information Science. Vol. 1215. pp. 319–333. arXiv:1911.09339. doi:10.1007/978-981-15-6168-9_27. ISBN 978-981-15-6167-2. S2CID 208202333.
  22. ^ Nhung Thi-Hong Nguyen, Phuong Ha-Dieu Phan, Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen (24 April 2021). "Vietnamese Open-domain Complaint Detection in E-Commerce Websites". arXiv:2104.11969 [cs.CL].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)
  23. ^ Phu Gia Hoang, Canh Duc Luu, Khanh Quoc Tran, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen (26 January 2023). "ViHOS: Hate Speech Spans Detection for Vietnamese". arXiv:2301.10186 [cs.CL].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)
  24. ^ Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014). "A Joint Model for Topic-Sentiment Evolution over Time". 2014 IEEE International Conference on Data Mining. IEEE. pp. 773–778. doi:10.1109/icdm.2014.82. ISBN 978-1-4799-4302-9.
  25. ^ Rose, Tony; Stevenson, Mark; Whitehead, Miles (2002). "The Reuters Corpus Volume 1-from Yesterday's News to Tomorrow's Language Resources". LREC. 2. S2CID 9239414.
  26. ^ Amini, Massih R.; Usunier, Nicolas; Goutte, Cyril (2009). "Learning from Multiple Partially Observed Views – an Application to Multilingual Text Categorization". Advances in Neural Information Processing Systems. 22: 28–36.
  27. ^ Liu, Ming; et al. (2015). "VRCA: a clustering algorithm for massive amount of texts". Proceedings of the 24th International Conference on Artificial Intelligence. AAAI Press. Archived from the original on 5 November 2021. Retrieved 6 August 2019.
  28. ^ Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, M. S.; Al-Rajeh, A (2008). "Automatic Arabic Text Classification". Proceedings of the 9th International Conference on the Statistical Analysis of Textual Data, Lyon, France.
  29. ^ "Relationship and Entity Extraction Evaluation Dataset: Dstl/re3d". GitHub. 17 December 2018.
  30. ^ "The Examiner – SpamClickBait Catalogue".
  31. ^ "A Million News Headlines".
  32. ^ "One Week of Global News Feeds".
  33. ^ Kulkarni, Rohit (2018), Reuters News-Wire Archive, Harvard Dataverse, doi:10.7910/DVN/XDB74W
  34. ^ "IrishTimes – the Waxy-Wany News".
  35. ^ "News Headlines Dataset For Sarcasm Detection". kaggle.com. Retrieved 27 April 2019.
  36. ^ Klimt, Bryan, and Yiming Yang. "Introducing the Enron Corpus." CEAS. 2004.
  37. ^ Kossinets, Gueorgi; Kleinberg, Jon; Watts, Duncan (2008). "The Structure of Information Pathways in a Social Communication Network". arXiv:0806.3201 [physics.soc-ph].
  38. ^ Androutsopoulos, Ion; Koutsias, John; Chandrinos, Konstantinos V.; Paliouras, George; Spyropoulos, Constantine D. (2000). "An evaluation of Naive Bayesian anti-spam filtering". In Potamias, G.; Moustakis, V.; van Someren, M. (eds.). Proceedings of the Workshop on Machine Learning in the New Information Age. 11th European Conference on Machine Learning, Barcelona, Spain. Vol. 11. pp. 9–17. arXiv:cs/0006013. Bibcode:2000cs........6013A.
  39. ^ Bratko, Andrej; et al. (2006). "Spam filtering using statistical data compression models" (PDF). The Journal of Machine Learning Research. 7: 2673–2698.
  40. ^ Almeida, Tiago A., José María G. Hidalgo, and Akebo Yamakami. "Contributions to the study of SMS spam filtering: new collection and results."Proceedings of the 11th ACM symposium on Document engineering. ACM, 2011.
  41. ^ Delany; Jane, Sarah; Buckley, Mark; Greene, Derek (2012). "SMS spam filtering: methods and data". Expert Systems with Applications. 39 (10): 9899–9908. doi:10.1016/j.eswa.2012.02.053. S2CID 15546924.
  42. ^ Joachims, Thorsten. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. No. CMU-CS-96-118. Carnegie-mellon univ pittsburgh pa dept of computer science, 1996.
  43. ^ Dimitrakakis, Christos, and Samy Bengio. Online Policy Adaptation for Ensemble Algorithms. No. EPFL-REPORT-82788. IDIAP, 2002.
  44. ^ Dooms, S. et al. "Movietweetings: a movie rating dataset collected from twitter, 2013. Available from https://github.com/sidooms/MovieTweetings."
  45. ^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2017). "Twitter100k: A Real-world Dataset for Weakly Supervised Cross-Media Retrieval". arXiv:1703.06618 [cs.CV].
  46. ^ "huyt16/Twitter100k". GitHub. Retrieved 26 March 2018.
  47. ^ Go, Alec; Bhayani, Richa; Huang, Lei (2009). "Twitter sentiment classification using distant supervision". CS224N Project Report, Stanford. 1: 12.
  48. ^ Chikersal, Prerna, Soujanya Poria, and Erik Cambria. "SeNTU: sentiment analysis of tweets by combining a rule-based classifier with supervised learning." Proceedings of the International Workshop on Semantic Evaluation, SemEval. 2015.
  49. ^ Zafarani, Reza, and Huan Liu. "Social computing data repository at ASU." School of Computing, Informatics and Decision Systems Engineering, Arizona State University (2009).
  50. ^ Data Science Course by DataTrained Education "IBM Certified Data Science Course." IBM Certified Online Data Science Course
  51. ^ McAuley, Julian J.; Leskovec, Jure. "Learning to Discover Social Circles in Ego Networks". NIPS. 2012: 2012.
  52. ^ Šubelj, Lovro; Fiala, Dalibor; Bajec, Marko (2014). "Network-based statistical comparison of citation topology of bibliographic databases". Scientific Reports. 4 (6496): 6496. arXiv:1502.05061. Bibcode:2014NatSR...4.6496S. doi:10.1038/srep06496. PMC 4178292. PMID 25263231.
  53. ^ Abdulla, N., et al. "Arabic sentiment analysis: Corpus-based and lexicon-based." Proceedings of the IEEE conference on Applied Electrical Engineering and Computing Technologies (AEECT). 2013.
  54. ^ Abooraig, Raddad; Al-Zu'bi, Shadi; Kanan, Tarek; Hawashin, Bilal; Al Ayoub, Mahmoud; Hmeidi, Ismail (June 2018). "Automatic categorization of Arabic articles based on their political orientation". Digital Investigation. 25: 24–41. doi:10.1016/j.diin.2018.04.003.
  55. ^ Kawala, François, et al. "Prédictions d'activité dans les réseaux sociaux en ligne." 4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques. 2013.
  56. ^ Sabharwal, Ashish; Samulowitz, Horst; Tesauro, Gerald (2015). "Selecting Near-Optimal Learners via Incremental Data Allocation". arXiv:1601.00024 [cs.LG].
  57. ^ Xu et al. "SemEval-2015 Task 1: Paraphrase and Semantic Similarity in Twitter (PIT)" Proceedings of the 9th International Workshop on Semantic Evaluation. 2015.
  58. ^ Xu et al. "Extracting Lexically Divergent Paraphrases from Twitter" Transactions of the Association for Computational (TACL). 2014.
  59. ^ Middleton, Stuart E; Middleton, Lee; Modafferi, Stefano (2014). "Real-Time Crisis Mapping of Natural Disasters Using Social Media" (PDF). IEEE Intelligent Systems. 29 (2): 9–17. doi:10.1109/MIS.2013.126. S2CID 15139204.
  60. ^ "geoparsepy". 2016. Python PyPI library
  61. ^ Shmueli, Boaz; Ku, Lun-Wei; Ray, Soumya (2020). "Reactive Supervision: A New Method for Collecting Sarcasm Data". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics. pp. 2553–2559. doi:10.18653/v1/2020.emnlp-main.201. S2CID 221970454.
  62. ^ Shmueli, Boaz. "SPIRS Sarcasm Dataset". GitHub.
  63. ^ Gupta, Aakash (2020). "Dutch social media collection". COVID-19 Data Hub. doi:10.5072/FK2/MTPTL7. Retrieved 11 November 2023.
  64. ^ "Streamlit". huggingface.co. Retrieved 18 December 2020.
  65. ^ "Dutch Social media collection". kaggle.com. Retrieved 18 December 2020.
  66. ^ Shmueli, Boaz; Ray, Soumya; Lun-Wei (2021). "Happy Dance, Slow Clap: Using Reaction GIFs to Predict Induced Affect on Twitter". Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). Vol. Association for Computational Linguistics. As. pp. 395–401. doi:10.18653/v1/2021.acl-short.50. S2CID 235125510.
  67. ^ Shmueli, Boaz (5 May 2023), ReactionGIF, retrieved 6 October 2023
  68. ^ Forsyth, E., Lin, J., & Martell, C. (2008, June 25). The NPS Chat Corpus. Retrieved from http://faculty.nps.edu/cmartell/NPSChat.htm
  69. ^ Sordoni, Alessandro; Galley, Michel; Auli, Michael; Brockett, Chris; Ji, Yangfeng; Mitchell, Margaret; Nie, Jian-Yun; Gao, Jianfeng; Dolan, Bill (2015). "A Neural Network Approach to Context-Sensitive Generation of Conversational Responses". arXiv:1506.06714 [cs.CL].
  70. ^ Shaoul, C. & Westbury C. (2013) A reduced redundancy USENET corpus (2005–2011) Edmonton, AB: University of Alberta (downloaded from http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html)
  71. ^ KAN, M. (2011, January). NUS Short Message Service (SMS) Corpus. Retrieved from http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/ Archived 29 June 2018 at the Wayback Machine
  72. ^ Stuck_In_the_Matrix. (2015, July 3). I have every publicly available Reddit comment for research. ~ 1.7 billion comments @ 250 GB compressed. Any interest in this? [Original post]. Message posted to https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
  73. ^ Lowe, Ryan; Pow, Nissan; Serban, Iulian; Pineau, Joelle (2015). "The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems". arXiv:1506.08909 [cs.CL].
  74. ^ Jason Williams Antoine Raux Matthew Henderson, "[1]", Dialogue & Discourse | April 2016 .
  75. ^ Hoppe, Travis (16 December 2021), The-Pile-FreeLaw, retrieved 11 January 2023
  76. ^ Zheng, Lucia; Guha, Neel; Anderson, Brandon R.; Henderson, Peter; Ho, Daniel E. (21 June 2021). "When does pretraining help?". Proceedings of the Eighteenth International Conference on Artificial Intelligence and Law. New York, NY, USA: ACM. pp. 159–168. doi:10.1145/3462757.3466088. ISBN 9781450385268. S2CID 233296302.
  77. ^ "pile-of-law/pile-of-law · Datasets at Hugging Face". huggingface.co. 4 July 2022. Retrieved 11 January 2023.
  78. ^ "About | Caselaw Access Project". case.law. Retrieved 11 January 2023.
  79. ^ K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "HDLTex: Hierarchical Deep Learning for Text Classification", 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA), pp. 364–371. doi:10.1109/ICMLA.2017.0-134
  80. ^ K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "Web of Science Dataset", doi:10.17632/9rw3vkcfy4.6
  81. ^ Galgani, Filippo, Paul Compton, and Achim Hoffmann. "Combining different summarization techniques for legal text." Proceedings of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data. Association for Computational Linguistics, 2012.
  82. ^ Nagwani, N. K. (2015). "Summarizing large text collection using topic modeling and clustering based on MapReduce framework". Journal of Big Data. 2 (1): 1–18. doi:10.1186/s40537-015-0020-5.
  83. ^ Schler, Jonathan; et al. (2006). "Effects of Age and Gender on Blogging" (PDF). AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 6. Archived from the original (PDF) on 14 November 2020. Retrieved 6 August 2019.
  84. ^ Anand, Pranav, et al. "Believe Me-We Can Do This! Annotating Persuasive Acts in Blog Text."Computational Models of Natural Argument. 2011.
  85. ^ Traud, Amanda L., Peter J. Mucha, and Mason A. Porter. "Social structure of Facebook networks." Physica A: Statistical Mechanics and its Applications391.16 (2012): 4165–4180.
  86. ^ Richard, Emile; Savalle, Pierre-Andre; Vayatis, Nicolas (2012). "Estimation of Simultaneously Sparse and Low Rank Matrices". arXiv:1206.6474 [cs.DS].
  87. ^ Richardson, Matthew; Burges, Christopher JC; Renshaw, Erin (2013). "MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text". EMNLP. 1.
  88. ^ Weston, Jason; Bordes, Antoine; Chopra, Sumit; Rush, Alexander M.; Bart van Merriënboer; Joulin, Armand; Mikolov, Tomas (2015). "Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks". arXiv:1502.05698 [cs.AI].
  89. ^ Marcus, Mitchell P.; Ann Marcinkiewicz, Mary; Santorini, Beatrice (1993). "Building a large annotated corpus of English: The Penn Treebank". Computational Linguistics. 19 (2): 313–330.
  90. ^ Collins, Michael (2003). "Head-driven statistical models for natural language parsing". Computational Linguistics. 29 (4): 589–637. doi:10.1162/089120103322753356.
  91. ^ Guyon, Isabelle, et al., eds. Feature extraction: foundations and applications. Vol. 207. Springer, 2008.
  92. ^ Lin, Yuri, et al. "Syntactic annotations for the google books ngram corpus." Proceedings of the ACL 2012 system demonstrations. Association for Computational Linguistics, 2012.
  93. ^ Krishnamoorthy, Niveda; et al. (2013). "Generating Natural-Language Video Descriptions Using Text-Mined Knowledge". AAAI. 1. Archived from the original on 6 August 2019. Retrieved 6 August 2019.
  94. ^ Luyckx, Kim; Daelemans, Walter (2008). "Personae: a corpus for author and personality prediction from text". Proceedings of LREC-2008, the Sixth International Language Resources and Evaluation Conference. hdl:10067/687330151162165141. ISBN 978-2-9517408-4-6.
  95. ^ Solorio, Thamar, Ragib Hasan, and Mainul Mizan. "A case study of sockpuppet detection in wikipedia." Workshop on Language Analysis in Social Media (LASM) at NAACL HLT. 2013.
  96. ^ "Pushshift Files". files.pushshift.io. Archived from the original on 12 January 2023. Retrieved 12 January 2023.
  97. ^ Baumgartner, Jason; Zannettou, Savvas; Keegan, Brian; Squire, Megan; Blackburn, Jeremy (23 January 2020). "The Pushshift Reddit Dataset". arXiv:2001.08435 [cs.SI].
  98. ^ Ciarelli, Patrick Marques; Oliveira, Elias (2009). "Agglomeration and Elimination of Terms for Dimensionality Reduction". 2009 Ninth International Conference on Intelligent Systems Design and Applications. pp. 547–552. doi:10.1109/ISDA.2009.9. ISBN 978-1-4244-4735-0.
  99. ^ Zhou, Mingyuan; Padilla, Oscar Hernan Madrid; Scott, James G. (2 July 2016). "Priors for Random Count Matrices Derived from a Family of Negative Binomial Processes". Journal of the American Statistical Association. 111 (515): 1144–1156. arXiv:1404.3331. doi:10.1080/01621459.2015.1075407.
  100. ^ Kotzias, Dimitrios, et al. "From group to individual labels using deep features." Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2015.
  101. ^ Ning, Yue; Muthiah, Sathappan; Rangwala, Huzefa; Ramakrishnan, Naren (2016). "Modeling Precursors for Event Forecasting via Nested Multi-Instance Learning". arXiv:1602.08033 [cs.SI].
  102. ^ Buza, Krisztian. "Feedback prediction for blogs."Data analysis, machine learning and knowledge discovery. Springer International Publishing, 2014. 145–152.
  103. ^ Soysal, Ömer M (2015). "Association rule mining with mostly associated sequential patterns". Expert Systems with Applications. 42 (5): 2582–2592. doi:10.1016/j.eswa.2014.10.049.
  104. ^ Zhu, Yukun, et al. "Aligning books and movies: Towards story-like visual explanations by watching movies and reading books." Proceedings of the IEEE international conference on computer vision. 2015.
  105. ^ Bowman, Samuel R.; Angeli, Gabor; Potts, Christopher; Manning, Christopher D. (2015). "A large annotated corpus for learning natural language inference". arXiv:1508.05326 [cs.CL].
  106. ^ "DSL Corpus Collection". ttg.uni-saarland.de. Retrieved 22 September 2017.
  107. ^ "Urban Dictionary Words and Definitions".
  108. ^ H. Elsahar, P. Vougiouklis, A. Remaci, C. Gravier, J. Hare, F. Laforest, E. Simperl, "T-REx: A Large Scale Alignment of Natural Language with Knowledge Base Triples", Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018).
  109. ^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel R. (2018). "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". arXiv:1804.07461 [cs.CL].
  110. ^ "Computers Are Learning to Read—But They're Still Not So Smart". Wired. Retrieved 29 December 2019.
  111. ^ "GLUE Benchmark". gluebenchmark.com. Retrieved 25 February 2019.
  112. ^ Quan, Hoang Lam; Quang, Duy Le; Van Kiet, Nguyen; Ngan, Luu-Thuy Nguyen. "UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning".
  113. ^ To, Quoc Huy; Nguyen, Van Kiet; Nguyen, Luu Thuy Ngan; Nguyen, Gia Tuan Anh (2020). "Gender Prediction Based on Vietnamese Names with Machine Learning Techniques". Proceedings of the 4th International Conference on Natural Language Processing and Information Retrieval. pp. 55–60. arXiv:2010.10852. doi:10.1145/3443279.3443309. ISBN 9781450377607. S2CID 224814110.
  114. ^ Nguyen, Luan Thanh; Van Nguyen, Kiet; Nguyen, Ngan Luu-Thuy (18 March 2021). "Constructive and Toxic Speech Detection for Open-Domain Social Media Comments in Vietnamese". Advances and Trends in Artificial Intelligence. Artificial Intelligence Practices. Lecture Notes in Computer Science. Vol. 12798. pp. 572–583. arXiv:2103.10069. doi:10.1007/978-3-030-79457-6_49. ISBN 978-3-030-79456-9. S2CID 232269671.
  115. ^ Saxton, David, et al. "Analysing Mathematical Reasoning Abilities of Neural Models." International Conference on Learning Representations. 2018.
  116. ^ Godfrey, J.J.; Holliman, E.C.; McDaniel, J. (1992). "SWITCHBOARD: Telephone speech corpus for research and development". [Proceedings] ICASSP-92: 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing. IEEE. pp. 517-520 vol.1. doi:10.1109/icassp.1992.225858. ISBN 0-7803-0532-9.
  117. ^ "Switchboard-1 Release 2 - Linguistic Data Consortium". catalog.ldc.upenn.edu. Retrieved 30 November 2024.
  118. ^ Godfrey, J.J.; Holliman, E.C.; McDaniel, J. (1992). "SWITCHBOARD: Telephone speech corpus for research and development". [Proceedings] ICASSP-92: 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing. IEEE. pp. 517-520 vol.1. doi:10.1109/icassp.1992.225858. ISBN 0-7803-0532-9.
  119. ^ "Switchboard-1 Release 2 - Linguistic Data Consortium". catalog.ldc.upenn.edu. Retrieved 30 November 2024.
  120. ^ M. Versteegh, R. Thiollière, T. Schatz, X.-N. Cao, X. Anguera, A. Jansen, and E. Dupoux (2015). "The Zero Resource Speech Challenge 2015," in INTERSPEECH-2015.
  121. ^ M. Versteegh, X. Anguera, A. Jansen, and E. Dupoux, (2016). "The Zero Resource Speech Challenge 2015: Proposed Approaches and Results," in SLTU-2016.
  122. ^ Sakar, Betul Erdogdu; et al. (2013). "Collection and analysis of a Parkinson speech dataset with multiple types of sound recordings". IEEE Journal of Biomedical and Health Informatics. 17 (4): 828–834. doi:10.1109/jbhi.2013.2245674. PMID 25055311. S2CID 15491516.
  123. ^ Zhao, Shunan; Rudzicz, Frank; Carvalho, Leonardo G.; Marquez-Chin, Cesar; Livingstone, Steven (2014). "Automatic detection of expressed emotion in Parkinson's Disease". 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). pp. 4813–4817. doi:10.1109/ICASSP.2014.6854516. ISBN 978-1-4799-2893-4.
  124. ^ Hammami, Nacereddine; Bedda, Mouldi (July 2010). "Improved tree model for arabic speech recognition". 2010 3rd International Conference on Computer Science and Information Technology. pp. 521–526. doi:10.1109/ICCSIT.2010.5563892. ISBN 978-1-4244-5537-9.
  125. ^ Maaten, Laurens. "Learning discriminative fisher kernels." Proceedings of the 28th International Conference on Machine Learning (ICML-11). 2011.
  126. ^ Cole, Ronald, and Mark Fanty. "Spoken letter recognition." Proc. Third DARPA Speech and Natural Language Workshop. 1990.
  127. ^ Chapelle, Olivier; Sindhwani, Vikas; Keerthi, Sathiya S. (2008). "Optimization techniques for semi-supervised support vector machines" (PDF). The Journal of Machine Learning Research. 9: 203–233.
  128. ^ Kudo, Mineichi; Toyama, Jun; Shimbo, Masaru (November 1999). "Multidimensional curve classification using passing-through regions". Pattern Recognition Letters. 20 (11–13): 1103–1111. Bibcode:1999PaReL..20.1103K. doi:10.1016/s0167-8655(99)00077-x.
  129. ^ Jaeger, Herbert; Lukoševičius, Mantas; Popovici, Dan; Siewert, Udo (April 2007). "Optimization and applications of echo state networks with leaky- integrator neurons". Neural Networks. 20 (3): 335–352. doi:10.1016/j.neunet.2007.04.016. PMID 17517495.
  130. ^ Tsanas, A.; Little, M.A.; McSharry, P.E.; Ramig, L.O. (April 2010). "Accurate Telemonitoring of Parkinson's Disease Progression by Noninvasive Speech Tests". IEEE Transactions on Biomedical Engineering. 57 (4): 884–893. doi:10.1109/tbme.2009.2036000. PMID 19932995.
  131. ^ Clifford, Gari D.; Clifton, David (2012). "Wireless technology in disease management and medicine". Annual Review of Medicine. 63: 479–492. doi:10.1146/annurev-med-051210-114650. PMID 22053737.
  132. ^ Zue, Victor; Seneff, Stephanie; Glass, James (1990). "Speech database development at MIT: TIMIT and beyond". Speech Communication. 9 (4): 351–356. doi:10.1016/0167-6393(90)90010-7.
  133. ^ Kapadia, S.; Valtchev, V.; Young, S.J. (1993). "MMI training for continuous phoneme recognition on the TIMIT database". IEEE International Conference on Acoustics Speech and Signal Processing. pp. 491-494 vol.2. doi:10.1109/ICASSP.1993.319349. ISBN 0-7803-0946-4.
  134. ^ Halabi, Nawar (2016). Modern Standard Arabic Phonetics for Speech Synthesis (PDF) (PhD Thesis). University of Southampton, School of Electronics and Computer Science.
  135. ^ Ardila, Rosana; Branson, Megan; Davis, Kelly; Henretty, Michael; Kohler, Michael; Meyer, Josh; Morais, Reuben; Saunders, Lindsay; Tyers, Francis M.; Weber, Gregor (13 December 2019). "Common Voice: A Massively-Multilingual Speech Corpus". arXiv:1912.06670v2 [cs.CL].
  136. ^ "The LJ Speech Dataset". keithito.com. Retrieved 13 April 2022.
  137. ^ Ghandoura, Abdulkader; Hjabo, Farouk; Al Dakkak, Oumayma (June 2021). "Building and benchmarking an Arabic Speech Commands dataset for small-footprint keyword spotting". Engineering Applications of Artificial Intelligence. 102: 104267. doi:10.1016/j.engappai.2021.104267.
  138. ^ Zhou, Fang; Claire, Q.; King, Ross D. (2014). "Predicting the Geographical Origin of Music". 2014 IEEE International Conference on Data Mining. pp. 1115–1120. doi:10.1109/ICDM.2014.73. ISBN 978-1-4799-4302-9.
  139. ^ Saccenti, Edoardo; Camacho, José (2015). "On the use of the observation-wise k-fold operation in PCA cross-validation". Journal of Chemometrics. 29 (8): 467–478. doi:10.1002/cem.2726. hdl:10481/55302. S2CID 62248957.
  140. ^ Bertin-Mahieux, Thierry, et al. "The million song dataset." ISMIR 2011: Proceedings of the 12th International Society for Music Information Retrieval Conference, 24–28 October 2011, Miami, Florida. University of Miami, 2011.
  141. ^ Henaff, Mikael; et al. (2011). "Unsupervised learning of sparse features for scalable audio classification" (PDF). ISMIR. 11.
  142. ^ Rafii, Zafar (2017). "Music". MUSDB18 – a corpus for music separation. doi:10.5281/zenodo.1117372.
  143. ^ Defferrard, Michaël; Benzi, Kirell; Vandergheynst, Pierre; Bresson, Xavier (6 December 2016). "FMA: A Dataset For Music Analysis". arXiv:1612.01840 [cs.SD].
  144. ^ Esposito, Roberto; Radicioni, Daniele P. (2009). "Carpediem: Optimizing the viterbi algorithm and applications to supervised sequential learning" (PDF). The Journal of Machine Learning Research. 10: 1851–1880.
  145. ^ Sourati, Jamshid; et al. (2016). "Classification Active Learning Based on Mutual Information". Entropy. 18 (2): 51. Bibcode:2016Entrp..18...51S. doi:10.3390/e18020051.
  146. ^ Salamon, Justin; Jacoby, Christopher; Bello, Juan Pablo. "A dataset and taxonomy for urban sound research." Proceedings of the ACM International Conference on Multimedia. ACM, 2014.
  147. ^ Lagrange, Mathieu; Lafay, Grégoire; Rossignol, Mathias; Benetos, Emmanouil; Roebel, Axel (2015). "An evaluation framework for event detection using a morphological model of acoustic scenes". arXiv:1502.00141 [stat.ML].
  148. ^ Gemmeke, Jort F., et al. "Audio Set: An ontology and human-labeled dataset for audio events." IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2017.
  149. ^ "Watch out, birders: Artificial intelligence has learned to spot birds from their songs". Science | AAAS. 18 July 2018. Retrieved 22 July 2018.
  150. ^ "Bird Audio Detection challenge". Machine Listening Lab at Queen Mary University. 3 May 2016. Retrieved 22 July 2018.
  151. ^ Wichern, Gordon; Antognini, Joe; Flynn, Michael; Licheng Richard Zhu; McQuinn, Emmett; Crow, Dwight; Manilow, Ethan; Jonathan Le Roux (2019). "WHAM!: Extending Speech Separation to Noisy Environments". arXiv:1907.01160 [cs.SD].
  152. ^ Drossos, K., Lipping, S., and Virtanen, T. "Clotho: An Audio Captioning Dataset" IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2020.
  153. ^ Drossos, K., Lipping, S., and Virtanen, T. (2019). Clotho dataset (Version 1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.3490684
  154. ^ The CAIDA UCSD Dataset on the Witty Worm – 19–24 March 2004, http://www.caida.org/data/passive/witty_worm_dataset.xml
  155. ^ Chen, Zesheng; Ji, Chuanyi (2007). "Optimal worm-scanning method using vulnerable-host distributions". International Journal of Security and Networks. 2 (1/2): 71. doi:10.1504/IJSN.2007.012826.
  156. ^ Kachuee, Mohamad; Kiani, Mohammad Mahdi; Mohammadzade, Hoda; Shabany, Mahdi (2015). "Cuff-less high-accuracy calibration-free blood pressure estimation using pulse transit time". 2015 IEEE International Symposium on Circuits and Systems (ISCAS). pp. 1006–1009. doi:10.1109/ISCAS.2015.7168806. ISBN 978-1-4799-8391-9.
  157. ^ Goldberger, Ary L.; Amaral, Luis A. N.; Glass, Leon; Hausdorff, Jeffrey M.; Ivanov, Plamen Ch.; Mark, Roger G.; Mietus, Joseph E.; Moody, George B.; Peng, Chung-Kang; Stanley, H. Eugene (13 June 2000). "PhysioBank, PhysioToolkit, and PhysioNet: Components of a New Research Resource for Complex Physiologic Signals". Circulation. 101 (23): E215-20. doi:10.1161/01.CIR.101.23.e215. PMID 10851218.
  158. ^ Vergara, Alexander; et al. (2012). "Chemical gas sensor drift compensation using classifier ensembles". Sensors and Actuators B: Chemical. 166: 320–329. Bibcode:2012SeAcB.166..320V. doi:10.1016/j.snb.2012.01.074.
  159. ^ Korotcenkov, G.; Cho, B. K. (2014). "Engineering approaches to improvement of conductometric gas sensor parameters. Part 2: Decrease of dissipated (consumable) power and improvement stability and reliability". Sensors and Actuators B: Chemical. 198: 316–341. Bibcode:2014SeAcB.198..316K. doi:10.1016/j.snb.2014.03.069.
  160. ^ Quinlan, John R (1992). "Learning with continuous classes" (PDF). 5th Australian Joint Conference on Artificial Intelligence. 92.
  161. ^ Merz, Christopher J.; Pazzani, Michael J. (1999). "A principal components approach to combining regression estimates". Machine Learning. 36 (1–2): 9–32. doi:10.1023/a:1007507221352.
  162. ^ Torres-Sospedra, Joaquin, et al. "UJIIndoorLoc-Mag: A new database for magnetic field-based localization problems." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. IEEE, 2015.
  163. ^ Berkvens, Rafael, Maarten Weyn, and Herbert Peremans. "Mean Mutual Information of Probabilistic Wi-Fi Localization." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. Banff, Canada: IPIN. 2015.
  164. ^ Paschke, Fabian, et al. "Sensorlose Zustandsüberwachung an Synchronmotoren."Proceedings. 23. Workshop Computational Intelligence, Dortmund, 5.-6. Dezember 2013. KIT Scientific Publishing, 2013.
  165. ^ Lessmeier, Christian, et al. "Data Acquisition and Signal Analysis from Measured Motor Currents for Defect Detection in Electromechanical Drive Systems."
  166. ^ Ugulino, Wallace, et al. "Wearable computing: Accelerometers’ data classification of body postures and movements Archived 25 September 2020 at the Wayback Machine." Advances in Artificial Intelligence-SBIA 2012. Springer Berlin Heidelberg, 2012. 52–61.
  167. ^ Schneider, Jan; et al. (2015). "Augmenting the senses: a review on sensor-based learning support". Sensors. 15 (2): 4097–4133. Bibcode:2015Senso..15.4097S. doi:10.3390/s150204097. PMC 4367401. PMID 25679313.
  168. ^ Madeo, Renata CB, Clodoaldo AM Lima, and Sarajane M. Peres. "Gesture unit segmentation using support vector machines: segmenting gestures from rest positions." Proceedings of the 28th Annual ACM Symposium on Applied Computing. ACM, 2013.
  169. ^ Lun, Roanna; Zhao, Wenbing (2015). "A survey of applications and human motion recognition with Microsoft Kinect". International Journal of Pattern Recognition and Artificial Intelligence. 29 (5): 1555008. doi:10.1142/s0218001415550083.
  170. ^ Theodoridis, Theodoros; Huosheng Hu (2007). "Action classification of 3D human models using dynamic ANNs for mobile robot surveillance". 2007 IEEE International Conference on Robotics and Biomimetics (ROBIO). pp. 371–376. doi:10.1109/ROBIO.2007.4522190. ISBN 978-1-4244-1761-2.
  171. ^ Etemad, Seyed Ali; Arya, Ali (2009). "3D human action recognition and style transformation using resilient backpropagation neural networks". 2009 IEEE International Conference on Intelligent Computing and Intelligent Systems. pp. 296–301. doi:10.1109/ICICISYS.2009.5357690. ISBN 978-1-4244-4754-1.
  172. ^ Altun, Kerem; Barshan, Billur; Tunçel, Orkun (2010). "Comparative study on classifying human activities with miniature inertial and magnetic sensors". Pattern Recognition. 43 (10): 3605–3620. Bibcode:2010PatRe..43.3605A. doi:10.1016/j.patcog.2010.04.019. hdl:11693/11947.
  173. ^ Nathan, Ran; et al. (2012). "Using tri-axial acceleration data to identify behavioral modes of free-ranging animals: general concepts and tools illustrated for griffon vultures". The Journal of Experimental Biology. 215 (6): 986–996. Bibcode:2012JExpB.215..986N. doi:10.1242/jeb.058602. PMC 3284320. PMID 22357592.
  174. ^ Anguita, Davide, et al. "Human activity recognition on smartphones using a multiclass hardware-friendly support vector machine." Ambient assisted living and home care. Springer Berlin Heidelberg, 2012. 216–223.
  175. ^ Su, Xing; Tong, Hanghang; Ji, Ping (2014). "Activity recognition with smartphone sensors". Tsinghua Science and Technology. 19 (3): 235–249. doi:10.1109/tst.2014.6838194. S2CID 62751498.
  176. ^ Kadous, Mohammed Waleed. Temporal classification: Extending the classification paradigm to multivariate time series. Diss. The University of New South Wales, 2002.
  177. ^ Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Proceedings of the 23rd international conference on Machine learning. ACM, 2006.
  178. ^ Velloso, Eduardo, et al. "Qualitative activity recognition of weight lifting exercises."Proceedings of the 4th Augmented Human International Conference. ACM, 2013.
  179. ^ Mortazavi, Bobak Jack, et al. "Determining the single best axis for exercise repetition recognition and counting on smartwatches Archived 4 November 2021 at the Wayback Machine." Wearable and Implantable Body Sensor Networks (BSN), 2014 11th International Conference on. IEEE, 2014.
  180. ^ Sapsanis, Christos, et al. "Improving EMG based Classification of basic hand movements using EMD." Engineering in Medicine and Biology Society (EMBC), 2013 35th Annual International Conference of the IEEE. IEEE, 2013.
  181. ^ a b Andrianesis, Konstantinos; Tzes, Anthony (2015). "Development and control of a multifunctional prosthetic hand with shape memory alloy actuators". Journal of Intelligent & Robotic Systems. 78 (2): 257–289. doi:10.1007/s10846-014-0061-6. S2CID 207174078.
  182. ^ Banos, Oresti; et al. (2014). "Dealing with the effects of sensor displacement in wearable activity recognition". Sensors. 14 (6): 9995–10023. Bibcode:2014Senso..14.9995B. doi:10.3390/s140609995. PMC 4118358. PMID 24915181.
  183. ^ Stisen, Allan; Blunck, Henrik; Bhattacharya, Sourav; Prentow, Thor Siiger; Kjærgaard, Mikkel Baun; Dey, Anind; Sonne, Tobias; Jensen, Mads Møller (2015). "Smart Devices are Different: Assessing and MitigatingMobile Sensing Heterogeneities for Activity Recognition". Proceedings of the 13th ACM Conference on Embedded Networked Sensor Systems. pp. 127–140. doi:10.1145/2809695.2809718. ISBN 978-1-4503-3631-4.
  184. ^ Bhattacharya, Sourav; Lane, Nicholas D. (2016). "From smart to deep: Robust activity recognition on smartwatches using deep learning". 2016 IEEE International Conference on Pervasive Computing and Communication Workshops (PerCom Workshops). pp. 1–6. doi:10.1109/PERCOMW.2016.7457169. ISBN 978-1-5090-1941-0.
  185. ^ Bacciu, Davide; et al. (2014). "An experimental characterization of reservoir computing in ambient assisted living applications". Neural Computing and Applications. 24 (6): 1451–1464. doi:10.1007/s00521-013-1364-4. hdl:11568/237959. S2CID 14124013.
  186. ^ Palumbo, Filippo; Barsocchi, Paolo; Gallicchio, Claudio; Chessa, Stefano; Micheli, Alessio (2013). "Multisensor Data Fusion for Activity Recognition Based on Reservoir Computing". Evaluating AAL Systems Through Competitive Benchmarking. Communications in Computer and Information Science. Vol. 386. pp. 24–35. doi:10.1007/978-3-642-41043-7_3. ISBN 978-3-642-41042-0.
  187. ^ Reiss, Attila; Stricker, Didier (2012). "Introducing a New Benchmarked Dataset for Activity Monitoring". 2012 16th International Symposium on Wearable Computers. pp. 108–109. doi:10.1109/ISWC.2012.13. ISBN 978-0-7695-4697-1.
  188. ^ Roggen, Daniel; Forster, Kilian; Calatroni, Alberto; Holleczek, Thomas; Fang, Yu; Troster, Gerhard; Ferscha, Alois; Holzmann, Clemens; Riener, Andreas; Lukowicz, Paul; Pirkl, Gerald; Bannach, David; Kunze, Kai; Chavarriaga, Ricardo; Millan, Jose del R. (2009). "OPPORTUNITY: Towards opportunistic activity and context recognition systems". 2009 IEEE International Symposium on a World of Wireless, Mobile and Multimedia Networks & Workshops. pp. 1–6. doi:10.1109/WOWMOM.2009.5282442. ISBN 978-1-4244-4440-3.
  189. ^ Kurz, Marc, et al. "Dynamic quantification of activity recognition capabilities in opportunistic systems." Vehicular Technology Conference (VTC Spring), 2011 IEEE 73rd. IEEE, 2011.
  190. ^ Sztyler, Timo; Stuckenschmidt, Heiner (2016). "On-body localization of wearable devices: An investigation of position-aware activity recognition". 2016 IEEE International Conference on Pervasive Computing and Communications (PerCom). pp. 1–9. doi:10.1109/PERCOM.2016.7456521. ISBN 978-1-4673-8779-8.
  191. ^ Zhi, Ying Xuan; Lukasik, Michelle; Li, Michael H.; Dolatabadi, Elham; Wang, Rosalie H.; Taati, Babak (2018). "Automatic Detection of Compensation During Robotic Stroke Rehabilitation Therapy". IEEE Journal of Translational Engineering in Health and Medicine. 6: 1–7. doi:10.1109/JTEHM.2017.2780836. PMC 5788403. PMID 29404226.
  192. ^ Dolatabadi, Elham; Zhi, Ying Xuan; Ye, Bing; Coahran, Marge; Lupinacci, Giorgia; Mihailidis, Alex; Wang, Rosalie; Taati, Babak (2017). "The toronto rehab stroke pose dataset to detect compensation during stroke rehabilitation therapy". Proceedings of the 11th EAI International Conference on Pervasive Computing Technologies for Healthcare. pp. 375–381. doi:10.1145/3154862.3154925. ISBN 978-1-4503-6363-1.
  193. ^ "Toronto Rehab Stroke Pose Dataset".
  194. ^ Jung, Merel M.; Poel, Mannes; Poppe, Ronald; Heylen, Dirk K. J. (March 2017). "Automatic recognition of touch gestures in the corpus of social touch". Journal on Multimodal User Interfaces. 11 (1): 81–96. doi:10.1007/s12193-016-0232-9.
  195. ^ Jung, M.M. (Merel) (1 June 2016). "Corpus of Social Touch (CoST)". University of Twente. doi:10.4121/uuid:5ef62345-3b3e-479c-8e1d-c922748c9b29. {{cite journal}}: Cite journal requires |journal= (help)
  196. ^ Aeberhard, S., D. Coomans, and O. De Vel. "Comparison of classifiers in high dimensional settings." Dept. Math. Statist., James Cook Univ., North Queensland, Australia, Tech. Rep 92-02 (1992).
  197. ^ Basu, Sugato. "Semi-supervised clustering with limited background knowledge." AAAI. 2004.
  198. ^ Tüfekci, Pınar (2014). "Prediction of full load electrical power output of a base load operated combined cycle power plant using machine learning methods". International Journal of Electrical Power & Energy Systems. 60: 126–140. Bibcode:2014IJEPE..60..126T. doi:10.1016/j.ijepes.2014.02.027.
  199. ^ Kaya, Heysem, Pınar Tüfekci, and Fikret S. Gürgen. "Local and global learning methods for predicting power of a combined gas & steam turbine." International conference on emerging trends in computer and electronics engineering (ICETCEE'2012), Dubai. 2012.
  200. ^ Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2014). "Searching for exotic particles in high-energy physics with deep learning". Nature Communications. 5: 2014. arXiv:1402.4735. Bibcode:2014NatCo...5.4308B. doi:10.1038/ncomms5308. PMID 24986233. S2CID 195953.
  201. ^ a b Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2015). "Enhanced Higgs Boson to τ+ τ− Search with Deep Learning". Physical Review Letters. 114 (11): 111801. arXiv:1410.3469. Bibcode:2015PhRvL.114k1801B. doi:10.1103/physrevlett.114.111801. PMID 25839260. S2CID 2339142.
  202. ^ a b Adam-Bourdarios, C.; Cowan, G.; Germain-Renaud, C.; Guyon, I.; Kégl, B.; Rousseau, D. (2015). "The Higgs Machine Learning Challenge". Journal of Physics: Conference Series. 664 (7): 072015. Bibcode:2015JPhCS.664g2015A. doi:10.1088/1742-6596/664/7/072015.
  203. ^ Baldi, Pierre; Cranmer, Kyle; Faucett, Taylor; Sadowski, Peter; Whiteson, Daniel (2016). "Parameterized neural networks for high-energy physics". The European Physical Journal C. 76 (5): 235. arXiv:1601.07913. Bibcode:2016EPJC...76..235B. doi:10.1140/epjc/s10052-016-4099-4. S2CID 254108545.
  204. ^ Ortigosa, I.; Lopez, R.; Garcia, J. "A neural networks approach to residuary resistance of sailing yachts prediction". Proceedings of the International Conference on Marine Engineering MARINE. 2007.
  205. ^ Gerritsma, J., R. Onnink, and A. Versluis.Geometry, resistance and stability of the delft systematic yacht hull series. Delft University of Technology, 1981.
  206. ^ Liu, Huan, and Hiroshi Motoda. Feature extraction, construction and selection: A data mining perspective. Springer Science & Business Media, 1998.
  207. ^ Reich, Yoram. Converging to Ideal Design Knowledge by Learning. [Carnegie Mellon University], Engineering Design Research Center, 1989.
  208. ^ Todorovski, Ljupčo; Džeroski, Sašo (1999). "Experiments in Meta-level Learning with ILP". Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 1704. pp. 98–106. doi:10.1007/978-3-540-48247-5_11. ISBN 978-3-540-66490-1. S2CID 39382993.
  209. ^ Wang, Yong. A new approach to fitting linear models in high dimensional spaces. Diss. The University of Waikato, 2000.
  210. ^ Kibler, Dennis; Aha, David W.; Albert, Marc K. (1989). "Instance-based prediction of real-valued attributes". Computational Intelligence. 5 (2): 51–57. doi:10.1111/j.1467-8640.1989.tb00315.x. S2CID 40800413.
  211. ^ Palmer, Christopher R.; Faloutsos, Christos (2003). "Electricity Based External Similarity of Categorical Attributes". Advances in Knowledge Discovery and Data Mining. Lecture Notes in Computer Science. Vol. 2637. pp. 486–500. doi:10.1007/3-540-36175-8_49. ISBN 978-3-540-04760-5.
  212. ^ Tsanas, Athanasios; Xifara, Angeliki (2012). "Accurate quantitative estimation of energy performance of residential buildings using statistical machine learning tools". Energy and Buildings. 49: 560–567. Bibcode:2012EneBu..49..560T. doi:10.1016/j.enbuild.2012.03.003.
  213. ^ De Wilde, Pieter (2014). "The gap between predicted and measured energy performance of buildings: A framework for investigation". Automation in Construction. 41: 40–49. doi:10.1016/j.autcon.2014.02.009.
  214. ^ Brooks, Thomas F., D. Stuart Pope, and Michael A. Marcolini. Airfoil self-noise and prediction. Vol. 1218. National Aeronautics and Space Administration, Office of Management, Scientific and Technical Information Division, 1989.
  215. ^ Draper, David. "Assessment and propagation of model uncertainty." Journal of the Royal Statistical Society, Series B (Methodological) (1995): 45–97.
  216. ^ Lavine, Michael (1991). "Problems in extrapolation illustrated with space shuttle O-ring data". Journal of the American Statistical Association. 86 (416): 919–921. doi:10.1080/01621459.1991.10475132.
  217. ^ Wang, J.; Yu, B.; Gasser, L. (2002). "Concept tree based clustering visualization with shaded similarity matrices". 2002 IEEE International Conference on Data Mining, 2002. Proceedings. pp. 697–700. doi:10.1109/ICDM.2002.1184032. ISBN 0-7695-1754-4.
  218. ^ Pettengill, Gordon H.; Ford, Peter G.; Johnson, William T. K.; Raney, R. Keith; Soderblom, Laurence A. (12 April 1991). "Magellan: Radar Performance and Data Products". Science. 252 (5003): 260–265. Bibcode:1991Sci...252..260P. doi:10.1126/science.252.5003.260. PMID 17769272.
  219. ^ a b Aharonian, F.; et al. (2008). "Energy spectrum of cosmic-ray electrons at TeV energies". Physical Review Letters. 101 (26): 261104. arXiv:0811.3894. Bibcode:2008PhRvL.101z1104A. doi:10.1103/PhysRevLett.101.261104. hdl:2440/51450. PMID 19437632. S2CID 41850528.
  220. ^ Bock, R. K.; et al. (2004). "Methods for multidimensional event classification: a case study using images from a Cherenkov gamma-ray telescope". Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. 516 (2): 511–528. Bibcode:2004NIMPA.516..511B. doi:10.1016/j.nima.2003.08.157.
  221. ^ Li, Jinyan; et al. (2004). "Deeps: A new instance-based lazy discovery and classification system". Machine Learning. 54 (2): 99–124. doi:10.1023/b:mach.0000011804.08528.7d.
  222. ^ Villaescusa-Navarro, Francisco; al., et (2022). "The CAMELS Multifield Data Set: Learning the Universe's Fundamental Parameters with Artificial Intelligence". The Astrophysical Journal Supplement Series. 259 (2): 61. arXiv:2109.10915. Bibcode:2022ApJS..259...61V. doi:10.3847/1538-4365/ac5ab0. S2CID 237604997.
  223. ^ Siebert, Lee, and Tom Simkin. "Volcanoes of the world: an illustrated catalog of Holocene volcanoes and their eruptions." (2014).
  224. ^ Sikora, Marek; Wróbel, Łukasz (2010). "Application of rule induction algorithms for analysis of data collected by seismic hazard monitoring systems in coal mines". Archives of Mining Sciences. 55 (1): 91–114.
  225. ^ Sikora, Marek; Sikora, Beata (2012). "Rough Natural Hazards Monitoring". Rough Sets: Selected Methods and Applications in Management and Engineering. Advanced Information and Knowledge Processing. pp. 163–179. doi:10.1007/978-1-4471-2760-4_10. ISBN 978-1-4471-2759-8.
  226. ^ Addor, Nans; Newman, Andrew J.; Mizukami, Naoki; Clark, Martyn P. (20 October 2017). "The CAMELS data set: catchment attributes and meteorology for large-sample studies". Hydrology and Earth System Sciences. 21 (10): 5293–5313. Bibcode:2017HESS...21.5293A. doi:10.5194/hess-21-5293-2017.
  227. ^ Newman, A. J.; Clark, M. P.; Sampson, K.; Wood, A.; Hay, L. E.; Bock, A.; Viger, R. J.; Blodgett, D.; Brekke, L.; Arnold, J. R.; Hopson, T.; Duan, Q. (14 January 2015). "Development of a large-sample watershed-scale hydrometeorological data set for the contiguous USA: data set characteristics and assessment of regional variability in hydrologic model performance". Hydrology and Earth System Sciences. 19 (1): 209–223. Bibcode:2015HESS...19..209N. doi:10.5194/hess-19-209-2015.
  228. ^ Alvarez-Garreton, Camila; Mendoza, Pablo A.; Boisier, Juan Pablo; Addor, Nans; Galleguillos, Mauricio; Zambrano-Bigiarini, Mauricio; Lara, Antonio; Puelma, Cristóbal; Cortes, Gonzalo; Garreaud, Rene; McPhee, James; Ayala, Alvaro (13 November 2018). "The CAMELS-CL dataset: catchment attributes and meteorology for large sample studies – Chile dataset". Hydrology and Earth System Sciences. 22 (11): 5817–5846. Bibcode:2018HESS...22.5817A. doi:10.5194/hess-22-5817-2018.
  229. ^ Chagas, Vinícius B. P.; Chaffe, Pedro L. B.; Addor, Nans; Fan, Fernando M.; Fleischmann, Ayan S.; Paiva, Rodrigo C. D.; Siqueira, Vinícius A. (8 September 2020). "CAMELS-BR: hydrometeorological time series and landscape attributes for 897 catchments in Brazil". Earth System Science Data. 12 (3): 2075–2096. Bibcode:2020ESSD...12.2075C. doi:10.5194/essd-12-2075-2020.
  230. ^ Coxon, Gemma; Addor, Nans; Bloomfield, John P.; Freer, Jim; Fry, Matt; Hannaford, Jamie; Howden, Nicholas J. K.; Lane, Rosanna; Lewis, Melinda; Robinson, Emma L.; Wagener, Thorsten; Woods, Ross (12 October 2020). "CAMELS-GB: hydrometeorological time series and landscape attributes for 671 catchments in Great Britain". Earth System Science Data. 12 (4): 2459–2483. Bibcode:2020ESSD...12.2459C. doi:10.5194/essd-12-2459-2020.
  231. ^ Fowler, Keirnan J. A.; Acharya, Suwash Chandra; Addor, Nans; Chou, Chihchung; Peel, Murray C. (6 August 2021). "CAMELS-AUS: hydrometeorological time series and landscape attributes for 222 catchments in Australia". Earth System Science Data. 13 (8): 3847–3867. Bibcode:2021ESSD...13.3847F. doi:10.5194/essd-13-3847-2021.
  232. ^ Klingler, Christoph; Schulz, Karsten; Herrnegger, Mathew (16 September 2021). "LamaH-CE: LArge-SaMple DAta for Hydrology and Environmental Sciences for Central Europe". Earth System Science Data. 13 (9): 4529–4565. Bibcode:2021ESSD...13.4529K. doi:10.5194/essd-13-4529-2021.
  233. ^ Yeh, I–C (1998). "Modeling of strength of high-performance concrete using artificial neural networks". Cement and Concrete Research. 28 (12): 1797–1808. doi:10.1016/s0008-8846(98)00165-3.
  234. ^ Zarandi, MH Fazel; et al. (2008). "Fuzzy polynomial neural networks for approximation of the compressive strength of concrete". Applied Soft Computing. 8 (1): 488–498. Bibcode:2008ApSoC...8...79S. doi:10.1016/j.asoc.2007.02.010.
  235. ^ Yeh, I. "Modeling slump of concrete with fly ash and superplasticizer." Computers and Concrete5.6 (2008): 559–572.
  236. ^ Gencel, Osman; et al. (2011). "Comparison of artificial neural networks and general linear model approaches for the analysis of abrasive wear of concrete". Construction and Building Materials. 25 (8): 3486–3494. doi:10.1016/j.conbuildmat.2011.03.040.
  237. ^ Dietterich, Thomas G., et al. "A comparison of dynamic reposing and tangent distance for drug activity prediction Archived 7 December 2019 at the Wayback Machine." Advances in Neural Information Processing Systems (1994): 216–216.
  238. ^ Buscema, Massimo; Tastle, William J.; Terzi, Stefano (2013). "Meta Net: A New Meta-Classifier Family". Data Mining Applications Using Artificial Adaptive Systems. pp. 141–182. doi:10.1007/978-1-4614-4223-3_5. ISBN 978-1-4614-4222-6.
  239. ^ Barnard, Amanda; Sun, Baichuan; Motevalli Soumehsaraei, Ben; & Opletal, George (2019): Silver Nanoparticle Data Set. v3. CSIRO. Data Collection. https://doi.org/10.25919/5d22d20bc543e
  240. ^ Barnard, Amanda; Sun, Baichuan; & Opletal, George (2019): Platinum Nanoparticle Data Set. v2. CSIRO. Data Collection. https://doi.org/10.25919/5d3958d9bf5f7
  241. ^ Barnard, Amanda; & Opletal, George (2019): Gold Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/5d395ef9a4291
  242. ^ Barnard, Amanda; & Opletal, George (2019): Ruthenium Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/5e30b8fa67484
  243. ^ Barnard, Amanda; & Opletal, George (2019): Copper Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/5e30ba386311f
  244. ^ Barnard, Amanda; & Opletal, George (2023): Palladium Nanoparticle Data Set. v2. CSIRO. Data Collection. https://doi.org/10.25919/epxd-8p61
  245. ^ Ting, Jonathan; Barnard, Amanda; Opletal, George (2023): AuCo Nanoparticle Data Set. v2. CSIRO. Data Collection. https://doi.org/10.25919/7h3x-1343
  246. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtCo Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/jzh8-rd31
  247. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtAu Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/tdnv-jp30
  248. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/qced-2e85
  249. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdCo Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/az9t-vr97
  250. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/0bs4-sn79
  251. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoPd Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/em3a-9a89
  252. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoAu Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/991j-hg07
  253. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/7zh9-3f67
  254. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtPd Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/9sz9-3a85
  255. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdAu Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/6ajg-1275
  256. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPd Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/v0r5-sw08
  257. ^ Lu, Kaihan; Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPdPt Nanoparticle Data Set. v1. CSIRO. Data Collection. https://doi.org/10.25919/psvw-am47
  258. ^ Amoradnejad, Issa; Amoradnejad, Rahimberdi; et al. (2022). "Age dataset: A structured general-purpose dataset on life, work, and death of 1.22 million distinguished people". Workshop Proceedings of the 16th International AAAI Conference on Web and Social Media (ICWSM). 3. ICWSM: 1–4. doi:10.36190/2022.82. S2CID 249668669.
  259. ^ "Age Dataset". GitHub. 7 June 2022.
  260. ^ "Synthetic Fundus Dataset". Archived from the original on 29 November 2021. Retrieved 22 February 2023.
  261. ^ Lo Castro, Dario; et al. (2020). "A visual framework to create photorealistic retinal vessels for diagnosis purposes". Journal of Biomedical Informatics. 108: 103490. doi:10.1016/j.jbi.2020.103490. PMID 32640292. S2CID 220429697.
  262. ^ Ingber, Lester (1997). "Statistical mechanics of neocortical interactions: Canonical momenta indicatorsof electroencephalography". Physical Review E. 55 (4): 4578–4593. arXiv:physics/0001052. Bibcode:1997PhRvE..55.4578I. doi:10.1103/PhysRevE.55.4578. S2CID 6390999.
  263. ^ Hoffmann, Ulrich; Vesin, Jean-Marc; Ebrahimi, Touradj; Diserens, Karin (January 2008). "An efficient P300-based brain–computer interface for disabled subjects". Journal of Neuroscience Methods. 167 (1): 115–125. doi:10.1016/j.jneumeth.2007.03.005. PMID 17445904.
  264. ^ Donchin, Emanuel; Spencer, Kevin M.; Wijesinghe, Ranjith (2000). "The mental prosthesis: assessing the speed of a P300-based brain-computer interface". IEEE Transactions on Rehabilitation Engineering. 8 (2): 174–179. doi:10.1109/86.847808. PMID 10896179. S2CID 84043.
  265. ^ Detrano, Robert; et al. (1989). "International application of a new probability algorithm for the diagnosis of coronary artery disease". The American Journal of Cardiology. 64 (5): 304–310. doi:10.1016/0002-9149(89)90524-9. PMID 2756873.
  266. ^ Bradley, Andrew P (1997). "The use of the area under the ROC curve in the evaluation of machine learning algorithms" (PDF). Pattern Recognition. 30 (7): 1145–1159. Bibcode:1997PatRe..30.1145B. doi:10.1016/s0031-3203(96)00142-2. S2CID 13806304.
  267. ^ Street, W. N.; Wolberg, W. H.; Mangasarian, O. L. (1993). "Nuclear feature extraction for breast tumor diagnosis". In Acharya, Raj S.; Goldgof, Dmitry B. (eds.). Biomedical Image Processing and Biomedical Visualization. Vol. 1905. pp. 861–870. doi:10.1117/12.148698.
  268. ^ Demir, Cigdem; Yener, Bülent (2005). Automated cancer diagnosis based on histopathological images : a systematic survey (PDF) (Report). S2CID 8952443.
  269. ^ Abuse, Substance. "Mental Health Services Administration, Results from the 2010 National Survey on Drug Use and Health: Summary of National Findings, NSDUH Series H-41, HHS Publication No.(SMA) 11-4658." Rockville, MD: Substance Abuse and Mental Health Services Administration 201 (2011).
  270. ^ Hong, Zi-Quan; Yang, Jing-Yu (1991). "Optimal discriminant plane for a small number of samples and design method of classifier on the plane". Pattern Recognition. 24 (4): 317–324. Bibcode:1991PatRe..24..317H. doi:10.1016/0031-3203(91)90074-f.
  271. ^ a b Li, Jinyan; Wong, Limsoon (2003). "Using Rules to Analyse Bio-medical Data: A Comparison between C4.5 and PCL". Advances in Web-Age Information Management. Lecture Notes in Computer Science. Vol. 2762. pp. 254–265. doi:10.1007/978-3-540-45160-0_25. ISBN 978-3-540-40715-7.
  272. ^ Guvenir, H.A.; Acar, B.; Demiroz, G.; Cekin, A. (1997). "A supervised machine learning algorithm for arrhythmia analysis". Computers in Cardiology 1997. pp. 433–436. doi:10.1109/CIC.1997.647926. hdl:11693/27699. ISBN 0-7803-4445-6.
  273. ^ Lagus, Krista; Alhoniemi, Esa; Seppä, Jeremias; Honkela, Antti; Wagner, Paul (2005). "Independent Variable Group Analysis in Learning Compact Representations for Data" (PDF). International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR'05), Helsinki, Finland, June 15-17, 2005. pp. 49–56.
  274. ^ Strack, Beata, et al. "Impact of HbA1c measurement on hospital readmission rates: analysis of 70,000 clinical database patient records." BioMed Research International 2014; 2014
  275. ^ Rubin, Daniel J (2015). "Hospital readmission of patients with diabetes". Current Diabetes Reports. 15 (4): 1–9. doi:10.1007/s11892-015-0584-7. PMID 25712258. S2CID 3908599.
  276. ^ Antal, Bálint; Hajdu, András (2014). "An ensemble-based system for automatic screening of diabetic retinopathy". Knowledge-Based Systems. 60 (2014): 20–27. arXiv:1410.8576. Bibcode:2014arXiv1410.8576A. doi:10.1016/j.knosys.2013.12.023. S2CID 13984326.
  277. ^ Haloi, Mrinal (2015). "Improved Microaneurysm Detection using Deep Neural Networks". arXiv:1505.04424 [cs.CV].
  278. ^ ELIE, Guillaume PATRY, Gervais GAUTHIER, Bruno LAY, Julien ROGER, Damien. "ADCIS Download Third Party: Messidor Database". adcis.net. Retrieved 25 February 2018.{{cite web}}: CS1 maint: multiple names: authors list (link)
  279. ^ Decencière, Etienne; Zhang, Xiwei; Cazuguel, Guy; Lay, Bruno; Cochener, Béatrice; Trone, Caroline; Gain, Philippe; Ordonez, Richard; Massin, Pascale; Erginay, Ali; Charton, Béatrice; Klein, Jean-Claude (26 August 2014). "Feedback on a Publicly Distributed Image Database: The Messidor Database". Image Analysis & Stereology. 33 (3): 231. doi:10.5566/ias.1155.
  280. ^ Bagirov, A. M.; Rubinov, A. M.; Soukhoroukova, N. V.; Yearwood, J. (June 2003). "Unsupervised and supervised data classification via nonsmooth and global optimization". Top. 11 (1): 1–75. doi:10.1007/bf02578945.
  281. ^ Fung, Glenn; Dundar, Murat; Bi, Jinbo; Rao, Bharat (2004). "A fast iterative algorithm for fisher discriminant using heterogeneous kernels". In Greiner, Russell; Schuurmans, Dale (eds.). Proceedings of the Twenty-first International Conference on Machine Learning. ACM. p. 40. doi:10.1145/1015330.1015409. ISBN 978-1-58113-838-2.
  282. ^ Quinlan, J. R.; Compton, P. J.; Horn, K. A.; Lazarus, L. (1987). "Inductive knowledge acquisition: a case study". In Quinlan, John Ross (ed.). Applications of Expert Systems: Based on the Proceedings of the Second Australian Conference. Turing Institute Press. pp. 137–156. ISBN 978-0-201-17449-6.
  283. ^ a b Zhi-Hua Zhou; Yuan Jiang (2004). "NeC4.5: Neural ensemble based C4.5". IEEE Transactions on Knowledge and Data Engineering. 16 (6): 770–773. doi:10.1109/tkde.2004.11.
  284. ^ Er, Orhan; et al. (2012). "An approach based on probabilistic neural network for diagnosis of Mesothelioma's disease". Computers & Electrical Engineering. 38 (1): 75–81. doi:10.1016/j.compeleceng.2011.09.001.
  285. ^ Er, Orhan; Tanrikulu, A. Çetin; Abakay, Abdurrahman (10 May 2015). "Use of artificial intelligence techniques for diagnosis of malignant pleural mesothelioma". Dicle Medical Journal / Dicle Tip Dergisi. 42 (1). doi:10.5798/diclemedj.0921.2015.01.0520 (inactive 23 November 2024).{{cite journal}}: CS1 maint: DOI inactive as of November 2024 (link)
  286. ^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (25 July 2017). "Vision-Based Assessment of Parkinsonism and Levodopa-Induced Dyskinesia with Deep Learning Pose Estimation". Journal of Neuroengineering and Rehabilitation. 15 (1): 97. arXiv:1707.09416. Bibcode:2017arXiv170709416L. doi:10.1186/s12984-018-0446-z. PMC 6219082. PMID 30400914.
  287. ^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (August 2018). "Automated assessment of levodopa-induced dyskinesia: Evaluating the responsiveness of video-based features". Parkinsonism & Related Disorders. 53: 42–45. doi:10.1016/j.parkreldis.2018.04.036. PMID 29748112.
  288. ^ "Parkinson's Vision-Based Pose Estimation Dataset | Kaggle". kaggle.com. Retrieved 22 August 2018.
  289. ^ Shannon, Paul; et al. (2003). "Cytoscape: a software environment for integrated models of biomolecular interaction networks". Genome Research. 13 (11): 2498–2504. doi:10.1101/gr.1239303. PMC 403769. PMID 14597658.
  290. ^ Javadi, Soroush; Mirroshandel, Seyed Abolghasem (June 2019). "A novel deep learning method for automatic assessment of human sperm images". Computers in Biology and Medicine. 109: 182–194. doi:10.1016/j.compbiomed.2019.04.030. PMID 31059902.
  291. ^ "soroushj/mhsma-dataset: MHSMA: The Modified Human Sperm Morphology Analysis Dataset". github.com. Retrieved 3 May 2019.
  292. ^ Clark, David, Zoltan Schreter, and Anthony Adams. "A quantitative comparison of dystal and backpropagation." Proceedings of 1996 Australian Conference on Neural Networks. 1996.
  293. ^ Jiang, Yuan, and Zhi-Hua Zhou. "Editing training data for kNN classifiers with neural network ensemble." Advances in Neural Networks–ISNN 2004. Springer Berlin Heidelberg, 2004. 356–361.
  294. ^ Ontañón, Santiago; Plaza, Enric (2009). "On Similarity Measures Based on a Refinement Lattice". Case-Based Reasoning Research and Development. Lecture Notes in Computer Science. Vol. 5650. pp. 240–255. doi:10.1007/978-3-642-02998-1_18. ISBN 978-3-642-02997-4.
  295. ^ "PLF data inventory". GitHub. 5 November 2021.
  296. ^ Higuera, Clara; Gardiner, Katheleen J.; Cios, Krzysztof J. (2015). "Self-organizing feature maps identify proteins critical to learning in a mouse model of down syndrome". PLOS ONE. 10 (6): e0129126. Bibcode:2015PLoSO..1029126H. doi:10.1371/journal.pone.0129126. PMC 4482027. PMID 26111164.
  297. ^ Ahmed, Md Mahiuddin; et al. (2015). "Protein dynamics associated with failed and rescued learning in the Ts65Dn mouse model of Down syndrome". PLOS ONE. 10 (3): e0119491. Bibcode:2015PLoSO..1019491A. doi:10.1371/journal.pone.0119491. PMC 4368539. PMID 25793384.
  298. ^ Langley, PAT (2014). "Trading off simplicity and coverage in incremental concept learning" (PDF). Machine Learning Proceedings. 1988: 73. Archived from the original (PDF) on 6 August 2019. Retrieved 6 August 2019.
  299. ^ "Mushroom Data Set 2020". mushroom.mathematik.uni-marburg.de. Retrieved 6 April 2021.
  300. ^ Wagner, Dennis; Heider, Dominik; Hattab, Georges (14 April 2021). "Mushroom data creation, curation, and simulation to support classification tasks". Scientific Reports. 11 (1): 8134. Bibcode:2021NatSR..11.8134W. doi:10.1038/s41598-021-87602-3. PMC 8046754. PMID 33854157.
  301. ^ Cortez, Paulo, and Aníbal de Jesus Raimundo Morais. "A data mining approach to predict forest fires using meteorological data." (2007).
  302. ^ Farquad, M. A. H.; Ravi, V.; Raju, S. Bapi (2010). "Support vector regression based hybrid rule extraction methods for forecasting". Expert Systems with Applications. 37 (8): 5577–5589. doi:10.1016/j.eswa.2010.02.055.
  303. ^ Fisher, Ronald A (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
  304. ^ Ghahramani, Zoubin, and Michael I. Jordan. "Supervised learning from incomplete data via an EM approach Archived 22 April 2017 at the Wayback Machine." Advances in neural information processing systems 6. 1994.
  305. ^ Mallah, Charles; Cope, James; Orwell, James (2013). "Plant Leaf Classification using Probabilistic Integration of Shape, Texture and Margin Features". Computer Graphics and Imaging / 798: Signal Processing, Pattern Recognition and Applications. doi:10.2316/P.2013.798-098. ISBN 978-0-88986-944-8.
  306. ^ Yahiaoui, Itheri; Mzoughi, Olfa; Boujemaa, Nozha (2012). "Leaf Shape Descriptor for Tree Species Identification". 2012 IEEE International Conference on Multimedia and Expo. pp. 254–259. doi:10.1109/ICME.2012.130. ISBN 978-1-4673-1659-0.
  307. ^ Tan, Ming; Eshelman, Larry (1988). "Using Weighted Networks to Represent Classification Knowledge in Noisy Domains". Machine Learning Proceedings 1988. pp. 121–134. doi:10.1016/B978-0-934613-64-4.50018-9. ISBN 978-0-934613-64-4.
  308. ^ Charytanowicz, Małgorzata, et al. "Complete gradient clustering algorithm for features analysis of x-ray images." Information technologies in biomedicine. Springer Berlin Heidelberg, 2010. 15–24.
  309. ^ Sanchez, Mauricio A.; et al. (2014). "Fuzzy granular gravitational clustering algorithm for multivariate data". Information Sciences. 279: 498–511. doi:10.1016/j.ins.2014.04.005.
  310. ^ Blackard, Jock A.; Dean, Denis J. (December 1999). "Comparative accuracies of artificial neural networks and discriminant analysis in predicting forest cover types from cartographic variables". Computers and Electronics in Agriculture. 24 (3): 131–151. Bibcode:1999CEAgr..24..131B. doi:10.1016/s0168-1699(99)00046-0.
  311. ^ Fürnkranz, Johannes (2001). "Round Robin Rule Learning" (PDF). In Danyluk, Andrea Pohoreckyj; Brodley, Carla E. (eds.). Machine Learning: Proceedings of the Eighteenth International Conference (ICML 2001) : Williams College, June 28-July 1, 2001. Morgan Kaufmann Publishers. pp. 146–153. ISBN 978-1-55860-778-1.
  312. ^ Li, Song; Assmann, Sarah M.; Albert, Réka (2006). "Predicting essential components of signal transduction networks: a dynamic model of guard cell abscisic acid signaling". PLOS Biol. 4 (10): e312. arXiv:q-bio/0610012. Bibcode:2006q.bio....10012L. doi:10.1371/journal.pbio.0040312. PMC 1564158. PMID 16968132.
  313. ^ Munisami, Trishen; et al. (2015). "Plant Leaf Recognition Using Shape Features and Colour Histogram with K-nearest Neighbour Classifiers". Procedia Computer Science. 58: 740–747. doi:10.1016/j.procs.2015.08.095.
  314. ^ Li, Bai (2016). "Atomic potential matching: An evolutionary target recognition approach based on edge features". Optik. 127 (5): 3162–3168. Bibcode:2016Optik.127.3162L. doi:10.1016/j.ijleo.2015.11.186.
  315. ^ Razavian, Ali, et al. "CNN features off-the-shelf: an astounding baseline for recognition." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2014.
  316. ^ Nilsback, Maria-Elena, and Andrew Zisserman. "A visual vocabulary for flower classification."Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.
  317. ^ Giselsson, Thomas M.; et al. (2017). "A Public Image Database for Benchmark of Plant Seedling Classification Algorithms". arXiv:1711.05458 [cs.CV].
  318. ^ Oltean, Mihai (2017). "Fruits-360 dataset". GitHub.
  319. ^ Old, Richard (2024). "Weed-ID.App dataset".
  320. ^ Rahman, Abdur; Lu, Yuzhen; Wang, Haifeng (February 2023). "Performance evaluation of deep learning object detectors for weed detection for cotton". Smart Agricultural Technology. 3: 100126. doi:10.1016/j.atech.2022.100126.
  321. ^ Nakai, Kenta; Kanehisa, Minoru (1991). "Expert system for predicting protein localization sites in gram-negative bacteria". Proteins: Structure, Function, and Bioinformatics. 11 (2): 95–110. doi:10.1002/prot.340110203. PMID 1946347. S2CID 27606447.
  322. ^ Ling, Charles X., et al. "Decision trees with minimal costs." Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.
  323. ^ Mahé, Pierre; Arsac, Maud; Chatellier, Sonia; Monnin, Valérie; Perrot, Nadine; Mailler, Sandrine; Girard, Victoria; Ramjeet, Mahendrasingh; Surre, Jérémy; Lacroix, Bruno; van Belkum, Alex; Veyrieras, Jean-Baptiste (May 2014). "Automatic identification of mixed bacterial species fingerprints in a MALDI-TOF mass-spectrum". Bioinformatics. 30 (9): 1280–1286. doi:10.1093/bioinformatics/btu022. PMID 24443381.
  324. ^ Barbano, Duane; et al. (2015). "Rapid characterization of microalgae and microalgae mixtures using matrix-assisted laser desorption ionization time-of-flight mass spectrometry (MALDI-TOF MS)". PLOS ONE. 10 (8): e0135337. Bibcode:2015PLoSO..1035337B. doi:10.1371/journal.pone.0135337. PMC 4536233. PMID 26271045.
  325. ^ Horton, Paul; Nakai, Kenta (1996). "A probabilistic classification system for predicting the cellular localization sites of proteins" (PDF). ISMB-96 Proceedings. 4: 109–15. PMID 8877510. Archived from the original (PDF) on 4 November 2021. Retrieved 6 August 2019.
  326. ^ Allwein, Erin L.; Schapire, Robert E.; Singer, Yoram (2001). "Reducing multiclass to binary: A unifying approach for margin classifiers" (PDF). The Journal of Machine Learning Research. 1: 113–141.
  327. ^ Mayr, Andreas; Klambauer, Guenter; Unterthiner, Thomas; Hochreiter, Sepp (2016). "DeepTox: Toxicity Prediction Using Deep Learning". Frontiers in Environmental Science. 3: 80. doi:10.3389/fenvs.2015.00080.
  328. ^ Lavin, Alexander; Ahmad, Subutai (12 October 2015). "Evaluating Real-Time Anomaly Detection Algorithms -- the Numenta Anomaly Benchmark". 2015 IEEE 14th International Conference on Machine Learning and Applications (ICMLA). pp. 38–44. arXiv:1510.03336. doi:10.1109/ICMLA.2015.141. ISBN 978-1-5090-0287-0. S2CID 6842305.
  329. ^ Iurii D. Katser; Vyacheslav O. Kozitsin. "SKAB GitHub repository". GitHub. Retrieved 12 January 2021.
  330. ^ Iurii D. Katser; Vyacheslav O. Kozitsin (2020). "Skoltech Anomaly Benchmark (SKAB)". Kaggle. doi:10.34740/KAGGLE/DSV/1693952. Retrieved 12 January 2021. {{cite journal}}: Cite journal requires |journal= (help)
  331. ^ Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (July 2016). "On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study". Data Mining and Knowledge Discovery. 30 (4): 891–927. doi:10.1007/s10618-015-0444-8.
  332. ^ Ann-Kathrin Hartmann, Tommaso Soru, Edgard Marx. Generating a Large Dataset for Neural Question Answering over the DBpedia Knowledge Base. 2018.
  333. ^ Soru, Tommaso; Marx, Edgard; Moussallem, Diego; Publio, Gustavo; Valdestilhas, André; Esteves, Diego; Neto, Ciro Baron (2017). SPARQL as a Foreign Language (Preprint). arXiv:1708.07624.
  334. ^ Kiet Van Nguyen, Duc-Vu Nguyen, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen. A Vietnamese Dataset for Evaluating Machine Reading Comprehension. COLING 2020.
  335. ^ Nguyen, Kiet Van; Tran, Khiem Vinh; Luu, Son T.; Nguyen, Anh Gia-Tuan; Nguyen, Ngan Luu-Thuy (2020). "Enhancing Lexical-Based Approach With External Knowledge for Vietnamese Multiple-Choice Machine Reading Comprehension". IEEE Access. 8: 201404–201417. Bibcode:2020IEEEA...8t1404N. doi:10.1109/ACCESS.2020.3035701.
  336. ^ Anantha, Raviteja; Vakulenko, Svitlana; Tu, Zhucheng; Longpre, Shayne; Pulman, Stephen; Chappidi, Srinivas (2020). "Open-Domain Question Answering Goes Conversational via Question Rewriting". arXiv:2010.04898 [cs.IR].
  337. ^ Khashabi, Daniel; Min, Sewon; Khot, Tushar; Sabharwal, Ashish; Tafjord, Oyvind; Clark, Peter; Hajishirzi, Hannaneh (November 2020). "UNIFIEDQA: Crossing Format Boundaries with a Single QA System". Findings of the Association for Computational Linguistics: EMNLP 2020. Online: Association for Computational Linguistics: 1896–1907. arXiv:2005.00700. doi:10.18653/v1/2020.findings-emnlp.171. S2CID 218487109.
  338. ^ Taskmaster, Google Research Datasets, 17 December 2022, retrieved 7 January 2023
  339. ^ Byrne, Bill; Krishnamoorthi, Karthik; Sankar, Chinnadhurai; Neelakantan, Arvind; Duckworth, Daniel; Yavuz, Semih; Goodrich, Ben; Dubey, Amit; Cedilnik, Andy; Kim, Kyu-Young (1 September 2019). "Taskmaster-1: Toward a Realistic and Diverse Dialog Dataset". arXiv:1909.05358 [cs.CL].
  340. ^ Yasunaga, Michihiro; Liang, Percy (21 November 2020). "Graph-based, Self-Supervised Program Repair from Diagnostic Feedback". International Conference on Machine Learning. PMLR: 10799–10808. arXiv:2005.10636.
  341. ^ Wang, Yizhong; Mishra, Swaroop; Alipoormolabashi, Pegah; Kordi, Yeganeh; Mirzaei, Amirreza; Arunkumar, Anjana; Ashok, Arjun; Dhanasekaran, Arut Selvan; Naik, Atharva; Stap, David; Pathak, Eshaan; Karamanolakis, Giannis; Lai, Haizhi Gary; Purohit, Ishan; Mondal, Ishani (24 October 2022). "Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks". arXiv:2204.07705 [cs.CL].
  342. ^ Paperno, Denis; Kruszewski, Germán; Lazaridou, Angeliki; Pham, Quan Ngoc; Bernardi, Raffaella; Pezzelle, Sandro; Baroni, Marco; Boleda, Gemma; Fernández, Raquel (7 August 2016), The LAMBADA dataset, doi:10.5281/zenodo.2630551, retrieved 7 January 2023
  343. ^ Paperno, Denis; Kruszewski, Germán; Lazaridou, Angeliki; Pham, Ngoc Quan; Bernardi, Raffaella; Pezzelle, Sandro; Baroni, Marco; Boleda, Gemma; Fernández, Raquel (August 2016). "The LAMBADA dataset: Word prediction requiring a broad discourse context". Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Berlin, Germany: Association for Computational Linguistics: 1525–1534. doi:10.18653/v1/P16-1144. hdl:10230/32702. S2CID 2381275.
  344. ^ Wei, Jason; Bosma, Maarten; Zhao, Vincent; Guu, Kelvin; Yu, Adams Wei; Lester, Brian; Du, Nan; Dai, Andrew M.; Le, Quoc V. (10 February 2022). Finetuned Language Models are Zero-Shot Learners (Preprint). arXiv:2109.01652.
  345. ^ "Working with ATT&CK | MITRE ATT&CK®". attack.mitre.org. Retrieved 14 January 2023.
  346. ^ "CAPEC - Common Attack Pattern Enumeration and Classification (CAPEC™)". capec.mitre.org. Retrieved 14 January 2023.
  347. ^ "CVE - Home". cve.mitre.org. Retrieved 14 January 2023.
  348. ^ "CWE - Common Weakness Enumeration". cwe.mitre.org. Retrieved 14 January 2023.
  349. ^ Lim, Swee Kiat; Muis, Aldrian Obaja; Lu, Wei; Ong, Chen Hui (July 2017). "MalwareTextDB: A Database for Annotated Malware Articles". Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vancouver, Canada: Association for Computational Linguistics: 1557–1567. doi:10.18653/v1/P17-1143. S2CID 7816596.
  350. ^ "USENIX". USENIX. Retrieved 19 January 2023.
  351. ^ "APTnotes | Read the Docs". readthedocs.org. Retrieved 19 January 2023.
  352. ^ "Cryptography and Security authors/titles recent submissions". arxiv.org. Retrieved 19 January 2023.
  353. ^ "Holistic Info-Sec for Web Developers - Fascicle 0". f0.holisticinfosecforwebdevelopers.com. Retrieved 20 January 2023.
  354. ^ "Holistic Info-Sec for Web Developers - Fascicle 1". f1.holisticinfosecforwebdevelopers.com. Retrieved 20 January 2023.
  355. ^ Vincent, Adam. "Web Services Web Services Hacking and Hardening" (PDF). owasp.org.
  356. ^ McCray, Joe. "Advanced SQL Injection" (PDF). defcon.org.
  357. ^ Shah, Shreeraj. "Blind SQL injection discovery & exploitation technique" (PDF). blueinfy.com.
  358. ^ Palcer, C. C. "Ethical hacking" (PDF). textfiles.
  359. ^ "Hacking Secrets Revealed - Information and Instructional Guide" (PDF).
  360. ^ Park, Alexis. "Hack any website" (PDF).
  361. ^ Cerrudo, Cesar; Martinez Fayo, Esteban. "Hacking Databases for Owning your Data" (PDF). blackhat.
  362. ^ O'Connor, Tj. "Violent Python-A Cookbook for Hackers, Forensic Analysts, Penetration Testers and Security Engineers" (PDF). Github.
  363. ^ Grand, Joe. "Hardware Reverse Engineering: Access, Analyze, & Defeat" (PDF). blackhat.
  364. ^ Chang, Jason V. "Computer Hacking: Making the Case for National Reporting Requirement" (PDF). cyber.harvard.edu.
  365. ^ "National Cybersecurity Strategies Repository". ITU. Retrieved 20 January 2023.
  366. ^ Chen, Yanlin (31 August 2022), Cyber Security Natural Language Processing, retrieved 20 January 2023
  367. ^ Zampieri, Marcos; Malmasi, Shervin; Nakov, Preslav; Rosenthal, Sara; Farra, Noura; Kumar, Ritesh (16 April 2019). "Predicting the Type and Target of Offensive Posts in Social Media". arXiv:1902.09666 [cs.CL].
  368. ^ "Threat reports". www.ncsc.gov.uk. Retrieved 20 January 2023.
  369. ^ "Category: APT reports | Securelist". securelist.com. Retrieved 23 January 2023.
  370. ^ "Your Cybersecurity News Connection - Cyber News | CyberWire". The CyberWire. Retrieved 23 January 2023.
  371. ^ "News". 21 August 2016. Retrieved 23 January 2023.
  372. ^ "Cybernews". Cybernews.
  373. ^ "BleepingComputer". BleepingComputer. Retrieved 23 January 2023.
  374. ^ "Homepage". The Record from Recorded Future News. Retrieved 23 January 2023.
  375. ^ "HackRead | Latest Cyber Crime - InfoSec- Tech - Hacking News". 8 January 2022. Retrieved 23 January 2023.
  376. ^ "Securelist | Kaspersky's threat research and reports". securelist.com. Retrieved 31 January 2023.
  377. ^ Harshaw, Christopher R.; Bridges, Robert A.; Iannacone, Michael D.; Reed, Joel W.; Goodall, John R. (5 April 2016). "GraphPrints". Proceedings of the 11th Annual Cyber and Information Security Research Conference. CISRC '16. New York, NY, USA: Association for Computing Machinery. pp. 1–4. doi:10.1145/2897795.2897806. ISBN 978-1-4503-3752-6.
  378. ^ "Farsight Security, cyber security intelligence solutions". Farsight Security. Retrieved 13 February 2023.
  379. ^ "Schneier on Security". www.schneier.com. Retrieved 13 February 2023.
  380. ^ "#1 in Cloud Security & Endpoint Cybersecurity". Trend Micro. Retrieved 13 February 2023.
  381. ^ "The Hacker News | #1 Trusted Cybersecurity News Site". The Hacker News. Retrieved 13 February 2023.
  382. ^ "Krebs on Security – In-depth security news and investigation". Retrieved 25 February 2023.
  383. ^ "MITRE D3FEND Knowledge Graph". d3fend.mitre.org. Retrieved 31 March 2023.
  384. ^ "MITRE | ATLAS™". atlas.mitre.org. Retrieved 31 March 2023.
  385. ^ "MITRE Engage™ | An Adversary Engagement Framework from MITRE". Retrieved 1 April 2023.
  386. ^ "Hacking Tutorials - The best Step-by-Step Hacking Tutorials". Hacking Tutorials. Retrieved 1 April 2023.
  387. ^ "TCFD Knowledge Hub". TCFD Knowledge Hub. Retrieved 3 February 2023.
  388. ^ "ResponsibilityReports.com". www.responsibilityreports.com. Retrieved 3 February 2023.
  389. ^ "About — IPCC". Retrieved 20 February 2023.
  390. ^ "Alliance for Research on Corporate Sustainability | ARCS serves as a vehicle for advancing rigorous academic research on corporate sustainability issues". corporate-sustainability.org. Retrieved 2 March 2023.
  391. ^ Mehra, Srishti; Louka, Robert; Zhang, Yixun (2022). "ESGBERT: Language Model to Help with Classification Tasks Related to Companies' Environmental, Social, and Governance Practices". Embedded Systems and Applications. pp. 183–190. doi:10.5121/csit.2022.120616. ISBN 978-1-925953-65-7.
  392. ^  This article incorporates text available under the CC BY 4.0 license.
  393. ^ Diggelmann, Thomas; Boyd-Graber, Jordan; Bulian, Jannis; Ciaramita, Massimiliano; Leippold, Markus (2 January 2021). "CLIMATE-FEVER: A Dataset for Verification of Real-World Climate Claims". arXiv:2012.00614 [cs.CL].
  394. ^ "climate-news-db". www.climate-news-db.com. Retrieved 3 February 2023.
  395. ^ "Climatext". www.sustainablefinance.uzh.ch. Retrieved 19 February 2023.
  396. ^ "Greenbiz". www.greenbiz.com. Retrieved 2 March 2023.
  397. ^ "Explore the @Reuters Hot List of 1,000 top climate scientists". Reuters. Retrieved 22 March 2023.
  398. ^ "Blogs | Alliance for Research on Corporate Sustainability". corporate-sustainability.org. Retrieved 27 March 2023.
  399. ^ "Greenbiz". www.greenbiz.com. Retrieved 29 March 2023.
  400. ^ "CSR News". www.csrwire.com. Retrieved 29 March 2023.
  401. ^ "CDP Homepage". www.cdp.net. Retrieved 29 March 2023.
  402. ^ de Vries, Harm (2022). "The Stack: 3 TB of permissively licensed source code". arXiv:2211.15533 [cs.CL].
  403. ^ "The Stack Dedup". Huggingface. Retrieved 29 August 2023.
  404. ^ "Hybrid cloud blog". content.cloud.redhat.com. Retrieved 9 April 2023.
  405. ^ "Production-Grade Container Orchestration". Kubernetes. Retrieved 9 April 2023.
  406. ^ "Home | Official Red Hat OpenShift Documentation". docs.openshift.com. Retrieved 9 April 2023.
  407. ^ "Cloud Native Computing Foundation". Cloud Native Computing Foundation. Retrieved 9 April 2023.
  408. ^ CNCF Community Presentations, Cloud Native Computing Foundation (CNCF), 11 April 2023, retrieved 11 April 2023
  409. ^ "Red Hat - We make open source technologies for the enterprise". www.redhat.com. Retrieved 1 May 2023.
  410. ^ Brown, Michael Scott; Pelosi, Michael J.; Dirska, Henry (2013). "Dynamic-Radius Species-Conserving Genetic Algorithm for the Financial Forecasting of Dow Jones Index Stocks". Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science. Vol. 7988. pp. 27–41. doi:10.1007/978-3-642-39712-7_3. ISBN 978-3-642-39711-0.
  411. ^ Shen, Kao-Yi; Tzeng, Gwo-Hshiung (2015). "Fuzzy Inference-Enhanced VC-DRSA Model for Technical Analysis: Investment Decision Aid". International Journal of Fuzzy Systems. 17 (3): 375–389. doi:10.1007/s40815-015-0058-8. S2CID 68241024.
  412. ^ Quinlan, J.R. (September 1987). "Simplifying decision trees". International Journal of Man-Machine Studies. 27 (3): 221–234. doi:10.1016/s0020-7373(87)80053-6. hdl:1721.1/6453.
  413. ^ Hamers, Bart; Suykens, Johan AK; De Moor, Bart (2003). "Coupled transductive ensemble learning of kernel models" (PDF). Journal of Machine Learning Research. 1: 1–48.
  414. ^ Shmueli, Galit; Russo, Ralph P.; Jank, Wolfgang (December 2007). "The BARISTA: A model for bid arrivals in online auctions". The Annals of Applied Statistics. 1 (2). doi:10.1214/07-AOAS117.
  415. ^ Peng, Jie; Müller, Hans-Georg (September 2008). "Distance-based clustering of sparsely observed stochastic processes, with applications to online auctions". The Annals of Applied Statistics. 2 (3). doi:10.1214/08-AOAS172.
  416. ^ Eggermont, Jeroen; Kok, Joost N.; Kosters, Walter A. (2004). "Genetic Programming for data classification: Partitioning the search space". Proceedings of the 2004 ACM symposium on Applied computing. pp. 1001–1005. doi:10.1145/967900.968104. ISBN 978-1-58113-812-2.
  417. ^ Moro, Sérgio; Cortez, Paulo; Rita, Paulo (2014). "A data-driven approach to predict the success of bank telemarketing". Decision Support Systems. 62: 22–31. doi:10.1016/j.dss.2014.03.001. hdl:10071/9499. S2CID 14181100.
  418. ^ Payne, Richard D.; Mallick, Bani K. (2014). "Bayesian Big Data Classification: A Review with Complements". arXiv:1411.5653 [stat.ME].
  419. ^ Akbilgic, Oguz; Bozdogan, Hamparsum; Balaban, M. Erdal (2014). "A novel Hybrid RBF Neural Networks model as a forecaster". Statistics and Computing. 24 (3): 365–375. doi:10.1007/s11222-013-9375-7. S2CID 17764829.
  420. ^ Jabin, Suraiya (20 August 2014). "Stock Market Prediction using Feed-forward Artificial Neural Network". International Journal of Computer Applications. 99 (9): 4–8. Bibcode:2014IJCA...99i...4J. doi:10.5120/17399-7959.
  421. ^ Yeh, I-Cheng; Che-hui, Lien (2009). "The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients". Expert Systems with Applications. 36 (2): 2473–2480. doi:10.1016/j.eswa.2007.12.020. S2CID 15696161.
  422. ^ Lin, Shu Ling (2009). "A new two-stage hybrid approach of credit risk in banking industry". Expert Systems with Applications. 36 (4): 8333–8341. doi:10.1016/j.eswa.2008.10.015.
  423. ^ Xu, Yumo; Cohen, Shay B. (2018). "Stock Movement Prediction from Tweets and Historical Prices". Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). pp. 1970–1979. doi:10.18653/v1/P18-1183.
  424. ^ Pelckmans, Kristiaan; et al. (2005). "The differogram: Non-parametric noise variance estimation and its use for model selection". Neurocomputing. 69 (1): 100–122. doi:10.1016/j.neucom.2005.02.015.
  425. ^ Bay, Stephen D.; Kibler, Dennis; Pazzani, Michael J.; Smyth, Padhraic (December 2000). "The UCI KDD archive of large data sets for data mining research and experimentation". ACM SIGKDD Explorations Newsletter. 2 (2): 81–85. doi:10.1145/380995.381030.
  426. ^ Lucas, D. D.; et al. (2015). "Designing optimal greenhouse gas observing networks that consider performance and cost". Geoscientific Instrumentation, Methods and Data Systems. 4 (1): 121. Bibcode:2015GI......4..121L. doi:10.5194/gi-4-121-2015.
  427. ^ Pales, Jack C.; Keeling, Charles D. (1965). "The concentration of atmospheric carbon dioxide in Hawaii". Journal of Geophysical Research. 70 (24): 6053–6076. Bibcode:1965JGR....70.6053P. doi:10.1029/jz070i024p06053.
  428. ^ Sigillito, Vincent G., et al. "Classification of radar returns from the ionosphere using neural networks." Johns Hopkins APL Technical Digest10.3 (1989): 262–266.
  429. ^ Zhang, Kun; Fan, Wei (March 2008). "Forecasting skewed biased stochastic ozone days: analyses, solutions and beyond". Knowledge and Information Systems. 14 (3): 299–326. doi:10.1007/s10115-007-0095-1.
  430. ^ Reich, Brian J.; Fuentes, Montserrat; Dunson, David B. (March 2011). "Bayesian Spatial Quantile Regression". Journal of the American Statistical Association. 106 (493): 6–20. doi:10.1198/jasa.2010.ap09237. PMC 3583387. PMID 23459794.
  431. ^ Kohavi, Ron (1996). "Scaling Up the Accuracy of Naive-Bayes Classifiers: A Decision-Tree Hybrid". KDD. 96.
  432. ^ Oza, Nikunj C., and Stuart Russell. "Experimental comparisons of online and batch versions of bagging and boosting." Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2001.
  433. ^ Bay, Stephen D. (November 2001). "Multivariate Discretization for Set Mining". Knowledge and Information Systems. 3 (4): 491–512. doi:10.1007/pl00011680.
  434. ^ Ruggles, Steven (1995). "Sample designs and sampling errors". Historical Methods. 28 (1): 40–46. doi:10.1080/01615440.1995.9955312.
  435. ^ Meek, Christopher, Bo Thiesson, and David Heckerman. "The Learning Curve Method Applied to Clustering." AISTATS. 2001.
  436. ^ Fanaee-T, Hadi; Gama, Joao (2013). "Event labeling combining ensemble detectors and background knowledge". Progress in Artificial Intelligence. 2 (2–3): 113–127. doi:10.1007/s13748-013-0040-3. S2CID 3345087.
  437. ^ Giot, Romain; Cherrier, Raphael (2014). "Predicting bikeshare system usage up to one day ahead". 2014 IEEE Symposium on Computational Intelligence in Vehicles and Transportation Systems (CIVTS) (PDF). pp. 22–29. doi:10.1109/CIVTS.2014.7009473. ISBN 978-1-4799-4497-2.
  438. ^ Zhan, Xianyuan; et al. (2013). "Urban link travel time estimation using large-scale taxi data with partial information". Transportation Research Part C: Emerging Technologies. 33: 37–49. Bibcode:2013TRPC...33...37Z. doi:10.1016/j.trc.2013.04.001.
  439. ^ Moreira-Matias, Luis; et al. (2013). "Predicting taxi–passenger demand using streaming data". IEEE Transactions on Intelligent Transportation Systems. 14 (3): 1393–1402. doi:10.1109/tits.2013.2262376. S2CID 14764358.
  440. ^ Hwang, Ren-Hung; Hsueh, Yu-Ling; Chen, Yu-Ting (2015). "An effective taxi recommender system based on a spatio-temporal factor analysis model". Information Sciences. 314: 28–40. doi:10.1016/j.ins.2015.03.068.
  441. ^ H. V. Jagadish, Johannes Gehrke, Alexandros Labrinidis, Yannis Papakonstantinou, Jignesh M. Patel, Raghu Ramakrishnan, and Cyrus Shahabi. Big data and its technical challenges. Commun. ACM, 57(7):86–94, July 2014.
  442. ^ Caltrans PeMS
  443. ^ Meusel, Robert, et al. "The Graph Structure in the Web—Analyzed on Different Aggregation Levels."The Journal of Web Science 1.1 (2015).
  444. ^ Kushmerick, Nicholas (1999). "Learning to remove Internet advertisements". Proceedings of the third annual conference on Autonomous Agents. pp. 175–181. doi:10.1145/301136.301186. ISBN 978-1-58113-066-9.
  445. ^ Fradkin, Dmitriy; Madigan, David (2003). "Experiments with random projections for machine learning". Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining. pp. 517–522. doi:10.1145/956750.956812. ISBN 978-1-58113-737-8.
  446. ^ This data was used in the American Statistical Association Statistical Graphics and Computing Sections 1999 Data Exposition.
  447. ^ Ma, Justin; Saul, Lawrence K.; Savage, Stefan; Voelker, Geoffrey M. (2009). "Identifying suspicious URLs: An application of large-scale online learning". Proceedings of the 26th Annual International Conference on Machine Learning. pp. 681–688. doi:10.1145/1553374.1553462. ISBN 978-1-60558-516-1.
  448. ^ Levchenko, K.; Pitsillidis, A.; Chachra, N.; Enright, B.; Felegyhazi, M.; Grier, C.; Halvorson, T.; Kanich, C.; Kreibich, C.; He Liu; McCoy, D.; Weaver, N.; Paxson, V.; Voelker, G. M.; Savage, S. (2011). "Click Trajectories: End-to-End Analysis of the Spam Value Chain". 2011 IEEE Symposium on Security and Privacy. pp. 431–446. doi:10.1109/SP.2011.24. ISBN 978-0-7695-4402-1.
  449. ^ Mohammad, Rami M., Fadi Thabtah, and Lee McCluskey. "An assessment of features related to phishing websites using an automated technique."Internet Technology And Secured Transactions, 2012 International Conference for. IEEE, 2012.
  450. ^ Singh, Ashishkumar; Rumantir, Grace; South, Annie; Bethwaite, Blair (2014). "Clustering Experiments on Big Transaction Data for Market Segmentation". Proceedings of the 2014 International Conference on Big Data Science and Computing. pp. 1–7. doi:10.1145/2640087.2644161. ISBN 978-1-4503-2891-3.
  451. ^ Bollacker, Kurt; Evans, Colin; Paritosh, Praveen; Sturge, Tim; Taylor, Jamie (2008). "Freebase: A collaboratively created graph database for structuring human knowledge". Proceedings of the 2008 ACM SIGMOD international conference on Management of data. pp. 1247–1250. doi:10.1145/1376616.1376746. ISBN 978-1-60558-102-6.
  452. ^ Mintz, Mike, et al. "Distant supervision for relation extraction without labeled data." Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009.
  453. ^ Mesterharm, Chris; Pazzani, Michael J. (2011). "Active learning using on-line algorithms". Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. pp. 850–858. doi:10.1145/2020408.2020553. ISBN 978-1-4503-0813-7.
  454. ^ Wang, Shusen; Zhang, Zhihua (2013). "Improving CUR matrix decomposition and the Nyström approximation via adaptive sampling" (PDF). The Journal of Machine Learning Research. 14 (1): 2729–2769. arXiv:1303.4207. Bibcode:2013arXiv1303.4207W.
  455. ^ a b "The Pile". pile.eleuther.ai. Retrieved 14 April 2022.
  456. ^ "JSON Lines". jsonlines.org. Retrieved 14 April 2022.
  457. ^ Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn (31 December 2020). "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv:2101.00027 [cs.CL].
  458. ^ "OSCAR". oscar-project.org. Retrieved 12 August 2023.
  459. ^ Ortiz Suarez, Pedro, et al. "[2]." Asynchronous Pipeline for Processing Huge Corpora on Medium to Low Resource Infrastructures. CMLC-7, 2019.
  460. ^ Abadji, Julien, et al. "[3]." Towards a Cleaner Document-Oriented Multilingual Crawled Corpus. LREC, 2022.
  461. ^ Cohen, Vanya. "OpenWebTextCorpus". OpenWebTextCorpus. Retrieved 9 January 2023.
  462. ^ "openwebtext · Datasets at Hugging Face". huggingface.co. 16 November 2022. Retrieved 9 January 2023.
  463. ^ Saulnier, Lucile (2023). "The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset". arXiv:2303.03915 [cs.CL].
  464. ^ "BigScience Data · Datasets at Hugging Face". huggingface.co. 29 August 2023. Retrieved 29 August 2023.
  465. ^ Cattral, Robert; Oppacher, Franz; Deugo, Dwight (2002). "Evolutionary data mining with automatic rule generalization". Recent Advances in Computers, Computing and Communications: 296–300. S2CID 18625415.
  466. ^ Burton, Ariel N.; Kelly, Paul H.J. (August 2006). "Performance prediction of paging workloads using lightweight tracing". Future Generation Computer Systems. 22 (7): 784–793. doi:10.1016/j.future.2006.02.003.
  467. ^ Bain, M.; Muggleton, S. (1994). "Learning Optimal Chess Strategies". Machine Intelligence 13. pp. 291–309. doi:10.1093/oso/9780198538509.003.0012. ISBN 978-0-19-853850-9.
  468. ^ Quinlan, J. Ross (1983). "Learning Efficient Classification Procedures and Their Application to Chess End Games". Machine Learning. pp. 463–482. doi:10.1007/978-3-662-12405-5_15. ISBN 978-3-662-12407-9.
  469. ^ Shapiro, Alen D. (1987). Structured induction in expert systems. Addison-Wesley Longman Publishing Co., Inc.
  470. ^ Matheus, Christopher J.; Rendell, Larry A. (1989). "Constructive Induction on Decision Trees" (PDF). IJCAI. 89. S2CID 11018089.
  471. ^ Belsley, David A., Edwin Kuh, and Roy E. Welsch. Regression diagnostics: Identifying influential data and sources of collinearity. Vol. 571. John Wiley & Sons, 2005.
  472. ^ Ruotsalo, Tuukka; Aroyo, Lora; Schreiber, Guus (2009). "Knowledge-based linguistic annotation of digital cultural heritage collections" (PDF). IEEE Intelligent Systems. 24 (2): 64–75. doi:10.1109/MIS.2009.32. hdl:1871.1/9f6091aa-9596-46a9-9251-f11edeeb28b7. S2CID 6667472. Archived from the original (PDF) on 16 August 2017. Retrieved 6 December 2018.
  473. ^ Li, Lihong; Chu, Wei; Langford, John; Wang, Xuanhui (2011). "Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms". Proceedings of the fourth ACM international conference on Web search and data mining. pp. 297–306. arXiv:1003.5956. doi:10.1145/1935826.1935878. ISBN 978-1-4503-0493-1.
  474. ^ Yeung, Kam Fung; Yang, Yanyan (2010). "A Proactive Personalized Mobile News Recommendation System". 2010 Developments in E-systems Engineering. pp. 207–212. doi:10.1109/DeSE.2010.40. ISBN 978-1-4244-8044-9.
  475. ^ Gass, Susan E.; Roberts, J. Murray (2006). "The occurrence of the cold-water coral Lophelia pertusa (Scleractinia) on oil and gas platforms in the North Sea: colony growth, recruitment and environmental controls on distribution". Marine Pollution Bulletin. 52 (5): 549–559. Bibcode:2006MarPB..52..549G. doi:10.1016/j.marpolbul.2005.10.002. PMID 16300800.
  476. ^ Gionis, Aristides; Mannila, Heikki; Tsaparas, Panayiotis (March 2007). "Clustering aggregation". ACM Transactions on Knowledge Discovery from Data. 1 (1): 4. doi:10.1145/1217299.1217303.
  477. ^ Obradovic, Zoran, and Slobodan Vucetic.Challenges in Scientific Data Mining: Heterogeneous, Biased, and Large Samples. Technical Report, Center for Information Science and Technology Temple University, 2004.
  478. ^ Van Der Putten, Peter; van Someren, Maarten (2000). "CoIL challenge 2000: The insurance company case". Published by Sentient Machine Research, Amsterdam. Also a Leiden Institute of Advanced Computer Science Technical Report. 9: 1–43.
  479. ^ Mao, K. Z. (2002). "RBF neural network center selection based on Fisher ratio class separability measure". IEEE Transactions on Neural Networks. 13 (5): 1211–1217. doi:10.1109/tnn.2002.1031953. PMID 18244518.
  480. ^ Olave, Manuel; Rajkovic, Vladislav; Bohanec, Marko (1989). "An application for admission in public school systems" (PDF). Expert Systems in Public Administration. 1: 145–160.
  481. ^ Lizotte, Daniel J.; Madani, Omid; Greiner, Russell (2012). "Budgeted Learning of Naive-Bayes Classifiers". arXiv:1212.2472 [cs.LG].
  482. ^ Lebowitz, Michael (1984). Concept Learning in a Rich Input Domain: Generalization-Based Memory (Report). doi:10.7916/D8KP8990.
  483. ^ Yeh, I-Cheng; Yang, King-Jang; Ting, Tao-Ming (2009). "Knowledge discovery on RFM model using Bernoulli sequence". Expert Systems with Applications. 36 (3): 5866–5871. doi:10.1016/j.eswa.2008.07.018.
  484. ^ Lee, Wen-Chen; Cheng, Bor-Wen (2011). "An intelligent system for improving performance of blood donation". Journal of Quality Vol. 18 (2): 173.
  485. ^ Schmidtmann, Irene, et al. "Evaluation des Krebsregisters NRW Schwerpunkt Record Linkage Archived 6 December 2018 at the Wayback Machine." Abschlußbericht vom 11 (2009).
  486. ^ Sariyar, Murat; Borg, Andreas; Pommerening, Klaus (2011). "Controlling false match rates in record linkage using extreme value theory". Journal of Biomedical Informatics. 44 (4): 648–654. doi:10.1016/j.jbi.2011.02.008. PMID 21352952.
  487. ^ Candillier, Laurent; Lemaire, Vincent (August 2013). "Active learning in the real-world design and analysis of the Nomao challenge". The 2013 International Joint Conference on Neural Networks (IJCNN). Vol. 8. pp. 1–8. doi:10.1109/IJCNN.2013.6706908. ISBN 978-1-4673-6129-3.
  488. ^ Garrido Marquez, Ivan (2013). A domain adaptation method for text classification based on self-adjusted training approach (Thesis).[page needed]
  489. ^ Nagesh, Harsha S., Sanjay Goil, and Alok N. Choudhary. "Adaptive Grids for Clustering Massive Data Sets." SDM. 2001.
  490. ^ Kuzilek, Jakub, et al. "OU Analyse: analysing at-risk students at The Open University." Learning Analytics Review (2015): 1–16.
  491. ^ Siemens, George, et al. Open Learning Analytics: an integrated & modularized platform. Diss. Open University Press, 2011.
  492. ^ Barlacchi, Gianni; De Nadai, Marco; Larcher, Roberto; Casella, Antonio; Chitic, Cristiana; Torrisi, Giovanni; Antonelli, Fabrizio; Vespignani, Alessandro; Pentland, Alex; Lepri, Bruno (27 October 2015). "A multi-source dataset of urban life in the city of Milan and the Province of Trentino". Scientific Data. 2 (1). Bibcode:2015NatSD...250055B. doi:10.1038/sdata.2015.55. PMC 4622222. PMID 26528394.
  493. ^ Vanschoren J, van Rijn JN, Bischl B, Torgo L (2013). "OpenML: networked science in machine learning". SIGKDD Explorations. 15 (2): 49–60. arXiv:1407.7722. doi:10.1145/2641190.2641198. S2CID 4977460.
  494. ^ Olson RS, La Cava W, Orzechowski P, Urbanowicz RJ, Moore JH (2017). "PMLB: a large benchmark suite for machine learning evaluation and comparison". BioData Mining. 10 (1): 36. arXiv:1703.00512. Bibcode:2017arXiv170300512O. doi:10.1186/s13040-017-0154-4. PMC 5725843. PMID 29238404.
  495. ^ "Off The Shelf Datasets". appen.com. Appen. Retrieved 30 December 2020.
  496. ^ "Open Source Datasets". appen.com. Appen. Retrieved 30 December 2020.
Retrieved from "https://en.wikipedia.org/w/index.php?title=List_of_datasets_for_machine-learning_research&oldid=1267790656"