Это список важных публикаций по науке о данных , как правило, организованный в порядке использования в рабочем процессе анализа данных.
Ознакомьтесь со списком важных публикаций по статистике , чтобы ознакомиться с более научно-исследовательскими и фундаментальными публикациями; этот список носит скорее прикладной, бизнес-ориентированный и междисциплинарный характер.
Общие критерии включения статей:
Статьи известных практиков или профессоров, имеющие страницу в Википедии или ссылку на их известность
Общие знания, которые должны знать все специалисты по работе с данными, со ссылками, подтверждающими это утверждение
Высокоцитируемые публикации по прикладной статистике и машинному обучению
Статьи, способствующие обсуждению в области науки о данных в целом (например, статья « Внимание — это все, что вам нужно » — это, пожалуй, знаковая статья [1] , которую можно добавить сюда, но она относится только к генеративному искусственному интеллекту , а не ко всем специалистам по работе с данными)
Вот несколько причин, по которым конкретная публикация может считаться важной:
Создатель темы – публикация, создавшая новую тему.
Прорыв – публикация, которая значительно изменила научные знания.
Влияние — публикация, которая оказала значительное влияние на мир или оказала огромное влияние на преподавание науки о данных.
По возможности для подтверждения включения публикации в этот список используется ссылка.
История
Статистическое моделирование: две культуры (с комментариями и возражениями автора)
Описание: Описывает две культуры статистики, одна из которых использует экономную и генеративную стохастическую модель, а другая — алгоритмическую модель без известного механизма генерации данных. Брейман утверждает, что, хотя статистика традиционно отдает предпочтение использованию стохастической модели, есть ценность в расширении методов, которые статистики могут использовать для изучения явлений.
Важность: Влияние на философию статистиков прямо перед возросшим использованием методов машинного обучения и глубокого обучения. В 20-летней ретроспективе этой статьи «слова Бреймана, возможно, более актуальны, чем когда-либо». [3] Известные статистики того времени написали статьи-мнения об этой публикации. Хотя в целом публикация была критической, Дэвид Кокс пишет, что публикация «содержит достаточно правды и раскрывает достаточно слабых мест, чтобы навести на размышления». [2] Брэдли Эфрон прокомментировал, что эта публикация является «стимулирующей работой». [2] Эмануэль Парзен также прокомментировал эту публикацию, что «Брейман предупреждает нас о систематических ошибках (приводящих к неправильным выводам), которые были совершены при применении современной статистической практики моделирования данных». [2]
Описание: Ретроспективная дискуссионная статья об истории и истоках науки о данных с рядом комментариев известных статистиков.
Важность: Это было описано как «первая работа в данной области, которая представляет такой всеобъемлющий и глубокий обзор и исследование» [5] , и помогает определить область, имеющую множество определений.
Манифест системы управления компонуемыми данными
Автор: Педро Педрейра, Орри Эрлинг, Константинос Каранасос, Скотт Шнайдер, Уэс МакКинни , Сатья Р. Валлури, Мохамед Зайт, Жак Надо
Описание: Концептуальный документ, предлагающий смену парадигмы в разработке систем управления данными с использованием стандартных, компонуемых, совместимых инструментов вместо разрозненных программных средств.
Важность: взгляд на то, как должны разрабатываться будущие программные инструменты для науки о данных для более эффективных рабочих процессов, принципы которых «будут особенно важны для решения проблемы фрагментации, улучшения взаимодействия и продвижения ориентации на пользователя, поскольку экосистемы данных становятся все более сложными» [7] .
Описание: Описывает структуру очистки данных , которая обобщена в цитате: «каждая переменная — это столбец, каждое наблюдение — это строка, а каждый тип единицы наблюдения — это таблица». [8] Это позволяет создать стандартную структуру данных, вокруг которой можно последовательно строить инструменты анализа данных.
Важность : Процитированная более 1500 раз, эта работа по созданию аккуратных данных была описана Дэвидом Донохо как имеющая «большее влияние на сегодняшнюю практику анализа данных, чем многие высоко оцененные теоретические статьи по статистике». [4] В контексте визуализации данных эта публикация, как говорят, поддерживает «эффективное исследование и прототипирование, поскольку переменным можно назначать разные роли в графике, не изменяя ничего в исходном наборе данных». [9]
Важность: оказывает влияние на обучение специалистов, работающих как с данными, так и без них, созданию более удобных для анализа электронных таблиц, а также описывается как изложение «лучших практик работы с электронными таблицами». [11]
Визуализации данных
Количественная графика в статистике: краткая история
Описание: Описывает историю и эволюцию количественной графики в статистике, рассматривая пространственную организацию (17 и 18 века), дискретное сравнение (18 и 19 века), непрерывное распределение (19 век) и многомерное распределение и корреляцию (конец 19 и 20 века).
Важность: Помогает специалистам по обучению данным оценить новизну используемых графиков. В более поздней публикации «Графические методы в статистике» Стивена Файнберга в 1979 году говорится, что его публикация «многим обязана работе Бенигера и Робина». [13]
Инструменты
Скрытый технический долг в системах машинного обучения
Описание: В статье утверждается, что «опасно думать, что быстрые результаты [сложного машинного обучения] даются бесплатно», и рассматриваются факторы риска, которые следует учитывать при внедрении системы машинного обучения.
Важность: Все авторы работали в Google , статья цитируется более 1000 раз [15] и помогла специалистам, размышляющим о быстром внедрении инструмента машинного обучения, не имея представления о долгосрочном обслуживании инструмента.
Несколько полезных вещей, которые нужно знать о машинном обучении
Описание: Целью данной статьи является извлечение недоступных « народных знаний » для эффективной реализации проектов машинного обучения, поскольку «проекты машинного обучения занимают гораздо больше времени, чем необходимо, или в конечном итоге дают результаты, далекие от идеальных». [16]
Важность: цитируется более 4000 раз [17] с целью повлиять на общий набор знаний для специалистов по работе с данными, использующих машинное обучение. [18]
Преподавание науки о данных
Вводный курс статистики: Птолемеевский учебный план
Описание: В данной статье обосновывается необходимость переосмысления того, как преподаватели статистики должны структурировать свои вводные курсы по статистике, отходя от технического аппарата, основанного на нормальном распределении, и переходя к более простым альтернативным методам, основанным на перестановках, выполняемых на компьютерах.
Важность: Процитированная более 300 раз [21], эта статья повлияла на преподавателей статистики в 21 веке, заставив их пересмотреть подход к преподаванию простой механики статистики, в то время как использование компьютеров может быть использовано для достижения большего с меньшими затратами.
^ «Познакомьтесь с суперзвездами искусственного интеллекта стоимостью 4 миллиарда долларов, которых потеряла Google». Bloomberg . 13 июля 2023 г. – через www.bloomberg.com.
^ abcd Брейман, Лео (1 августа 2001 г.). «Статистическое моделирование: две культуры (с комментариями и ответом автора)». Статистическая наука . 16 (3). doi :10.1214/ss/1009213726. ISSN 0883-4237.
^ Raper, Simon (29 января 2020 г.). «Leo Breiman's "Two Cultures"». Значение . 17 : 34–37 . doi :10.1111/j.1740-9713.2020.01357.x . Получено 21 мая 2024 г.
^ ab Donoho, David (2 октября 2017 г.). «50 лет науки о данных». Журнал вычислительной и графической статистики . 26 (4): 745– 766. doi : 10.1080/10618600.2017.1384734. ISSN 1061-8600.
^ Цао, Лонгбин (29 июня 2017 г.). «Наука о данных: всесторонний обзор». ACM Computing Surveys . 50 (3): 43:1–43:42. arXiv : 2007.03606 . doi : 10.1145/3076253. ISSN 0360-0300.
^ Педрейра, Педро; Эрлинг, Орри; Каранасос, Константинос; Шнайдер, Скотт; МакКинни, Уэс; Валлури, Сатья Р; Зайт, Мохамед; Надо, Жак (1 июня 2023 г.). «Манифест составной системы управления данными». Труды Фонда VLDB . 16 (10): 2679–2685 . doi : 10.14778/3603581.3603604. ISSN 2150-8097.
^ Somrah, Priyanka (18 апреля 2024 г.). «Distilling The Composable Data Management System Manifesto». Work-Bench . Получено 17 мая 2024 г.
^ ab Wickham, Hadley (12 сентября 2014 г.). «Tidy Data». Журнал статистического программного обеспечения . 59 (10): 1– 23. doi : 10.18637/jss.v059.i10 . ISSN 1548-7660.
^ Waskom, Michael (6 апреля 2021 г.). "Seaborn: визуализация статистических данных". Журнал программного обеспечения с открытым исходным кодом . 6 (60): 3021. Bibcode : 2021JOSS....6.3021W. doi : 10.21105/joss.03021 . ISSN 2475-9066.
^ Броман, Карл В.; Ву, Кара Х. (2 января 2018 г.). «Организация данных в электронных таблицах». Американский статистик . 72 (1): 2–10 . doi :10.1080/00031305.2017.1375989. ISSN 0003-1305.
^ Estaki, Mehrbod; Jiang, Lingjing; Bokulich, Nicholas A.; McDonald, Daniel; González, Antonio; Kosciolek, Tomasz; Martino, Cameron; Zhu, Qiyun; Birmingham, Amanda; Vázquez-Baeza, Yoshiki; Dillon, Matthew R.; Bolyen, Evan; Caporaso, J. Gregory; Knight, Rob (2020). "QIIME 2 обеспечивает комплексный сквозной анализ разнообразных данных по микробиому и сравнительные исследования с общедоступными данными". Current Protocols in Bioinformatics . 70 (1): e100. doi :10.1002/cpbi.100. ISSN 1934-3396. PMC 9285460 . PMID 32343490.
^ Бенигер, Джеймс Р.; Робин, Дороти Л. (1 февраля 1978 г.). «Количественная графика в статистике: краткая история». The American Statistician . 32 (1): 1– 11. doi :10.2307/2683467. JSTOR 2683467 – через JSTOR .
^ Файнберг, Стивен Э. (1979). «Графические методы в статистике». Американский статистик . 33 (4): 165– 178. doi : 10.2307/2683729. hdl : 11299/199302 . JSTOR 2683729.
^ Скалли, Д.; Холт, Гэри; Головин, Дэниел; Давыдов, Юджин; Филлипс, Тодд; Эбнер, Дитмар; Чаудхари, Винай; Янг, Майкл; Креспо, Жан-Франсуа; Деннисон, Дэн (7 декабря 2015 г.). «Скрытый технический долг в системах машинного обучения». Труды 28-й Международной конференции по системам обработки нейронной информации - Том 2. NIPS'15. Кембридж, Массачусетс, США: MIT Press: 2503–2511 .
^ Ссылки Google Scholar https://scholar.google.com/scholar?cites=2255096949091421445&as_sdt=800005&sciodt=0,15&hl=en
^ ab Домингос, Педро (1 октября 2012 г.). «Несколько полезных вещей, которые нужно знать о машинном обучении». Сообщения ACM . 55 (10): 78– 87. doi :10.1145/2347736.2347755. ISSN 0001-0782.
^ Ссылки Google Scholar https://scholar.google.com/scholar?cites=4404716649035182981&as_sdt=40005&sciodt=0,10&hl=en&oi=gsb
^ Баррелл, Дженна (1 июня 2016 г.). «Как машина «думает»: понимание непрозрачности в алгоритмах машинного обучения». Большие данные и общество . 3 (1): 205395171562251. doi : 10.1177/2053951715622512 . ISSN 2053-9517.
^ «Вспоминая Джорджа Кобба (1947–2020) | Amstat News». 1 июля 2020 г. Получено 21 апреля 2024 г.
^ Кобб, Джордж В. (12 октября 2007 г.). «Вводный курс статистики: учебная программа Птолемея?». Технологические инновации в статистическом образовании . 1 (1). doi :10.5070/t511000028. ISSN 1933-4214.
^ Ссылки Google Scholar https://scholar.google.com/scholar?cites=13882980985899619210&as_sdt=800005&sciodt=0,15&hl=en&oi=gsb
Внешние ссылки
Статьи и технические блоги компаний, делящихся своими работами в области науки о данных и машинного обучения в производстве.