дплир

Пакет R
дплир
Оригинальный автор(ы)Хэдли Уикхэм , Ромен Франсуа, Лайонел Генри, Кирилл Мюллер, Дэвис Воган
Первоначальный выпуск7 января 2014 г. ; 11 лет назад (2014-01-07)
Стабильный релиз
1.1.0 / 29 января 2023 г. ; 2 года назад (2023-01-29)
Написано вР
ЛицензияЛицензия Массачусетского технологического института
Веб-сайтdplyr.tidyverse.org//

dplyr — это пакет R , набор функций которого разработан для обеспечения возможности манипулирования dataframe (структурой данных, похожей на электронную таблицу) интуитивно понятным и удобным для пользователя способом. Это один из основных пакетов популярного набора пакетов tidyverse на языке программирования R. [ 1] Аналитики данных обычно используют dplyr для преобразования существующих наборов данных в формат, лучше подходящий для определенного типа анализа или визуализации данных. [2] [3]

Например, кто-то, кто хочет проанализировать большой набор данных, может захотеть просмотреть только меньший поднабор данных. В качестве альтернативы пользователь может захотеть переупорядочить данные, чтобы увидеть строки, ранжированные по некоторому числовому значению или даже на основе комбинации значений из исходного набора данных. Функции в пакете dplyr позволят пользователю выполнять такие задачи.

dplyr был запущен в 2014 году . [4] На веб-странице dplyr пакет описывается как «грамматика обработки данных, предоставляющая последовательный набор глаголов, которые помогут вам решить наиболее распространенные проблемы обработки данных». [5]

Пять основных глаголов

Хотя dplyr на самом деле включает в себя несколько десятков функций, которые позволяют выполнять различные формы манипуляции данными, пакет включает в себя пять основных глаголов или действий: [6]

  • filter() , который используется для извлечения строк из фрейма данных на основе условий, указанных пользователем;
  • select() , который используется для выборки подмножества фрейма данных по его столбцам;
  • order() , который используется для сортировки строк в фрейме данных на основе атрибутов, содержащихся в определенных столбцах;
  • mutate() , который используется для создания новых переменных путем изменения и/или комбинирования значений из существующих столбцов; и
  • summarize() , также пишется summarise() , который используется для объединения значений из фрейма данных в единую сводку.

Дополнительные функции

В дополнение к пяти основным глаголам, dplyr также включает несколько других функций, которые позволяют исследовать и манипулировать фреймами данных. Среди них:

  • count() , который используется для суммирования количества уникальных наблюдений, содержащих определенное значение или категориальный атрибут;
  • rename() , который позволяет пользователю изменять имена столбцов для переменных, часто для повышения удобства использования и интуитивного понимания набора данных;
  • slice_max() , который возвращает подмножество данных, содержащее строки с наибольшим количеством значений для некоторой конкретной переменной;
  • slice_min() , который возвращает подмножество данных, содержащее строки с наименьшим количеством значений для некоторой конкретной переменной.

Встроенные наборы данных

Пакет dplyr поставляется с пятью наборами данных. Это: band_instruments, band_instruments2, band_members, starwars, storms.

Авторские права на dplyr принадлежат Posit PBC , ранее RStudio PBC. dplyr изначально был выпущен по лицензии GPL [ требуется ссылка ] , но в 2022 году Posit изменил условия лицензии для пакета на «более разрешительную» лицензию MIT . [7] Основное различие между двумя типами лицензий заключается в том, что лицензия MIT допускает последующее повторное использование кода в проприетарном программном обеспечении, тогда как лицензия GPL этого не делает.

Ссылки

  1. ^ Уикхэм, Хэдли; Аверик, Мара; Брайан, Дженнифер; Чанг, Уинстон; Макгоуэн, Люси Д'Агостино; Франсуа, Ромен; Гролемунд, Гарретт; Хейс, Алекс; Генри, Лайонел; Хестер, Джим; Кун, Макс; Педерсен, Томас Лин; Миллер, Эван; Баш, Стефан Милтон; Мюллер, Кирилл (2019-11-21). «Добро пожаловать в Tidyverse». Журнал программного обеспечения с открытым исходным кодом . 4 (43): 1686. doi : 10.21105/joss.01686 . ISSN  2475-9066.
  2. ^ Ядав, Рохит (29.10.2019). «Python's Pandas против R's Tidyverse: кто победит?». Журнал Analytics India . Получено 06.02.2021 .
  3. ^ Крилл, Пол (2015-06-30). «Почему R? Плюсы и минусы языка R». InfoWorld . Получено 2021-02-06 .
  4. ^ "Представляем dplyr". blog.rstudio.com . 17 января 2014 . Получено 2020-09-02 .
  5. ^ "Справочник функций". dplyr.tidyverse.org . Получено 2021-02-06 .
  6. ^ Гролемунд, Гарретт; Уикхем, Хэдли. 5 Преобразование данных | R для науки о данных.
  7. ^ «Грамматика манипулирования данными». tidyverse.org . Получено 14.01.2023 .
Retrieved from "https://en.wikipedia.org/w/index.php?title=Dplyr&oldid=1258615346"