Стата

Статистический программный пакет
Стата
Оригинальный автор(ы)Уильям Гулд [1]
Разработчик(и)СтатаКорп
Первоначальный выпуск1985 ( 1985 )
Стабильный релиз
18.0 / 25 апреля 2023 г. ; 21 месяц назад ( 2023-04-25 )
Написано вС
Операционная системаWindows , MacOS , Linux
ТипСтатистический анализ
Численный анализ
ЛицензияЗапатентованный
Веб-сайтwww.stata.com

Stata ( / ˈ s t t ə / , [2] STAY -ta , альтернативно / ˈ s t æ t ə / , иногда стилизовано как STATA [3] [4] ) — статистический программный пакет общего назначения, разработанный StataCorp для обработки данных, визуализации, статистики и автоматизированной отчетности. Он используется исследователями во многих областях, включая биомедицину , экономику , эпидемиологию и социологию . [5]

Stata изначально была разработана Computing Resource Center в Калифорнии, а первая версия была выпущена в 1985 году. [6] В 1993 году компания переехала в Колледж-Стейшн, штат Техас , и была переименована в Stata Corporation, теперь известную как StataCorp. [1] Основной релиз в 2003 году включал новую графическую систему и диалоговые окна для всех команд. [6] С тех пор новая версия выпускается раз в два года. [7] Текущая версия — Stata 18, выпущенная в апреле 2023 года. [8]

Технический обзор и терминология

Пользовательский интерфейс

С момента своего создания Stata всегда использовала интегрированный интерфейс командной строки. Начиная с версии 8.0, Stata включила графический пользовательский интерфейс , который использует меню и диалоговые окна для предоставления доступа ко многим встроенным командам. Набор данных можно просматривать или редактировать в формате электронной таблицы. Начиная с версии 11, другие команды можно выполнять, пока открыт браузер или редактор данных.

Структура и хранение данных

До выпуска версии 16 [9] Stata могла открывать только один набор данных в любой момент времени. Stata обеспечивает гибкость при назначении типов данных данным. Ее команда автоматически переназначает данные на типы данных, которые занимают меньше памяти без потери информации. Stata использует целочисленные типы хранения, которые занимают только один или два байта вместо четырех, и для чисел с плавающей точкойcompress по умолчанию используется одинарная точность (4 байта), а не двойная точность (8 байтов) .

Фирменный язык вывода Stata известен как SMCL, что означает Stata Markup and Control Language и произносится как «смикль». [10]

Формат данных Stata всегда табличный . Stata называет столбцы табличных данных переменными.

Совместимость форматов данных

Stata может импортировать данные в различных форматах. Это включает форматы данных ASCII (такие как CSV или форматы банка данных ) и форматы электронных таблиц (включая различные форматы Excel ).

Собственные форматы файлов Stata со временем изменились, хотя не каждый релиз Stata включает новый формат набора данных. Каждая версия Stata может читать все старые форматы наборов данных и может записывать как текущий, так и самый последний предыдущий формат набора данных с помощью saveoldкоманды. [11] Таким образом, текущий релиз Stata всегда может открывать наборы данных, созданные в старых версиях, но старые версии не могут читать наборы данных в новых форматах.

Stata может считывать и записывать наборы данных в формате SAS XPORT изначально, используя команды fdause и fdasave .

Некоторые другие эконометрические приложения, включая gretl , могут напрямую импортировать форматы файлов Stata.

История

Происхождение

Разработка Stata началась в 1984 году, изначально Уильямом (Биллом) Гулдом, а затем Шоном Беккетти. Изначально программное обеспечение предназначалось для конкуренции со статистическими программами для персональных компьютеров, такими как SYSTAT и MicroTSP . [6] Stata была написана, тогда, как и сейчас, на языке программирования C , изначально для ПК под управлением операционной системы DOS . Первая версия была выпущена в 1985 году с 44 командами. [6]

Команды в Stata 1.0 и Stata 1.1
добавитьрежвставитьсюжеткатушка
звуковой сигналделатьвходзапросрезюмировать
куронитьэтикеткарегресстабулировать
захватыватьстеретьсписокпереименоватьтест
подтверждатьВыходмакросзаменятьтип
преобразоватьрасширятьслияниебегатьиспользовать
коррелироватьформатизменитьсохранять
считатьгенерироватьболеенабор
описыватьпомощьвыходнойфайлсортировать

Разработка

В период с 1985 по 2024 год было выпущено 18 основных релизов Stata, а также дополнительные обновления кода и документации между основными релизами. [7] В первые годы дополнительные наборы программ Stata иногда продавались как «комплекты» или распространялись как диски поддержки. С выпуском Stata 6 в 1999 году updates начали доставляться пользователям через Интернет. [6] Первоначальный выпуск Stata был для операционной системы DOS . С тех пор версии Stata были выпущены для систем, работающих под управлением вариантов Unix , таких как дистрибутивы Linux , Windows и MacOS . [6] Все файлы Stata не зависят от платформы.

За 37 лет существования Stata в нее были добавлены сотни команд. [12] [13] Некоторые разработки оказались особенно важными и продолжают формировать пользовательский опыт сегодня, включая расширяемость , независимость от платформы и активное сообщество пользователей . [6]


Расширяемость

Команда programбыла реализована в Stata 1.2, что дало пользователям возможность добавлять свои собственные команды. [6] [14] ado-файлы появились в Stata 2.1, что позволило автоматически загружать в память написанную пользователем программу. Многие написанные пользователем ado-файлы отправляются в Архив статистических программных компонентов, размещенный в Бостонском колледже. StataCorp добавила sscкоманду, позволяющую добавлять программы, вносимые сообществом, непосредственно в Stata. [15] Более поздние версии Stata позволяют пользователям вызывать скрипты Python с помощью команд, а также позволяют средам разработки Python, таким как Jupyter Notebooks, импортировать команды Stata. [16] Хотя Stata изначально не поддерживает R, существуют написанные пользователем расширения для использования скриптов R в Stata. [17]

Сообщество пользователей

Ряд важных разработок был инициирован активным сообществом пользователей Stata. [6] Stata Technical Bulletin , который часто содержит команды, созданные пользователями, был представлен в 1991 году и выпускался шесть раз в год. Он был перезапущен в 2001 году как рецензируемый журнал Stata Journal , ежеквартальное издание, содержащее описания команд, предоставленных сообществом, и советы по эффективному использованию Stata. В 1994 году список рассылки начинался как центр для пользователей, чтобы совместно решать проблемы кодирования и технические проблемы; в 2014 году он был преобразован в веб-форум. В 1995 году Statacorp начала организовывать конференции пользователей и разработчиков, которые проводятся ежегодно. Только ежегодная конференция Stata, проводимая в Соединенных Штатах, проводится StataCorp. Другие встречи групп пользователей проводятся ежегодно в Соединенных Штатах (конференция Stata), Великобритании, Германии и Италии и реже в нескольких других странах. Местные дистрибьюторы Stata проводят встречи групп пользователей в своих собственных странах.

Таблица: Выпуски и разработки Stata
ВерсияДата выпускаВыберите новые или улучшенные функции
1.0Январь 1985 г.
  • Первоначальный выпуск
  • Сорок четыре команды
1.1Февраль 1985 г.
  • Исправления ошибок
1.2Май 1985 г.
  • Новая система меню
  • Лучшая онлайн-помощь
  • keep
1.3Август 1985 г.
  • Статистика/Графика
  • program
1.4Август 1986 г.
  • Новая документация
  • Отформатированныйinfile
1.5Февраль 1987 г.
  • anova
  • logit,probit
2.0Июнь 1988 г.
  • Новая графика
  • Строковые переменные
  • Анализ выживаемости: Кокс и Каплан-Майер
  • Пошаговая регрессия
2.1Сентябрь 1990 г.
  • Байтовые переменные
  • Факторный анализ
  • ado-файлы
  • reshape
3.0Март 1992 г.
  • logistic, ologit, oprobit, clogit,mlogit
  • tobit, cnreg, rreg, qreg, weibull,ereg
  • epitab
  • pweights
3.1Август 1993 г.
  • mvreg, sureg, heckman, nlreg, areg,canon
  • nbreg
  • ограниченная линейная регрессия
  • ml
  • codebook
4.0Январь 1995 г.
  • xtreg
  • glm
5.0Октябрь 1996 г.
  • xtgee,xtprobit
  • prais, newey,intreg
  • команды оценки обследования
  • fracpoly
  • stрасширенный
6.0Январь 1999 г.
  • веб-осведомленность
  • новыйml
  • операторы временных рядов
  • arima,arch
  • stпереписано
7.0Декабрь 2000 г.
  • frailty
  • xtabond
  • кластерный анализ
  • nlogit
  • roc
  • СМКЛ
8.0Январь 2003 г.
  • графика
  • расширенный графический интерфейс, диалоговые окна доступны для всех команд
  • manova
  • больше опросов
  • больше временных рядов (VAR, SVAR)
  • больше интернализации GLLAMM
8.1Июль 2003 г.
  • обновленоml
8.2Октябрь 2003 г.
  • графические изменения
9.0Апрель 2005 г.
  • мата матричный язык программирования
  • особенности опроса
  • линейные смешанные модели
  • многономинальные пробит-модели
9.1Сентябрь 2005 г.
9.2Апрель 2006 г.
10.0Июнь 2007 г.
  • редактор графиков
  • логистические и пуассоновские модели со сложными, вложенными компонентами ошибок
10.1Август 2008 г.
11.0Июль 2009 г.
  • факторные переменные
  • marginsкоманда постоценки
  • множественное вменение
11.1Июнь 2010 г.
11.2Март 2011 г.
12.0Июль 2011 г.
  • автоматическое управление памятью
  • моделирование структурных уравнений
12.1Январь 2012 г.
13.0Июнь 2013 г.
  • длинные струны
  • эффекты лечения
13.1Октябрь 2013 г.
14.0Апрель 2015 г.
  • поддержка юникода
  • Байесовский статистический анализ
14.1Октябрь 2015 г.
14.2Сентябрь 2016 г.
15.0Июнь 2017 г.
  • латентный классовый анализ
  • Документы PDF и Word
  • прозрачность или непрозрачность цвета в графиках
15.1Ноябрь 2017 г.
16.0Июнь 2019 г.
  • кадры (несколько наборов данных в памяти)
  • лассо регрессия
  • автоматизированная отчетность
  • обновленные модели выбора
16.1Февраль 2020 г.
17.0Апрель 2021 г.
  • обновленная tablesкоманда
  • байесовская эконометрика
18.0Апрель 2023 г.
  • Усреднение байесовской модели
  • анализ причинно-следственной связи
  • гетерогенная разница-в-разницах

Программные продукты

Существует четыре сборки Stata: Stata/MP, Stata/SE, Stata/BE и Numerics by Stata. [18] В то время как Stata/MP допускает встроенную параллельную обработку определенных команд, Stata/SE и Stata/BE являются узкими местами и ограничивают использование только одним ядром. [19] Stata/MP выполняет определенные команды примерно в 2,4 раза быстрее, что составляет примерно 60% от теоретической максимальной эффективности при запуске параллельных процессов на четырех ядрах ЦП по сравнению с версиями SE или BE. [19] Numerics by Stata допускает веб-интеграцию команд Stata.

Версии SE и BE различаются по объему памяти, которую могут использовать наборы данных. Хотя Stata/MP может хранить от 10 до 20 миллиардов наблюдений и до 120 000 переменных, Stata/SE и Stata/BE хранят до 2,14 миллиарда наблюдений и обрабатывают 32 767 переменных и 2 048 переменных соответственно. Максимальное количество независимых переменных в модели составляет 65 532 переменных в Stata/MP, 10 998 переменных в Stata/SE и 798 переменных в Stata/BE. [18]

Цены и лицензирование Stata зависят от предполагаемого использования: бизнес, правительство/некоммерческая организация, образование или студент. Лицензии на одного пользователя могут быть либо возобновляемыми ежегодно, либо бессрочными. Другие типы лицензий включают в себя лицензию на одного пользователя для использования одновременными пользователями, лицензию на сайт, лицензию на одного пользователя для массового ценообразования или студенческую лабораторию. [20]

Пример кода

Следующий набор команд посвящен простому управлению данными. [21]

sysuse auto // Открыть включенный автоматический набор данных browse  // Просмотрите набор данных (открывает окно редактора данных)describe  // Описывает набор данных и связанные с ним переменные summary  // Сводная информация о числовых переменныхcodebook make foreign // Сводная информация о make (строковых) и внешних (числовых) переменныхпросмотреть, если  отсутствуют (rep78) // Просмотреть только наблюдения с отсутствующими данными для переменной rep78 list make if  missing (rep78) // Вывести список марок автомобилей с отсутствующими данными для переменной rep78

Следующий набор команд касается описательной статистики.

подытожить цену, подробно // Подробная сводная статистика для переменной ценыtabulate foreign // Односторонняя таблица частот для переменной foreign tabulate rep78 foreign, row // Двусторонняя таблица частот для переменных rep78 и foreignsummary mpg if foreign ==  1  // Сводная информация о расходе топлива на галлон, если автомобиль иностранного производства (знак "==" проверяет равенство) by foreign, sort : summary mpg // То же, что и выше, но с использованием префикса "by". tabulate foreign, summary (mpg) // То же, что и выше, но с использованием команды tabulate.

Простая проверка гипотезы:

ttest миль на галлон, по (иностранным) // T-тест для разницы в средних значениях для отечественных и иностранных автомобилей

Графические данные:

twoway (разброс миль на галлон веса) // Диаграмма рассеяния, показывающая связь между милями на галлон и весом twoway (разброс миль на галлон веса), по (иностранным, общим ) // Три графика для отечественных, иностранных и всех автомобилей

Линейная регрессия:

сгенерировать wtsq = вес ^ 2  // Создать новую переменную для регрессии веса в квадрате mpg weight wtsq foreign, vce (робастная) // Линейная регрессия mpg по весу, wtsq и foreign predict mpghat // Создать новую переменную, содержащую прогнозируемые значения mpg twoway (разброс mpg weight) (line mpghat weight, sort ), by (foreign) // Данные графика и подобранная линия
Графики регрессии из автоматического набора данных в Stata 17

Смотрите также

Ссылки

  1. ^ ab Newton, H. Joseph (2005). «Беседа с Уильямом Гулдом». The Stata Journal . 5 (1): 19– 31. doi : 10.1177/1536867X0500500103 . S2CID  118322998.
  2. ^ Кокс, Николас Дж. "Statalist FAQ". Statalist: The Stata Forum . Получено 24 апреля 2021 г.
  3. ^ "STATA Data Manipulation: Basics and Applications 7" (PDF) . Iuj.ac.jp . Получено 27 января 2022 г. .
  4. ^ Суарес, Эрик; Перес, Синтия; Ногерас, Грасиела; Морено-Горрин, Камилла (2016). биостатистика в сфере общественного здравоохранения.
  5. ^ "Дисциплины". Stata: Программное обеспечение для статистики и науки о данных . Получено 2021-04-21 .
  6. ^ abcdefghi Cox, Nicholas J. (2005). «Краткая история Stata в честь ее 20-летия». The Stata Journal . 5 (1): 2– 18. doi : 10.1177/1536867X0500500102 . S2CID  118366843.
  7. ^ ab Gould, William W.; Cox, Nicholas J. «Когда Stata была впервые выпущена? Когда были выпущены более поздние версии?». Stata: Software for Statistics and Data Science . Получено 22 апреля 2021 г. .
  8. ^ "Что нового в Stata?". Stata: программное обеспечение для статистики и науки о данных . StataCorp . Получено 25 апреля 2023 г.
  9. ^ "Фреймы данных: несколько наборов данных в памяти". Stata.com . Получено 2020-08-13 .
  10. ^ Stata 18 Base Reference Manual . Колледж-Стейшн, Техас: Stata Press. 2023.
  11. ^ "Помощь Stata 16 для сохранения". Stata.com .
  12. ^ Stata Glossary and Index: Выпуск 17 (PDF) . College Station, TX: Stata Press. стр.  1– 50. ISBN 1-59718-283-4.
  13. ^ "Stata features". Stata: Software for Statistics and Data Science . StataCorp . Получено 24 апреля 2021 г. .
  14. ^ "программа - Определение и манипулирование программами" (PDF) . Stata: Программное обеспечение для статистики и науки о данных . Stata Press . Получено 24 апреля 2021 г. .
  15. ^ "ssc - Установка и удаление пакетов из SSC" (PDF) . Stata: Программное обеспечение для статистики и науки о данных . Stata Press . Получено 24 апреля 2021 г. .
  16. ^ «Используйте Python и Stata вместе | Stata».
  17. ^ «Как переключить рабочий процесс со Stata на R, по одному биту за раз · Фредерик Солт». Fsolt.org . Получено 27 января 2022 г. .
  18. ^ ab "Какая Stata мне подходит?". Stata: программное обеспечение для статистики и науки о данных . Получено 23 апреля 2021 г.
  19. ^ ab "Parallel Stata". Гарвардская школа бизнеса.
  20. ^ "Заказать программное обеспечение Stata". Stata: Программное обеспечение для статистики и науки о данных . StataCorp . Получено 25 апреля 2021 г. .
  21. ^ Начало работы со Stata для Windows (PDF) (Выпуск 17-е изд.). Колледж-Стейшн, Техас: Stata Press. стр.  1–19 . ISBN 1-59718-334-2. Получено 25 апреля 2021 г. .

Дальнейшее чтение

  • Биттманн, Феликс (2019). Stata - Действительно краткое введение. Бостон: DeGruyter Oldenbourg. ISBN 978-3-11061-729-0.
  • Пинзон, Энрике, изд. (2015). Тридцать лет со Stata: ретроспектива. Колледж-Стейшн, Техас: Stata Press. ISBN 978-1-59718-172-3.
  • Гамильтон, Лоуренс С. (2013). Статистика с STATA. Бостон: Cengage. ISBN 978-0-84006-463-9.
  • Официальный сайт
  • Журнал Стата
  • Стата Пресс
  • Технический бюллетень Stata
  • Архив статистических программных компонентов
Взято с "https://en.wikipedia.org/w/index.php?title=Stata&oldid=1267725505"