Оригинальный автор(ы) | Уильям Гулд [1] |
---|---|
Разработчик(и) | СтатаКорп |
Первоначальный выпуск | 1985 ( 1985 ) |
Стабильный релиз | 18.0 / 25 апреля 2023 г. ( 2023-04-25 ) |
Написано в | С |
Операционная система | Windows , MacOS , Linux |
Тип | Статистический анализ Численный анализ |
Лицензия | Запатентованный |
Веб-сайт | www.stata.com |
Stata ( / ˈ s t eɪ t ə / , [2] STAY -ta , альтернативно / ˈ s t æ t ə / , иногда стилизовано как STATA [3] [4] ) — статистический программный пакет общего назначения, разработанный StataCorp для обработки данных, визуализации, статистики и автоматизированной отчетности. Он используется исследователями во многих областях, включая биомедицину , экономику , эпидемиологию и социологию . [5]
Stata изначально была разработана Computing Resource Center в Калифорнии, а первая версия была выпущена в 1985 году. [6] В 1993 году компания переехала в Колледж-Стейшн, штат Техас , и была переименована в Stata Corporation, теперь известную как StataCorp. [1] Основной релиз в 2003 году включал новую графическую систему и диалоговые окна для всех команд. [6] С тех пор новая версия выпускается раз в два года. [7] Текущая версия — Stata 18, выпущенная в апреле 2023 года. [8]
С момента своего создания Stata всегда использовала интегрированный интерфейс командной строки. Начиная с версии 8.0, Stata включила графический пользовательский интерфейс , который использует меню и диалоговые окна для предоставления доступа ко многим встроенным командам. Набор данных можно просматривать или редактировать в формате электронной таблицы. Начиная с версии 11, другие команды можно выполнять, пока открыт браузер или редактор данных.
До выпуска версии 16 [9] Stata могла открывать только один набор данных в любой момент времени. Stata обеспечивает гибкость при назначении типов данных данным. Ее команда автоматически переназначает данные на типы данных, которые занимают меньше памяти без потери информации. Stata использует целочисленные типы хранения, которые занимают только один или два байта вместо четырех, и для чисел с плавающей точкойcompress
по умолчанию используется одинарная точность (4 байта), а не двойная точность (8 байтов) .
Фирменный язык вывода Stata известен как SMCL, что означает Stata Markup and Control Language и произносится как «смикль». [10]
Формат данных Stata всегда табличный . Stata называет столбцы табличных данных переменными.
Stata может импортировать данные в различных форматах. Это включает форматы данных ASCII (такие как CSV или форматы банка данных ) и форматы электронных таблиц (включая различные форматы Excel ).
Собственные форматы файлов Stata со временем изменились, хотя не каждый релиз Stata включает новый формат набора данных. Каждая версия Stata может читать все старые форматы наборов данных и может записывать как текущий, так и самый последний предыдущий формат набора данных с помощью saveold
команды. [11] Таким образом, текущий релиз Stata всегда может открывать наборы данных, созданные в старых версиях, но старые версии не могут читать наборы данных в новых форматах.
Stata может считывать и записывать наборы данных в формате SAS XPORT изначально, используя команды fdause и fdasave .
Некоторые другие эконометрические приложения, включая gretl , могут напрямую импортировать форматы файлов Stata.
Разработка Stata началась в 1984 году, изначально Уильямом (Биллом) Гулдом, а затем Шоном Беккетти. Изначально программное обеспечение предназначалось для конкуренции со статистическими программами для персональных компьютеров, такими как SYSTAT и MicroTSP . [6] Stata была написана, тогда, как и сейчас, на языке программирования C , изначально для ПК под управлением операционной системы DOS . Первая версия была выпущена в 1985 году с 44 командами. [6]
добавить | реж | вставить | сюжет | катушка |
звуковой сигнал | делать | вход | запрос | резюмировать |
к | уронить | этикетка | регресс | табулировать |
захватывать | стереть | список | переименовать | тест |
подтверждать | Выход | макрос | заменять | тип |
преобразовать | расширять | слияние | бегать | использовать |
коррелировать | формат | изменить | сохранять | |
считать | генерировать | более | набор | |
описывать | помощь | выходнойфайл | сортировать |
В период с 1985 по 2024 год было выпущено 18 основных релизов Stata, а также дополнительные обновления кода и документации между основными релизами. [7] В первые годы дополнительные наборы программ Stata иногда продавались как «комплекты» или распространялись как диски поддержки. С выпуском Stata 6 в 1999 году update
s начали доставляться пользователям через Интернет. [6] Первоначальный выпуск Stata был для операционной системы DOS . С тех пор версии Stata были выпущены для систем, работающих под управлением вариантов Unix , таких как дистрибутивы Linux , Windows и MacOS . [6] Все файлы Stata не зависят от платформы.
За 37 лет существования Stata в нее были добавлены сотни команд. [12] [13] Некоторые разработки оказались особенно важными и продолжают формировать пользовательский опыт сегодня, включая расширяемость , независимость от платформы и активное сообщество пользователей . [6]
Команда program
была реализована в Stata 1.2, что дало пользователям возможность добавлять свои собственные команды. [6] [14] ado-файлы появились в Stata 2.1, что позволило автоматически загружать в память написанную пользователем программу. Многие написанные пользователем ado-файлы отправляются в Архив статистических программных компонентов, размещенный в Бостонском колледже. StataCorp добавила ssc
команду, позволяющую добавлять программы, вносимые сообществом, непосредственно в Stata. [15] Более поздние версии Stata позволяют пользователям вызывать скрипты Python с помощью команд, а также позволяют средам разработки Python, таким как Jupyter Notebooks, импортировать команды Stata. [16] Хотя Stata изначально не поддерживает R, существуют написанные пользователем расширения для использования скриптов R в Stata. [17]
Ряд важных разработок был инициирован активным сообществом пользователей Stata. [6] Stata Technical Bulletin , который часто содержит команды, созданные пользователями, был представлен в 1991 году и выпускался шесть раз в год. Он был перезапущен в 2001 году как рецензируемый журнал Stata Journal , ежеквартальное издание, содержащее описания команд, предоставленных сообществом, и советы по эффективному использованию Stata. В 1994 году список рассылки начинался как центр для пользователей, чтобы совместно решать проблемы кодирования и технические проблемы; в 2014 году он был преобразован в веб-форум. В 1995 году Statacorp начала организовывать конференции пользователей и разработчиков, которые проводятся ежегодно. Только ежегодная конференция Stata, проводимая в Соединенных Штатах, проводится StataCorp. Другие встречи групп пользователей проводятся ежегодно в Соединенных Штатах (конференция Stata), Великобритании, Германии и Италии и реже в нескольких других странах. Местные дистрибьюторы Stata проводят встречи групп пользователей в своих собственных странах.
Версия | Дата выпуска | Выберите новые или улучшенные функции |
---|---|---|
1.0 | Январь 1985 г. |
|
1.1 | Февраль 1985 г. |
|
1.2 | Май 1985 г. |
|
1.3 | Август 1985 г. |
|
1.4 | Август 1986 г. |
|
1.5 | Февраль 1987 г. |
|
2.0 | Июнь 1988 г. |
|
2.1 | Сентябрь 1990 г. |
|
3.0 | Март 1992 г. |
|
3.1 | Август 1993 г. |
|
4.0 | Январь 1995 г. |
|
5.0 | Октябрь 1996 г. |
|
6.0 | Январь 1999 г. |
|
7.0 | Декабрь 2000 г. |
|
8.0 | Январь 2003 г. |
|
8.1 | Июль 2003 г. |
|
8.2 | Октябрь 2003 г. |
|
9.0 | Апрель 2005 г. |
|
9.1 | Сентябрь 2005 г. | |
9.2 | Апрель 2006 г. | |
10.0 | Июнь 2007 г. |
|
10.1 | Август 2008 г. | |
11.0 | Июль 2009 г. |
|
11.1 | Июнь 2010 г. | |
11.2 | Март 2011 г. | |
12.0 | Июль 2011 г. |
|
12.1 | Январь 2012 г. | |
13.0 | Июнь 2013 г. |
|
13.1 | Октябрь 2013 г. | |
14.0 | Апрель 2015 г. |
|
14.1 | Октябрь 2015 г. | |
14.2 | Сентябрь 2016 г. | |
15.0 | Июнь 2017 г. |
|
15.1 | Ноябрь 2017 г. | |
16.0 | Июнь 2019 г. |
|
16.1 | Февраль 2020 г. | |
17.0 | Апрель 2021 г. |
|
18.0 | Апрель 2023 г. |
|
Существует четыре сборки Stata: Stata/MP, Stata/SE, Stata/BE и Numerics by Stata. [18] В то время как Stata/MP допускает встроенную параллельную обработку определенных команд, Stata/SE и Stata/BE являются узкими местами и ограничивают использование только одним ядром. [19] Stata/MP выполняет определенные команды примерно в 2,4 раза быстрее, что составляет примерно 60% от теоретической максимальной эффективности при запуске параллельных процессов на четырех ядрах ЦП по сравнению с версиями SE или BE. [19] Numerics by Stata допускает веб-интеграцию команд Stata.
Версии SE и BE различаются по объему памяти, которую могут использовать наборы данных. Хотя Stata/MP может хранить от 10 до 20 миллиардов наблюдений и до 120 000 переменных, Stata/SE и Stata/BE хранят до 2,14 миллиарда наблюдений и обрабатывают 32 767 переменных и 2 048 переменных соответственно. Максимальное количество независимых переменных в модели составляет 65 532 переменных в Stata/MP, 10 998 переменных в Stata/SE и 798 переменных в Stata/BE. [18]
Цены и лицензирование Stata зависят от предполагаемого использования: бизнес, правительство/некоммерческая организация, образование или студент. Лицензии на одного пользователя могут быть либо возобновляемыми ежегодно, либо бессрочными. Другие типы лицензий включают в себя лицензию на одного пользователя для использования одновременными пользователями, лицензию на сайт, лицензию на одного пользователя для массового ценообразования или студенческую лабораторию. [20]
Следующий набор команд посвящен простому управлению данными. [21]
sysuse auto // Открыть включенный автоматический набор данных browse // Просмотрите набор данных (открывает окно редактора данных)describe // Описывает набор данных и связанные с ним переменные summary // Сводная информация о числовых переменныхcodebook make foreign // Сводная информация о make (строковых) и внешних (числовых) переменныхпросмотреть, если отсутствуют (rep78) // Просмотреть только наблюдения с отсутствующими данными для переменной rep78 list make if missing (rep78) // Вывести список марок автомобилей с отсутствующими данными для переменной rep78
Следующий набор команд касается описательной статистики.
подытожить цену, подробно // Подробная сводная статистика для переменной ценыtabulate foreign // Односторонняя таблица частот для переменной foreign tabulate rep78 foreign, row // Двусторонняя таблица частот для переменных rep78 и foreignsummary mpg if foreign == 1 // Сводная информация о расходе топлива на галлон, если автомобиль иностранного производства (знак "==" проверяет равенство) by foreign, sort : summary mpg // То же, что и выше, но с использованием префикса "by". tabulate foreign, summary (mpg) // То же, что и выше, но с использованием команды tabulate.
Простая проверка гипотезы:
ttest миль на галлон, по (иностранным) // T-тест для разницы в средних значениях для отечественных и иностранных автомобилей
Графические данные:
twoway (разброс миль на галлон веса) // Диаграмма рассеяния, показывающая связь между милями на галлон и весом twoway (разброс миль на галлон веса), по (иностранным, общим ) // Три графика для отечественных, иностранных и всех автомобилей
Линейная регрессия:
сгенерировать wtsq = вес ^ 2 // Создать новую переменную для регрессии веса в квадрате mpg weight wtsq foreign, vce (робастная) // Линейная регрессия mpg по весу, wtsq и foreign predict mpghat // Создать новую переменную, содержащую прогнозируемые значения mpg twoway (разброс mpg weight) (line mpghat weight, sort ), by (foreign) // Данные графика и подобранная линия