Панельные данные

Статистическое исследование в лонгитюдном формате

В статистике и эконометрике панельные данные и продольные данные [1] [2] являются многомерными данными , включающими измерения с течением времени. Панельные данные представляют собой подмножество продольных данных, где наблюдения каждый раз относятся к одним и тем же субъектам .

Временные ряды и данные поперечного сечения можно рассматривать как особые случаи панельных данных, которые находятся только в одном измерении (один член панели или индивидуум для первого, одна временная точка для второго). Поиск литературы часто включает временные ряды, данные поперечного сечения или панельные данные. Данные поперечного сечения (CPD) являются инновационным, но недооцененным источником информации в математических и статистических науках. CPD выделяется среди других методов исследования, поскольку наглядно иллюстрирует, как независимые и зависимые переменные могут меняться между странами. Этот сбор панельных данных позволяет исследователям изучать связь между переменными в нескольких секциях и временных периодах и анализировать результаты политических действий в других странах. [3]

Исследование, в котором используются панельные данные, называется продольным исследованием или панельным исследованием.

Пример

Сбалансированная панель MRPP
человекгоддоходвозрастсекс
120161300271
120171600281
120182000291
220162000382
220172300392
220182400402
MRPP несбалансированная панель
человекгоддоходвозрастсекс
120161600231
120171500241
220161900412
220172000422
220182100432
320173300341

В примере процедуры множественной перестановки ответов ( MRPP ) выше показаны два набора данных с панельной структурой, и цель состоит в том, чтобы проверить, есть ли существенная разница между людьми в выборочных данных. Индивидуальные характеристики (доход, возраст, пол) собираются для разных людей и разных лет. В первом наборе данных два человека (1, 2) наблюдаются каждый год в течение трех лет (2016, 2017, 2018). Во втором наборе данных три человека (1, 2, 3) наблюдаются два раза (человек 1), три раза (человек 2) и один раз (человек 3) соответственно в течение трех лет (2016, 2017, 2018); в частности, человек 1 не наблюдается в 2018 году, а человек 3 не наблюдается в 2016 или 2018 году.

Сбалансированная панель ( например, первый набор данных выше) — это набор данных, в котором каждый член панели (т. е. человек) наблюдается каждый год. Следовательно, если сбалансированная панель содержит членов панели и периоды, количество наблюдений ( ) в наборе данных обязательно равно . Н {\displaystyle N} Т {\displaystyle Т} н {\displaystyle n} n = N T {\displaystyle n=N\cdot T}

Несбалансированная панель (например, второй набор данных выше) — это набор данных, в котором по крайней мере один член панели не наблюдается в каждом периоде. Поэтому, если несбалансированная панель содержит членов панели и периоды, то для числа наблюдений ( ) в наборе данных выполняется следующее строгое неравенство : . N {\displaystyle N} T {\displaystyle T} n {\displaystyle n} n < N T {\displaystyle n<N\cdot T}

Оба набора данных выше структурированы в длинном формате , где одна строка содержит одно наблюдение за время. Другим способом структурирования панельных данных будет широкий формат , где одна строка представляет одну единицу наблюдения для всех моментов времени (например, широкий формат будет иметь только две (первый пример) или три (второй пример) строки данных с дополнительными столбцами для каждой переменной, изменяющейся во времени (доход, возраст).

Анализ

Панель имеет вид

X i t , i = 1 , , N , t = 1 , , T , {\displaystyle X_{it},\quad i=1,\dots ,N,\quad t=1,\dots ,T,}

где — индивидуальное измерение, а — временное измерение. Общая модель регрессии панельных данных записывается как . Можно сделать различные предположения о точной структуре этой общей модели. Две важные модели — это модель с фиксированными эффектами и модель со случайными эффектами . i {\displaystyle i} t {\displaystyle t} y i t = α + β X i t + u i t {\displaystyle y_{it}=\alpha +\beta 'X_{it}+u_{it}}

Рассмотрим общую модель панельных данных:

y i t = α + β X i t + u i t , {\displaystyle y_{it}=\alpha +\beta 'X_{it}+u_{it},}
u i t = μ i + v i t . {\displaystyle u_{it}=\mu _{i}+v_{it}.}

μ i {\displaystyle \mu _{i}} являются индивидуальными, не зависящими от времени эффектами (например, в группе стран это может включать географию, климат и т. д.), которые фиксируются во времени, тогда как — это случайный компонент, изменяющийся во времени. v i t {\displaystyle v_{it}}

Если не наблюдается и коррелирует хотя бы с одной из независимых переменных, то это вызовет смещение пропущенной переменной в стандартной регрессии OLS . Однако для его контроля можно использовать методы панельных данных, такие как оценка фиксированных эффектов или, в качестве альтернативы, оценка первой разности . μ i {\displaystyle \mu _{i}}

Если не коррелирует ни с одной из независимых переменных, обычные методы линейной регрессии наименьших квадратов могут быть использованы для получения несмещенных и последовательных оценок параметров регрессии. Однако, поскольку фиксировано с течением времени, это вызовет последовательную корреляцию в погрешности регрессии. Это означает, что доступны более эффективные методы оценки. Случайные эффекты являются одним из таких методов: это особый случай допустимых обобщенных наименьших квадратов , который контролирует структуру последовательной корреляции, вызванной . μ i {\displaystyle \mu _{i}} μ i {\displaystyle \mu _{i}} μ i {\displaystyle \mu _{i}}

Динамические панельные данные

Динамические панельные данные описывают случай, когда в качестве регрессора используется задержка зависимой переменной:

y i t = α + β X i t + γ y i t 1 + u i t . {\displaystyle y_{it}=\alpha +\beta 'X_{it}+\gamma y_{it-1}+u_{it}.}

Наличие лаговой зависимой переменной нарушает строгую экзогенность, то есть может возникнуть эндогенность . Оценка фиксированных эффектов и оценка первых разностей оба основаны на предположении строгой экзогенности. Следовательно, если считается, что коррелирует с одной из независимых переменных, необходимо использовать альтернативный метод оценки. В этой ситуации обычно используются инструментальные переменные или методы GMM, такие как оценка Ареллано–Бонда . При оценке этого мы должны иметь надлежащую информацию об инструментальных переменных. u i {\displaystyle u_{i}}

Наборы данных, имеющие панельную конструкцию

Наборы данных, имеющие многомерную панельную конструкцию

Примечания

  1. ^ Диггл, Питер Дж.; Хигерти, Патрик; Лян, Кунг-Йи; Зегер, Скотт Л. (2002). Анализ продольных данных (2-е изд.). Издательство Оксфордского университета. п. 2. ISBN 0-19-852484-6.
  2. ^ Фицморис, Гарретт М.; Лэрд, Нэн М.; Уэр, Джеймс Х. (2004). Прикладной лонгитюдный анализ . Хобокен: John Wiley & Sons. стр. 2. ISBN 0-471-21487-6.
  3. ^ Заман, Халид (2023-01-24). «Заметка о методах кросс-панельных данных». Последние разработки в эконометрике . 1 (1): 1– 7. doi :10.5281/zenodo.7565625.

Ссылки

  • Балтаги, Бади Х. (2008). Эконометрический анализ панельных данных (четвертое издание). Чичестер: John Wiley & Sons. ISBN 978-0-470-51886-1.
  • Дэвис, А.; Лахири, К. (1995). «Новая структура для проверки рациональности и измерения совокупных шоков с использованием панельных данных». Журнал эконометрики . 68 (1): 205–227 . doi :10.1016/0304-4076(94)01649-K.
  • Дэвис, А.; Лахири, К. (2000). «Пересмотр гипотезы рациональных ожиданий с использованием панельных данных по многопериодным прогнозам». Анализ панелей и моделей с ограниченной зависимой переменной . Кембридж: Cambridge University Press. стр.  226–254 . ISBN 0-521-63169-6.
  • Фрис, Э. (2004). Лонгитюдные и панельные данные: анализ и применение в социальных науках . Нью-Йорк: Cambridge University Press. ISBN 0-521-82828-7.
  • Сяо , Чэн (2003). Анализ панельных данных (второе издание). Нью-Йорк: Cambridge University Press. ISBN 0-521-52271-4.
  • PSID
  • КЛИПС
  • парасемейство
  • Обзор занятости в Корее
Retrieved from "https://en.wikipedia.org/w/index.php?title=Panel_data&oldid=1241024459"