Высокочастотные данные относятся к данным временных рядов, собранным в чрезвычайно мелком масштабе. В результате передовой вычислительной мощности в последние десятилетия высокочастотные данные могут быть точно собраны с эффективной скоростью для анализа. [1] Широко используемые в финансовой сфере, высокочастотные данные предоставляют наблюдения с очень частыми интервалами, которые могут быть использованы для понимания поведения рынка, динамики и микроструктур. [2]
Высокочастотные коллекции данных изначально были сформулированы путем сбора тиковых рыночных данных, с помощью которых каждое отдельное «событие» (транзакция, котировка, движение цены и т. д.) характеризуется «тиком» или одной логической единицей информации. Из-за большого количества тиков в течение одного дня высокочастотные коллекции данных обычно содержат большой объем данных, что обеспечивает высокую статистическую точность. [3] Высокочастотные наблюдения в течение одного дня ликвидного рынка могут равняться объему ежедневных данных, собранных за 30 лет. [3]
Благодаря внедрению электронных форм торговли и поставщиков данных на основе Интернета , высокочастотные данные стали намного более доступными и могут позволить отслеживать ценообразование в режиме реального времени. Это привело к появлению большой новой области исследований в области высокочастотных данных, где ученые и исследователи используют характеристики высокочастотных данных для разработки адекватных моделей для прогнозирования будущих движений рынка и рисков. [3] Прогнозы моделей охватывают широкий спектр поведения рынка, включая объем , волатильность , движение цен и оптимизацию размещения. [4]
Как регулирующие органы, так и академические круги проявляют постоянный интерес к данным о транзакциях и данным книги лимитных ордеров , из которых более существенные последствия торговли и поведения рынка, а также результаты и динамика рынка могут быть оценены с использованием моделей высокочастотных данных. Регулирующие органы проявляют большой интерес к этим моделям в связи с тем, что риски ликвидности и цен не полностью поняты с точки зрения новых форм автоматизированных торговых приложений. [4]
Высокочастотные исследования данных содержат ценность в своей способности отслеживать нерегулярные рыночные действия в течение определенного периода времени. Эта информация позволяет лучше понять цену, торговую активность и поведение. Из-за важности времени в рыночных событиях высокочастотные данные требуют анализа с использованием точечных процессов , которые зависят от наблюдений и истории для характеристики случайных появлений событий. [4] Это понимание было впервые разработано лауреатом Нобелевской премии по экономике 2003 года Робертом Фраем Энглом III , который специализируется на разработке методов финансового эконометрического анализа с использованием финансовых данных и точечных процессов. [4]
Высокочастотные данные в основном используются в финансовых исследованиях и анализе фондового рынка . Всякий раз, когда обрабатывается сделка, котировка или электронный заказ, соответствующие данные собираются и вводятся в формате временного ряда . Таким образом, высокочастотные данные часто называют данными транзакций. [4]
Существует пять основных уровней высокочастотных данных, которые собираются и используются в маркетинговых исследованиях и анализе:
Отдельные торговые данные, собранные с определенным интервалом в течение временного ряда. [4] Существуют две основные переменные для описания отдельной точки торговых данных: время транзакции и вектор, известный как «отметка», который характеризует детали события транзакции. [5]
Собранные данные содержат сведения как о сделках, так и о котировках, включая изменения цен и направление, временные метки и объем. Такую информацию можно найти в базе данных TAQ (Trade and Quote), которой управляет NYSE . [4] В то время как данные о торговле содержат сведения об обмене самой транзакции, данные о котировках содержат сведения об оптимальных условиях торговли для данной биржи. Эта информация может указывать на остановки в биржах, а также на открытие и закрытие котировок. [6]
Используя полностью компьютеризированные системы, можно оценить глубину рынка, используя активность лимитных ордеров , происходящую на фоне данного рынка. [4]
Этот уровень данных отображает полную информацию, касающуюся действий по лимитным ордерам , и может создать воспроизведение торгового потока в любой момент времени, используя информацию о временных метках, отменах и идентификации покупателя/продавца. [4]
Снимки действий книги заказов могут быть записаны на равноудаленных сетках, чтобы ограничить необходимость воспроизводить книгу заказов. Однако это ограничивает возможности анализа торговли и, следовательно, более полезно для понимания динамики, а не взаимодействия книги и торговли. [4]
В финансовом анализе высокочастотные данные могут быть организованы в различных временных масштабах от минут до лет. [3] Поскольку высокочастотные данные поступают в значительной степени в разрозненной форме по сравнению с низкочастотными методами сбора данных, они содержат различные уникальные характеристики, которые изменяют способ понимания и анализа данных. Роберт Фрай Энгл III классифицирует эти отличительные характеристики как нерегулярное временное расстояние, дискретность, суточные закономерности и временную зависимость. [7]
Данные высокой частоты используют сбор большого количества данных в течение временного ряда, и, как таковая, частота сбора отдельных данных имеет тенденцию быть разнесенной в нерегулярных шаблонах с течением времени. Это особенно очевидно в анализе финансового рынка, где транзакции могут происходить последовательно или после длительного периода бездействия. [7]
Высокочастотные данные в значительной степени включают ценообразование и транзакции, институциональные правила которых не позволяют им резко расти или падать в течение короткого периода времени. Это приводит к изменению данных на основе измерения одного тика. [7] Эта уменьшенная способность к колебаниям делает данные более дискретными в их использовании, например, на фондовом рынке, где популярные акции, как правило, остаются в пределах 5 тиков движения. Из-за уровня дискретности высокочастотных данных, как правило, в наборе присутствует высокий уровень эксцесса . [7]
Анализ, впервые проведенный Энглом и Расселом в 1998 году, показывает, что высокочастотные данные следуют суточному шаблону , при этом продолжительность между сделками наименьшая при открытии и закрытии рынка. Некоторые зарубежные рынки, работающие 24 часа в сутки, по-прежнему демонстрируют суточный шаблон, основанный на времени суток. [7]
В значительной степени из-за дискретности цен высокочастотные данные зависят от времени. Спред, вызванный небольшими тиковыми различиями в ценах покупки и продажи, создает тенденцию, которая толкает цену в определенном направлении. Аналогично, длительность и ставки транзакций между сделками имеют тенденцию группироваться, что указывает на зависимость от временных изменений цены. [7]
В наблюдении, отмеченном Робертом Фраем Энглом III , доступность более высоких частот данных с течением времени спровоцировала движение от лет к месяцам, к очень частым интервалам сбора финансовых данных. Однако это движение не бесконечно в переходе к более высоким частотам, а сталкивается с пределом, когда все транзакции в конечном итоге регистрируются. [5] Энгл назвал этот предельный уровень частоты данными сверхвысокой частоты . Выдающимся качеством этой максимальной частоты являются крайне нерегулярные интервалы данных из-за большого разброса времени, который налагает дезагрегированный сбор. [5] Вместо того, чтобы разбивать последовательность данных сверхвысокой частоты на временные интервалы, что по сути привело бы к потере данных и сделало бы набор более низкочастотным, можно использовать методы и модели, такие как модель условной авторегрессионной продолжительности, для рассмотрения изменяющегося времени ожидания между сборами данных. [5] Эффективная обработка данных сверхвысокой частоты может использоваться для повышения точности эконометрического анализа. Это может быть достигнуто с помощью двух процессов: очистки данных и управления данными. [6]
Очистка данных , или очистка данных , представляет собой процесс использования алгоритмических функций для удаления ненужных, нерелевантных и неверных данных из наборов данных с высокой частотой. [6] Анализ данных сверхвысокой частоты требует чистой выборки записей, чтобы быть полезным для изучения. По мере увеличения скорости сбора данных сверхвысокой частоты, в коллекции, скорее всего, будет выявлено больше ошибок и нерелевантных данных. [6] Возникающие ошибки могут быть отнесены к человеческим ошибкам , как преднамеренным (например, «фиктивные» кавычки), так и непреднамеренным (например, опечатка ), или к компьютерным ошибкам, которые происходят при технических сбоях. [8]
Управление данными относится к процессу выбора определенного временного ряда интереса в наборе данных сверхвысокой частоты, которые должны быть извлечены и организованы для целей анализа. Различные транзакции могут быть зарегистрированы в одно и то же время и на разных уровнях цен, и эконометрические модели обычно требуют одного наблюдения на каждой временной отметке, что требует некоторой формы агрегации данных для надлежащего анализа. [6] Усилия по управлению данными могут быть эффективными для исправления характеристик данных сверхвысокой частоты, включая нерегулярные интервалы, скачок спроса и предложения, а также открытие и закрытие рынка. [6]
Исследование, опубликованное в журнале Freshwater Biology, посвященное эпизодическим погодным эффектам на озерах, подчеркивает использование высокочастотных данных для дальнейшего понимания метеорологических факторов и последствий «событий» или внезапных изменений физических, химических и биологических параметров озера. [9] Благодаря достижениям в технологии сбора данных и человеческим сетям в сочетании с размещением высокочастотных станций мониторинга на различных типах озер, эти события могут быть изучены более эффективно. Отмечено, что использование высокочастотных данных в этих исследованиях является важным фактором, позволяющим анализировать быстро происходящие погодные изменения на озерах, такие как скорость ветра и количество осадков, что повышает понимание возможностей озер справляться с событиями в результате увеличения силы штормов и изменения климата . [9]
Высокочастотные данные оказались полезными в прогнозировании инфляции. Исследование Мишель Мондуньо в International Journal of Forecasting показывает, что использование ежедневных и ежемесячных данных с высокой частотой в целом повысило точность прогноза общей инфляции ИПЦ в Соединенных Штатах. [10] В исследовании использовалось сравнение моделей с более низкой частотой с той, которая учитывала все переменные с высокой частотой. В конечном итоге было обнаружено, что повышенная точность как высоковолатильных транспортных, так и энергетических компонентов цен в модели высокочастотной инфляции привела к большей производительности и более точным результатам. [10]
Использование оценки периода полураспада для оценки скоростей возврата к среднему значению в экономических и финансовых переменных столкнулось с проблемами в отношении выборки, поскольку период полураспада около 13,53 лет потребовал бы 147 лет годовых данных согласно ранним моделям процесса AR . [11] В результате некоторые ученые использовали высокочастотные данные для оценки годовых данных периода полураспада. Хотя использование высокочастотных данных может столкнуться с некоторыми ограничениями для обнаружения истинного периода полураспада, в основном из-за смещения оценщика , было обнаружено, что использование высокочастотной модели ARMA последовательно и эффективно оценивает период полураспада с длинными годовыми данными. [11]