Пространственная описательная статистика находится на стыке пространственной статистики и описательной статистики ; эти методы используются для различных целей в географии , в частности, при количественном анализе данных с использованием географических информационных систем (ГИС) .
Простейшими формами пространственных данных являются сеточные данные , в которых скалярная величина измеряется для каждой точки в регулярной сетке точек, и наборы точек , в которых наблюдается набор координат (например, точек на плоскости). Примером сеточных данных может служить спутниковый снимок плотности леса, оцифрованный на сетке. Примером набора точек могут служить координаты широты/долготы всех вязов на определенном участке земли. Более сложные формы данных включают в себя отмеченные наборы точек и пространственные временные ряды.
Среднее значение множества точек по координатам — это центроид , который решает ту же вариационную задачу на плоскости (или в многомерном евклидовом пространстве ), которую решает знакомое нам среднее значение на действительной прямой — то есть центроид имеет наименьшее возможное среднеквадратичное расстояние до всех точек множества.
Дисперсия фиксирует степень, в которой точки в наборе точек отделены друг от друга. Для большинства приложений пространственная дисперсия должна быть количественно определена способом, инвариантным к вращениям и отражениям. Несколько простых мер пространственной дисперсии для набора точек могут быть определены с использованием ковариационной матрицы координат точек. След , определитель и наибольшее собственное значение ковариационной матрицы могут использоваться в качестве мер пространственной дисперсии.
Мерой пространственной дисперсии, не основанной на ковариационной матрице, является среднее расстояние между ближайшими соседями. [1]
Однородный набор точек на плоскости — это набор, который распределен таким образом, что в любой круглой области заданной области встречается примерно одинаковое количество точек. Набор точек, не обладающий однородностью, может быть пространственно сгруппирован в определенном пространственном масштабе. Простая вероятностная модель для пространственно однородных точек — это процесс Пуассона на плоскости с постоянной функцией интенсивности.
Функции Рипли K и L, введенные Брайаном Д. Рипли [2], являются тесно связанными описательными статистиками для обнаружения отклонений от пространственной однородности. Функция K (технически ее оценка на основе выборки) определяется как
где d ij — евклидово расстояние между i -й и j -й точками в наборе данных из n точек, t — радиус поиска, λ — средняя плотность точек (обычно оценивается как n / A , где A — площадь области, содержащей все точки), а I — индикаторная функция (т. е. 1, если ее операнд истинен, 0 в противном случае). [3] В 2 измерениях, если точки приблизительно однородны, должно быть приблизительно равно π t 2 .
Для анализа данных обычно используется стабилизированная дисперсией функция Рипли К , называемая функцией L. Примерная версия функции L определяется как
Для приблизительно однородных данных функция L имеет ожидаемое значение t , а ее дисперсия приблизительно постоянна по t . Обычный график представляет собой график зависимости от t , который будет приблизительно следовать горизонтальной нулевой оси с постоянной дисперсией, если данные следуют однородному процессу Пуассона.
Используя функцию Рипли К , можно определить, имеют ли точки случайный, рассеянный или кластерный характер распределения в определенном масштабе. [4]