Гранулярные вычисления — это новая вычислительная парадигма обработки информации , которая касается обработки сложных информационных сущностей, называемых «информационными гранулами », которые возникают в процессе абстракции данных и получения знаний из информации или данных. В общем, информационные гранулы — это наборы сущностей, которые обычно возникают на числовом уровне и располагаются вместе из-за их сходства , функциональной или физической смежности, неразличимости, связности или тому подобного.
В настоящее время гранулярные вычисления являются скорее теоретической перспективой , чем связным набором методов или принципов. Как теоретическая перспектива, она поощряет подход к данным, который распознает и использует знания, присутствующие в данных на различных уровнях разрешения или масштабах. В этом смысле она охватывает все методы, которые обеспечивают гибкость и адаптивность в разрешении, в котором извлекаются и представляются знания или информация.
Как упоминалось выше, гранулярные вычисления — это не алгоритм или процесс; не существует конкретного метода, который называется «гранулярными вычислениями». Это скорее подход к рассмотрению данных, который распознает, как различные и интересные закономерности в данных могут проявляться на разных уровнях детализации, подобно тому, как различные особенности становятся заметными на спутниковых снимках большего или меньшего разрешения. Например, на спутниковом снимке с низким разрешением можно заметить интересные облачные узоры, представляющие циклоны или другие крупномасштабные погодные явления, в то время как на снимке с более высоким разрешением можно пропустить эти крупномасштабные атмосферные явления, но вместо этого заметить явления меньшего масштаба, такие как интересный узор, который представляют собой улицы Манхэттена . То же самое в целом верно для всех данных: при разных разрешениях или детализации появляются различные особенности и взаимосвязи. Цель гранулярных вычислений — попытаться воспользоваться этим фактом при разработке более эффективных систем машинного обучения и рассуждений.
Существует несколько типов детализации, которые часто встречаются в процессе интеллектуального анализа данных и машинного обучения , и мы рассмотрим их ниже:
Одним из типов грануляции является квантование переменных. Очень часто в приложениях добычи данных или машинного обучения требуется уменьшить разрешение переменных для извлечения значимых закономерностей. Примером этого может служить переменная, такая как «внешняя температура» ( temp ), которая в данном приложении может быть записана с точностью до нескольких десятичных знаков (в зависимости от измерительного прибора). Однако для целей извлечения соотношений между «внешней температурой» и, скажем, «количеством заявок в оздоровительный клуб» ( club ), как правило, будет выгодно квантовать «внешнюю температуру» на меньшее количество интервалов.
Существует несколько взаимосвязанных причин для грануляции переменных таким образом:
Например, простая обучаемая система или система распознавания образов может стремиться извлекать закономерности, удовлетворяющие условному порогу вероятности, такому как В особом случае, когда эта система распознавания по существу обнаруживает логическое импликирование формы или, говоря словами, «если то ». Способность системы распознавать такие импликации (или, в общем случае, условные вероятности, превышающие порог) частично зависит от разрешения, с которым система анализирует переменные.
В качестве примера этого последнего пункта рассмотрим пространство признаков, показанное справа. Каждая из переменных может рассматриваться в двух различных разрешениях. Переменная может рассматриваться в высоком (четвертичном) разрешении, при котором она принимает четыре значения , или в более низком (двоичном) разрешении, при котором она принимает два значения. Аналогично, переменная может рассматриваться в высоком (четвертичном) разрешении или в более низком (двоичном) разрешении, при котором она принимает значения или соответственно. При высоком разрешении не обнаруживается никаких импликаций формы , поскольку каждая связана более чем с одной и, таким образом, для всех Однако при низком (двоичном) разрешении переменной становятся обнаруживаемыми две двусторонние импликации: и , поскольку каждая происходит тогда и только тогда, когда и происходит тогда и только тогда, когда Таким образом, система распознавания образов, сканирующая импликации такого рода, обнаружила бы их при разрешении двоичной переменной, но не смогла бы найти их при более высоком разрешении четверичной переменной.
Невозможно исчерпывающе протестировать все возможные разрешения дискретизации по всем переменным, чтобы увидеть, какая комбинация разрешений дает интересные или значимые результаты. Вместо этого пространство признаков должно быть предварительно обработано (часто с помощью энтропийного анализа какого-либо рода), чтобы можно было дать некоторые указания относительно того, как должен проходить процесс дискретизации. Более того, в общем случае нельзя достичь хороших результатов, наивно анализируя и дискретизируя каждую переменную независимо, поскольку это может стереть те самые взаимодействия, которые мы надеялись обнаружить.
Ниже приведен пример статей, в которых рассматривается проблема дискретизации переменных в целом и дискретизации нескольких переменных в частности: Chiu, Wong & Cheung (1991), Bay (2001), Liu et al. (2002), Ван и Лю (1998), Зигед, Рабаседа и Ракотомалала (1998), Кэтлетт (1991), Догерти, Кохави и Сахами (1995), Монти и Купер (1999), Файяд и Ирани (1993), Чиу, Ченг и Вонг (1990), Нгуен и Нгуен (1998), Гржимала-Буссе и Стефановски (2001), Тинг (1994), Людл и Видмер (2000), Пфарингер (1995), Ан и Черконе (1999), Чиу и Чунг (1989), Хмелевский и Гржимала-Бюссе (1996), Ли и Шин (1994), Лю и Веллман (2002), Лю и Веллман (2004).
Переменная грануляция — это термин, который может описывать множество методов, большинство из которых направлены на снижение размерности, избыточности и требований к хранению. Мы кратко описываем некоторые идеи здесь и приводим ссылки на литературу.
Ряд классических методов, таких как анализ главных компонентов , многомерное шкалирование , факторный анализ и моделирование структурных уравнений , а также их родственники, попадают в род «преобразования переменных». Также в этой категории находятся более современные области исследования, такие как снижение размерности , поиск проекций и анализ независимых компонентов . Общей целью этих методов в целом является нахождение представления данных в терминах новых переменных, которые являются линейным или нелинейным преобразованием исходных переменных и в которых возникают важные статистические связи. Результирующие наборы переменных почти всегда меньше исходного набора переменных, и, следовательно, можно сказать, что эти методы накладывают грануляцию на пространство признаков. Все эти методы снижения размерности рассматриваются в стандартных текстах, таких как Duda, Hart & Stork (2001), Witten & Frank (2005) и Hastie, Tibshirani & Friedman (2001).
Другой класс методов грануляции переменных вытекает больше из методологий кластеризации данных , чем из теории линейных систем, информирующей вышеприведенные методы. Довольно рано было отмечено, что можно рассматривать «кластеризацию» связанных переменных точно так же, как и кластеризацию связанных данных. При кластеризации данных идентифицируется группа схожих сущностей (используя « меру сходства », подходящую для области — Martino, Giuliani & Rizzi (2018)), а затем в некотором смысле заменяется эти сущности прототипом какого-либо вида. Прототипом может быть простое среднее значение данных в идентифицированном кластере или какая-то другая репрезентативная мера. Но ключевая идея заключается в том, что в последующих операциях мы можем использовать единственный прототип для кластера данных (возможно, вместе со статистической моделью, описывающей, как образцы выводятся из прототипа), чтобы заменить гораздо больший набор образцов. Эти прототипы, как правило, таковы, что захватывают большую часть интересующей информации относительно сущностей.
Аналогично, разумно спросить, можно ли объединить большой набор переменных в меньший набор прототипных переменных, которые охватывают наиболее существенные связи между переменными. Хотя были предложены методы кластеризации переменных, основанные на линейной корреляции (Duda, Hart & Stork 2001; Rencher 2002), более мощные методы кластеризации переменных основаны на взаимной информации между переменными. Ватанабе показал (Watanabe 1960; Watanabe 1969), что для любого набора переменных можно построить политомическое (т. е. n-арное) дерево, представляющее ряд агломераций переменных, в котором конечная «общая» корреляция среди полного набора переменных является суммой «частичных» корреляций, демонстрируемых каждым агломерирующим подмножеством (см. рисунок). Ватанабе предполагает, что наблюдатель может попытаться таким образом разделить систему таким образом, чтобы минимизировать взаимозависимость между частями «... как если бы они искали естественное разделение или скрытую трещину».
Один из практических подходов к построению такого дерева заключается в последовательном выборе для агломерации двух переменных (либо атомарных переменных, либо ранее агломерированных переменных), которые имеют наивысшую попарную взаимную информацию (Красков и др. 2003). Продукт каждой агломерации — это новая (сконструированная) переменная, которая отражает локальное совместное распределение двух агломерирующих переменных и, таким образом, обладает энтропией, равной их совместной энтропии . (С процедурной точки зрения этот шаг агломерации включает замену двух столбцов в таблице атрибутов-значений, представляющих две агломерирующие переменные, одним столбцом, который имеет уникальное значение для каждой уникальной комбинации значений в замененных столбцах (Красков и др., 2003). Такая операция не приводит к потере информации; однако, если исследовать данные на предмет межпеременных связей, то, как правило, нежелательно объединять избыточные переменные таким образом, поскольку в таком контексте, скорее всего, будет интересовать именно избыточность или зависимость между переменными; и после объединения избыточных переменных их связь друг с другом больше не может изучаться.
В системах баз данных агрегации (см., например, агрегацию OLAP и системы бизнес-аналитики ) приводят к преобразованию исходных таблиц данных (часто называемых информационными системами) в таблицы с различной семантикой строк и столбцов, где строки соответствуют группам (гранулам) исходных кортежей, а столбцы выражают агрегированную информацию об исходных значениях в каждой из групп. Такие агрегации обычно основаны на SQL и его расширениях. Результирующие гранулы обычно соответствуют группам исходных кортежей с одинаковыми значениями (или диапазонами) по некоторым предварительно выбранным исходным столбцам.
Существуют также другие подходы, в которых группы определяются на основе, например, физической смежности строк. Например, Infobright реализовал механизм базы данных, в котором данные были разделены на грубые строки , каждая из которых состояла из 64K физически последовательных (или почти последовательных) строк. Грубые строки автоматически маркировались компактной информацией об их значениях в столбцах данных, часто включающих многостолбцовые и многотабличные связи. Это приводило к более высокому слою гранулированной информации, где объекты соответствовали грубым строкам, а атрибуты - различным аспектам грубой информации. Операции с базой данных могли эффективно поддерживаться в такой новой структуре, при этом доступ к исходным фрагментам данных оставался доступным (Slezak et al. 2013).
Истоки идеологии гранулярных вычислений следует искать в литературе по грубым множествам и нечетким множествам . Одно из ключевых открытий в исследовании грубых множеств — хотя оно никоим образом не уникально для него — заключается в том, что в целом выбор различных наборов признаков или переменных приведет к различным грануляциям понятий . Здесь, как и в элементарной теории грубых множеств, под «понятием» мы подразумеваем набор сущностей, которые неразличимы или неразличимы для наблюдателя (т. е. простое понятие), или набор сущностей, который состоит из таких простых понятий (т. е. сложное понятие). Другими словами, проецируя набор данных ( систему значений-атрибутов ) на различные наборы переменных, мы распознаем альтернативные наборы «понятий» классов эквивалентности в данных, и эти различные наборы понятий будут в целом способствовать извлечению различных отношений и закономерностей.
Проиллюстрируем на примере. Рассмотрим систему атрибут-значение ниже:
Объект | |||||
---|---|---|---|---|---|
1 | 2 | 0 | 1 | 1 | |
1 | 2 | 0 | 1 | 1 | |
2 | 0 | 0 | 1 | 0 | |
0 | 0 | 1 | 2 | 1 | |
2 | 1 | 0 | 2 | 1 | |
0 | 0 | 1 | 2 | 2 | |
2 | 0 | 0 | 1 | 0 | |
0 | 1 | 2 | 2 | 1 | |
2 | 1 | 0 | 2 | 2 | |
2 | 0 | 0 | 1 | 0 |
При рассмотрении полного набора атрибутов мы видим, что у нас есть следующие семь классов эквивалентности или примитивных (простых) понятий:
Таким образом, два объекта в первом классе эквивалентности не могут быть различимы друг от друга на основе доступных атрибутов, а три объекта во втором классе эквивалентности не могут быть различимы друг от друга на основе доступных атрибутов. Остальные пять объектов каждый различимы от всех других объектов. Теперь представим себе проекцию системы значений атрибутов на один атрибут, которая будет представлять, например, взгляд наблюдателя, который способен обнаружить только этот один атрибут. Тогда мы получим следующую гораздо более грубую структуру класса эквивалентности.
Это в определенном отношении та же структура, что и раньше, но с более низкой степенью разрешения (больший размер зерна). Так же, как и в случае грануляции значений (дискретизации/квантования), возможно, что на одном уровне гранулярности могут возникнуть отношения (зависимости), которые отсутствуют на другом. В качестве примера этого можно рассмотреть влияние грануляции понятий на меру, известную как зависимость атрибутов (более простой родственник взаимной информации ).
Чтобы установить это понятие зависимости (см. также грубые множества ), представим конкретную грануляцию понятия, где каждое является классом эквивалентности из структуры понятия, индуцированной набором атрибутов Q. Например, если набор атрибутов Q состоит только из атрибутов, как указано выше, то структура понятия будет состоять из
Зависимость набора атрибутов Q от другого набора атрибутов P определяется выражением
То есть, для каждого класса эквивалентности в мы складываем размер его «нижнего приближения» (см. грубые наборы ) по атрибутам в P , т. е. Проще говоря, это приближение представляет собой количество объектов, которые по набору атрибутов P могут быть положительно идентифицированы как принадлежащие целевому набору Добавленное ко всем классам эквивалентности в числителе выше представляет собой общее количество объектов, которые — на основе набора атрибутов P — могут быть положительно категоризированы в соответствии с классификацией, вызванной атрибутами Q . Таким образом, коэффициент зависимости выражает долю (во всей вселенной) таких классифицируемых объектов, в некотором смысле фиксируя «синхронизацию» двух структур понятий и Зависимость «можно интерпретировать как долю таких объектов в информационной системе, для которых достаточно знать значения атрибутов в P, чтобы определить значения атрибутов в Q » (Ziarko & Shan 1995).
Теперь, когда определения уже в пути, мы можем сделать простое наблюдение, что выбор гранулярности концепции (т.е. выбор атрибутов) повлияет на обнаруженные зависимости между атрибутами. Рассмотрим еще раз таблицу значений атрибутов, приведенную выше:
Объект | |||||
---|---|---|---|---|---|
1 | 2 | 0 | 1 | 1 | |
1 | 2 | 0 | 1 | 1 | |
2 | 0 | 0 | 1 | 0 | |
0 | 0 | 1 | 2 | 1 | |
2 | 1 | 0 | 2 | 1 | |
0 | 0 | 1 | 2 | 2 | |
2 | 0 | 0 | 1 | 0 | |
0 | 1 | 2 | 2 | 1 | |
2 | 1 | 0 | 2 | 2 | |
2 | 0 | 0 | 1 | 0 |
Рассмотрим зависимость набора атрибутов от набора атрибутов. То есть мы хотим узнать, какую долю объектов можно правильно отнести к классам на основе знания о . Классы эквивалентности и показаны ниже.
Объекты, которые можно окончательно классифицировать в соответствии со структурой понятий , находятся в наборе , и поскольку их шесть, зависимость Q от P сама по себе может считаться интересной зависимостью, но, возможно, в конкретном приложении по добыче данных желательны только более сильные зависимости .
Затем мы могли бы рассмотреть зависимость меньшего набора атрибутов от набора атрибутов. Переход от к вызывает огрубление структуры класса , как мы вскоре увидим. Мы снова хотим узнать, какая доля объектов может быть правильно классифицирована в (теперь более крупные) классы на основе знания о Классы эквивалентности новых и показаны ниже.
Очевидно, имеет более грубую гранулярность, чем раньше. Объекты, которые теперь могут быть окончательно классифицированы в соответствии со структурой понятий, основанной на, составляют полную вселенную , и, таким образом, зависимость Q от P , То есть, знание членства в соответствии с набором категорий достаточно для определения членства в категории с полной уверенностью; В этом случае мы могли бы сказать, что Таким образом, огрубляя структуру понятий, мы смогли найти более сильную (детерминированную) зависимость. Однако мы также отмечаем, что классы, индуцированные в из-за снижения разрешения, необходимого для получения этой детерминированной зависимости, теперь сами по себе велики и немногочисленны; в результате зависимость, которую мы обнаружили, хотя и сильна, может быть для нас менее ценной, чем более слабая зависимость, найденная ранее в представлении с более высоким разрешением
В общем, невозможно протестировать все наборы атрибутов, чтобы увидеть, какие индуцированные структуры концептов дают самые сильные зависимости, и поэтому этот поиск должен быть направлен с некоторой долей интеллекта. Статьи, в которых обсуждается этот вопрос, и другие, касающиеся разумного использования грануляции, принадлежат YY Yao и Lotfi Zadeh, перечисленным в #References ниже.
Другая точка зрения на грануляцию понятий может быть получена из работы над параметрическими моделями категорий. Например, в обучении смешанной модели набор данных объясняется как смесь различных гауссовых (или других) распределений. Таким образом, большой объем данных «заменяется» небольшим числом распределений. Выбор числа этих распределений и их размера снова можно рассматривать как проблему грануляции понятий . В общем, лучшее соответствие данным достигается большим числом распределений или параметров, но для того, чтобы извлечь значимые закономерности, необходимо ограничить число распределений, тем самым намеренно огрубляя разрешение понятий. Нахождение «правильного» разрешения понятий является сложной задачей, для которой было предложено много методов (например, AIC , BIC , MDL и т. д.), и они часто рассматриваются под рубрикой « регуляризация модели ».
Гранулярные вычисления можно рассматривать как структуру теорий, методологий, методов и инструментов, которые используют информационные гранулы в процессе решения проблем. В этом смысле гранулярные вычисления используются как обобщающий термин для охвата тем, которые изучались в различных областях по отдельности. Рассматривая все эти существующие исследования в свете единой структуры гранулярных вычислений и извлекая их общие черты, можно разработать общую теорию для решения проблем.
В более философском смысле гранулярные вычисления могут описывать способ мышления, который опирается на способность человека воспринимать реальный мир на разных уровнях детализации (т. е. абстракции) для того, чтобы абстрагироваться и рассматривать только те вещи, которые служат определенному интересу, и переключаться между различными детализациями. Сосредоточившись на разных уровнях детализации, можно получить разные уровни знаний, а также более глубокое понимание внутренней структуры знаний. Таким образом, гранулярные вычисления необходимы для решения человеческих проблем и, следовательно, оказывают очень значительное влияние на проектирование и реализацию интеллектуальных систем.
{{citation}}
: CS1 maint: location missing publisher (link).{{citation}}
: CS1 maint: location missing publisher (link).{{citation}}
: CS1 maint: location missing publisher (link).{{citation}}
: CS1 maint: location missing publisher (link).{{citation}}
: CS1 maint: location missing publisher (link).{{citation}}
: CS1 maint: location missing publisher (link).