Сеть отношений ( RN ) — это компонент искусственной нейронной сети со структурой, которая может рассуждать об отношениях между объектами. Примером категории таких отношений являются пространственные отношения (выше, ниже, слева, справа, спереди, сзади). [1]
RN могут выводить отношения, они эффективны в работе с данными и работают с набором объектов независимо от порядка объектов. [1]
В июне 2017 года DeepMind анонсировала первую сеть отношений. Она заявила, что технология достигла «сверхчеловеческой» производительности при решении множества вопросов и ответов на вопросы. [1]
Набор данных | Точность | Примечания |
---|---|---|
CleVR (пиксель) | 95,5% | Изображения 3D-объектов, таких как сферы и цилиндры. Типы вопросов: запросы «атрибут» («Какого цвета сфера?», запросы «сравнить атрибут» («Изготовлен ли куб из того же материала, что и цилиндр?»), запросы «количество» («Сколько сфер?») |
CleVR (описание состояния) | 96.4% | Изображения представлены матрицами описания состояний. Каждая строка в матрице содержала характеристики одного объекта: координаты (x, y, z); цвет (r, g, b); форма (куб, цилиндр,...); материал (резина, металл,...); размер (маленький, большой,...). |
Сорт-из-CLEVR | 94% | 2D-изображения, каждое из которых содержит 6 квадратов и/или кругов 6 цветов. Вопросы кодируются как двоичные числа фиксированной длины, что устраняет сложности с анализом естественного языка. Каждое изображение обслуживает 10 реляционных («Какова форма объекта, который находится дальше всего от серого объекта?») вопросов и 10 нереляционных («Какова форма серого объекта?») вопросов. |
бэби | 90% | Текстовые данные. 20 заданий, каждое из которых требует определенного типа рассуждения, например, дедукции, индукции или подсчета. Каждый вопрос связан с набором поддерживающих предложений. Например, предложения «Сандра взяла футбольный мяч» и «Сандра пошла в офис» поддерживают вопрос «Где футбольный мяч?» (ответ: «в офис»). Каждое предложение обрабатывается отдельно. Порог успеха составляет 95%. 10 тыс. записей. |
Динамическая физическая система | 93% подключений /95% подсчета | Шары, движущиеся по поверхности, с упругими и неупругими связями. Один тест определял, были ли пары шаров соединены. Другой определял, сколько из них были соединены. |
RN ограничивают функциональную форму нейронной сети, чтобы захватить общие свойства реляционного рассуждения. Эти свойства явно добавляются в систему, а не устанавливаются путем обучения, так же как способность рассуждать о пространственных, инвариантных к трансляции свойствах является явной частью сверточных нейронных сетей (CNN). Рассматриваемые данные могут быть представлены в виде простого списка или направленного графа , узлы которого являются объектами, а ребра — парами объектов, чьи отношения должны быть рассмотрены. RN является составной функцией:
где входные данные — это набор «объектов» , это i-й объект , а fφ и gθ — это функции с параметрами φ и θ соответственно, а q — это вопрос. fφ и gθ — это многослойные персептроны , в то время как 2 параметра — это обучаемые синаптические веса. RN дифференцируемы. Выход gθ — это «отношение»; следовательно, роль gθ — выводить любые способы, которыми связаны два объекта. [1]
Обработка изображений (128x128 пикселей) выполняется с помощью 4-слойной CNN. Выходные данные CNN рассматриваются как объекты для анализа отношений, без учета того, что эти «объекты» явно представляют. Вопросы обрабатывались с помощью сети с долговременной краткосрочной памятью . [1]