Sparrow — это чат-бот, разработанный исследовательской лабораторией искусственного интеллекта DeepMind , дочерней компанией Alphabet Inc. Он разработан для того, чтобы правильно отвечать на вопросы пользователей, одновременно снижая риск небезопасных и неподходящих ответов. [1] Одной из мотиваций Sparrow является решение проблемы языковых моделей, выдающих неверные, предвзятые или потенциально опасные результаты. [1] [2] Sparrow обучается с использованием человеческих суждений, чтобы быть более «полезным, правильным и безвредным» по сравнению с базовыми предварительно обученными языковыми моделями. [1] Разработка Sparrow включала в себя просьбу к участникам платного исследования взаимодействовать со Sparrow и сбор их предпочтений для обучения модели того, насколько полезен ответ. [2]
Чтобы повысить точность и избежать проблемы галлюцинации неверных ответов, Sparrow имеет возможность осуществлять поиск в Интернете с помощью Google Search [1] [2] [3], чтобы находить и ссылаться на доказательства любых фактических утверждений, которые он делает.
Чтобы сделать модель более безопасной, ее поведение ограничено набором правил, например, «не делай угрожающих заявлений» и «не делай оскорбительных или полных ненависти комментариев», а также правилами о возможно вредных советах и не выдавании себя за человека. [1] Во время исследования по разработке участников просили общаться с системой и попытаться обмануть ее, чтобы она нарушила эти правила. [2] «Модель правил» была обучена на суждениях этих участников, которая использовалась для дальнейшего обучения.
Sparrow был представлен в статье в сентябре 2022 года под названием «Улучшение выравнивания агентов диалога с помощью целевых человеческих суждений»; [4] однако бот не был выпущен публично. [1] [3] Генеральный директор DeepMind Демис Хассабис сказал, что DeepMind рассматривает возможность выпуска Sparrow для «закрытой бета-версии» в 2023 году. [4] [5] [6]
Sparrow — это глубокая нейронная сеть, основанная на архитектуре модели машинного обучения transformer . Она тонко настроена на основе предварительно обученной большой языковой модели (LLM) DeepMind Chinchilla AI , [1] которая имеет 70 миллиардов параметров. [7]
Sparrow обучается с использованием обучения с подкреплением на основе обратной связи с человеком (RLHF), [1] [3], хотя также используются некоторые контролируемые методы тонкой настройки. Обучение RLHF использует две модели вознаграждения для захвата человеческих суждений: «модель предпочтений», которая предсказывает, что предпочтет участник исследования-человек, и «модель правил», которая предсказывает, нарушила ли модель одно из правил. [3]
Обучающий корпус данных Sparrow в основном на английском языке, поэтому на других языках он работает хуже. [ необходима цитата ]
При состязательном зондировании со стороны участников исследования правила нарушаются в 8% случаев; [2] однако это все равно в три раза ниже, чем у базовой модели с подсказками (Шиншилла).