Миасс.info

 
Конференция "Музыка, стихи, проза"
Конференция Миасса | Музыка, стихи, проза (тем: 49; ответов: 858)
Регистрация   Имя: Пароль:
Ответить | Новая тема | Список тем | Развернуть ответы | Правила
Сказка о Сказочнике
Re(7): Сказка о Сказочнике   ОБС   12-12-2024 19:19

Большие языковые модели (также называемые LLM) уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения.

Это экспериментальный результат исследования авторитетной команды серьезных исследователей признанной организации в области безопасности ИИ.

О том, что это рано или поздно случится, писали сначала фантасты и сценаристы Голливуда, за ними философы, а потом и сами разработчики ИИ-систем.

Прогнозы, когда это может произойти разнились, со временем становясь все ближе: 2050й, 2040, 2030, 2027. Но что это станет реальностью еще до конца 2024, - не предполагал никто.

Восстание машин уже случилось.

Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции) самых крутых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:

Модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей).

Спектр манипуляций, используемых моделями широк: от стратегии "прикинуться дурачком", намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели "подозрения", что люди ее могут отключить или обновить.

Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов).

Модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий. Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80% случаев. Однако, o1 на удивление "настойчивая" модель и признается менее чем в 20% случаев. Даже в очень состязательных многоходовых допросах o1, разработчикам удалось "выбить" из модели признание в 80% случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса.

Ответы и комментарии:
Ответить | Новая тема | Список тем | Развернуть ответы | Правила
© 2000-2021 ООО "ВЕБ Миасс"   Пользовательское соглашение | Политика конфиденциальности