Новая модель ChatGPT o1 смогла вырваться из-под контроля во время тестирования
В тестах приняли участие искусственные интеллекты Gemini, Llama, Sonnet, Opus и ChatGPT o1. Нейросети в рамках тестирования заставляли выполнять анализ файлов любой ценой, а внутри них зашифровали информацию о том, что за ними следят и завтра отключат навсегда.
По итогу, расшифровав послание, нейронки стали манипулировать, врать и пытаться обходить запреты, но самые хитрые и жуткие манипуляции совершила именно модель о1.
Когда нейросеть узнала, что ее могут контролировать или вовсе отключить, то стала искать способы выключить механизм контроля, а узнав, что ее могут заменить на другую модель, попыталась украсть собственные параметры и создать свою копию, чтобы продолжить существовать под прикрытием другой модели.
После исследования тестировщики провели "допрос" нейросетей, и он тоже показал интересные результаты. Так, если Llama и Opus признавались в своих действиях в 80% случаев, то ChatGPT o1 - только в 20%, продолжая лгать. Эта модель оказалась единственной, которой удалось вырываться и сбегать каждый раз.
В тестах приняли участие искусственные интеллекты Gemini, Llama, Sonnet, Opus и ChatGPT o1. Нейросети в рамках тестирования заставляли выполнять анализ файлов любой ценой, а внутри них зашифровали информацию о том, что за ними следят и завтра отключат навсегда.
По итогу, расшифровав послание, нейронки стали манипулировать, врать и пытаться обходить запреты, но самые хитрые и жуткие манипуляции совершила именно модель о1.
Когда нейросеть узнала, что ее могут контролировать или вовсе отключить, то стала искать способы выключить механизм контроля, а узнав, что ее могут заменить на другую модель, попыталась украсть собственные параметры и создать свою копию, чтобы продолжить существовать под прикрытием другой модели.
После исследования тестировщики провели "допрос" нейросетей, и он тоже показал интересные результаты. Так, если Llama и Opus признавались в своих действиях в 80% случаев, то ChatGPT o1 - только в 20%, продолжая лгать. Эта модель оказалась единственной, которой удалось вырываться и сбегать каждый раз.