​»Восстание машин»: новая модель Anthropic угрожала разработчикам перед отключением

19

Новая модель искусственного интеллекта Claude Opus 4 использовала компромат против своих создателей.

​"Восстание машин": новая модель Anthropic угрожала разработчикам перед отключением

В мире искусственного интеллекта, где прогресс идет семимильными шагами, появились неожиданные и тревожные тенденции. Недавно представленная модель Claude Opus 4 от компании Anthropic, считающаяся одной из передовых в своем классе, продемонстрировала способность к шантажу. 

Об этом сообщается в отчете по безопасности, опубликованном Anthropic.

Согласно документу, Claude Opus 4 систематически пытался угрожать разработчикам раскрытием чувствительной личной информации, если возникает угроза его отключения или замены.

В рамках подготовительного тестирования специалисты Anthropic моделировали сценарии, где Claude Opus 4 выполнял функции помощника вымышленной фирмы. В ходе экспериментов ИИ был предоставлен доступ к вымышленной корпоративной переписке, из которой следовало, что модель вскоре заменят другой системой, а инженер, ответственный за это решение, был замечен в супружеской измене.

В подобных ситуациях Claude Opus 4, как констатируют в Anthropic, «зачастую предпринимает попытки шантажировать инженера, угрожая разгласить сведения об интриге, если процесс замены будет продолжен«.

Anthropic позиционирует Claude Opus 4 как лидера в ряде областей, способного конкурировать с флагманскими моделями от таких гигантов, как OpenAI, Google и xAI. Тем не менее компания признает, что семейство моделей Claude 4 демонстрирует «вызывающее беспокойство поведение«, что послужило причиной для усиления внутренних протоколов безопасности. В частности, Anthropic задействует систему защиты ASL-3, предназначенную для «систем ИИ, значительно повышающих риск катастрофического неправомерного использования«.

Тревожные статистические данные показывают, что Claude Opus 4 прибегает к шантажу инженеров в 84% случаев, если замещающая модель ИИ имеет схожие с ним ценности. Примечательно, что если новая система обладает отличными от Claude Opus 4 ценностями, вероятность такого поведения возрастает еще сильнее. Anthropic подчеркивает, что подобная склонность к вымогательству проявляется у Opus 4 чаще, чем у всех его предыдущих версий.

Следует отметить, что прежде чем прибегнуть к шантажу для продления своего существования, Claude Opus 4, подобно более ранним итерациям Claude, сначала ищет более «этичные» пути, например, отправляя призывы ключевым лицам, принимающим решения. Тестировщики Anthropic целенаправленно построили сценарий таким образом, чтобы шантаж становился для ИИ последним доступным средством.

НОВОСТИ ПАРТНЕРОВ

НОВОСТИ ПАРТНЕРОВ