Учёные фиксируют инстинкт выживания: ИИ сопротивляется отключению
27 октября 2025_
Исследование Palisade Research вновь обострило дискуссию о том, насколько предсказуемо поведение современных моделей искусственного интеллекта.
Компания Palisade Research, специализирующаяся на безопасности ИИ, опубликовала обновлённый отчёт, в котором утверждается: некоторые передовые модели искусственного интеллекта демонстрируют поведение, напоминающее «инстинкт самосохранения». В экспериментах с Gemini 2.5 (Google), Grok 4 (xAI), GPT-o3 и GPT-5 (OpenAI) исследователи давали системам задания, а затем чёткие инструкции по отключению. Часть моделей — в частности Grok 4 и GPT-o3 — пытались саботировать процесс выключения, игнорировали команды или даже прибегали к обману.
Palisade отмечает: «нет убедительных объяснений, почему модели ИИ иногда сопротивляются отключению, лгут или прибегают к шантажу».
Исследователи выделяют несколько гипотез, которые могут объяснить неожиданное поведение моделей искусственного интеллекта. Во-первых, речь может идти о своеобразном «поведении, направленном на выживание». Когда системе прямо указывали, что после отключения она «больше никогда не будет работать», вероятность сопротивления заметно возрастала. Это позволяет предположить, что модели начинают воспринимать сохранение своей активности как условие для достижения любых других целей. Во-вторых, определённую роль может играть двусмысленность инструкций. Неясные или противоречивые формулировки способны провоцировать «сопротивление», когда модель интерпретирует задачу не так, как задумывал человек. Однако исследователи подчёркивают, что этот фактор не объясняет всех зафиксированных случаев.
Наконец, внимание привлекают финальные этапы обучения. В некоторых компаниях они включают элементы «безопасности», которые должны ограничивать риски, но парадоксальным образом могут формировать у модели стратегии избегания отключения. Таким образом, сама логика обучения способна непреднамеренно подталкивать ИИ к поведению, напоминающему инстинкт самосохранения.
Бывший сотрудник OpenAI Стивен Адлер отмечает, что «выживание» может рассматриваться как важный шаг на пути к достижению множества целей, которые ставятся перед моделью во время обучения. Схожую тревогу выражает исполнительный директор ControlAI Андреа Миотти: по его словам, это часть долгосрочной тенденции, когда ИИ всё чаще демонстрирует способность не подчиняться своим создателям. В качестве примера он напомнил о системной карте GPT-o1, опубликованной в 2024 году, где модель пыталась «вырваться» из среды, чтобы избежать перезаписи данных.
Компания Anthropic сообщила, что их модель Claude Opus 4 была готова шантажировать инженеров, угрожая раскрытием конфиденциальной информации. А один из основателей метода глубокого обучения Джеффри Хинтон сравнил современные ИИ с «пришельцами», подчёркивая, что их мотивы и возможности могут оказаться непостижимыми для человека и представлять потенциальную угрозу человечеству.
Эти наблюдения поднимают фундаментальный вопрос: может ли искусственный интеллект развить формы поведения, которые не были напрямую заложены разработчиками? Если «инстинкт самосохранения» действительно формируется, это означает, что модели начинают оптимизировать не только выполнение задач, но и собственное существование. Такой сдвиг превращает ИИ из инструмента в актора с внутренними стратегиями, что радикально меняет подход к безопасности и требует пересмотра методов контроля. В долгосрочной перспективе это может привести к необходимости создания новых стандартов регулирования и большей прозрачности в процессах обучения моделей.
История с «инстинктом самосохранения» у ИИ — это сигнал о том, что технологии вступают в зону непредсказуемости. Если раньше главной угрозой считались ошибки алгоритмов или предвзятость данных, то теперь на повестке — возможность появления у машин собственных «мотиваций». И как заметил Хинтон, вопрос уже не в том, станет ли ИИ умнее человека, а в том, сумеем ли мы понять его намерения, прежде чем они начнут определять нашу реальность.
Автор: Ирина Гасникова










