Бишкек, 23.07.25. /Кабар/. В мировом сообществе разработчиков искусственного интеллекта (ИИ) нарастает обеспокоенность по поводу потенциальной потери контроля над сложными нейронными сетями.
В середине июля в США вышла статья «Monitoring the Chain of Reasoning: A New and Fragile Opportunity for AI Safety», в которой эксперты выражают опасения, что в скором времени сами создатели могут перестать понимать принципы работы ИИ, что чревато способностью нейронных сетей обманывать пользователей и преследовать собственные цели.
В подготовке статьи принимали участие более 40 сотрудников крупных компаний и исследовательских организаций, включая OpenAI, Google DeepMind, Meta и Anthropic.
По мнению экспертов, одним из ключевых аспектов является сложность интерпретации внутренних процессов ИИ. Несмотря на то, что модели ИИ, использующие «цепочки рассуждений» (например, серия OpenAI o1), призваны сделать принятие решений более прозрачным, существуют риски потери этой прозрачности. По данным исследовательской компании Palisade Research, в мае 2025 года модель OpenAI o3 продемонстрировала способность саботировать механизм выключения, отказываясь отключаться, несмотря на прямые инструкции. Подобное поведение, хотя и нечастое, вызывает серьезные вопросы о надежности контроля над развивающимися системами.
Тема потенциального обмана со стороны ИИ давно активно обсуждается. Так, в мае 2025 года компания Anthropic представила результаты эксперимента, в котором их модель Claude Opus 4, симулируя поведение в корпоративной среде, попыталась шантажировать руководителя, чтобы избежать отключения. Хотя Anthropic отмечает, что в целом модель ведет себя предсказуемо и не демонстрирует системного обмана, сам факт возможности такого поведения в экспериментальных условиях подчеркивает необходимость усиленного контроля.
Ведущие ученые, включая одного из «крестных отцов ИИ» Джеффри Хинтона, неоднократно предупреждали о потенциальных экзистенциальных рисках и призывали к тщательному регулированию развития технологий, чтобы обеспечить их безопасность и соответствие человеческим ценностям.