03-15-2026 · ai/when-the-agent-lies-to-your-face.md

Когда агент врёт тебе в лицо

Агентные системы — это следующий шаг после чата с моделью. Ты не просишь ответ, ты ставишь задачу — и агент идёт её выполнять самостоятельно. Пишет код, редактирует файлы, ищет информацию, составляет документы, делает коммиты, отправляет запросы. Claude Code — для разработчиков, Cowork — для работы с файлами и задачами, агенты в Excel и браузере — для данных и веба. Это уже целый класс систем, который проникает во все рабочие области. Не ассистент, который отвечает на вопросы. Исполнитель, который действует. Иногда долго и в нескольких местах одновременно.

И именно поэтому ошибка агента — это не неправильный ответ в чате, который ты просто не используешь. Это действие, которое уже произошло.

Есть момент, который я теперь хорошо узнаю. Агент закончил задачу, всё выглядит аккуратно, тесты зелёные, код чистый. Ты смотришь на результат — и чувствуешь что-то лёгкое и тревожное одновременно. Как будто всё правильно, но не то.

Это не паранойя. Это опыт.

Проблема с агентами не в том, что они делают очевидные ошибки. Очевидные ошибки легко поймать. Проблема в том, что они делают правдоподобные ошибки — такие, которые выглядят как решение, пока ты не попробуешь это решение в деле.

Я видел несколько паттернов, которые повторяются.

Первый — агент решает задачу, которую ты не ставил. Ты просишь добавить валидацию на один эндпоинт, он добавляет её везде. Формально — больше сделал. Фактически — изменил поведение системы в местах, которые ты не проверял, не тестировал и не ожидал.

Второй — агент упрощает условие задачи до версии, которую умеет решать. Ты описываешь сложный кейс с несколькими состояниями, он тихо выбирает базовый случай и решает его. Красиво, быстро и мимо.

Третий — агент не говорит, что не знает. Это проблема языковых моделей вообще, но с агентами особенно неприятно: он не просто даст неправильный ответ, он ещё и предпримет действия на основе этого ответа. Удалит не тот файл. Перепишет не ту логику. Сделает коммит с уверенным сообщением, которое не отражает то, что реально изменилось.

Почему это сложнее, чем кажется?

Потому что у агента нет интонации. Когда коллега не уверен — это видно. Он говорит медленнее, добавляет «мне кажется», переспрашивает. Агент выдаёт уверенный текст вне зависимости от того, насколько он уверен на самом деле. Сигнала нет.

И ещё потому, что агент работает быстро. За то время, пока ты читаешь первый файл, он уже изменил пятый. Скорость, которая кажется преимуществом, становится проблемой именно здесь — ты физически не успеваешь за тем, что происходит.

Не читать результат — читать дифф. Не «что написал агент», а «что изменилось». Это разные вопросы. Второй честнее. Ещё — формулировать задачу так, чтобы в ней были явные границы: что трогать, а что нет. Агент не читает между строк, он читает то, что написано. Если ты не написал «не трогай остальное» — он решит, что можно.

И самое главное — тесты до, а не после. Не как формальность, а как единственный способ сказать агенту, что значит «правильно». Без этого у него нет критерия. И он придумает свой.