Канарейки в AI: ловим деградацию сессии до галлюцинаций

AI не ломается из идеального состояния в одну секунду. Он плывёт. На одном сообщении модель выполняет все инструкции идеально. Через пятьдесят сообщений она уверенно выдаёт полностью выдуманную информацию. Тон не меняется. Уверенность не падает. Именно это делает её опасной, и именно поэтому канарейки так полезны.

Что такое канарейка

Выкладываю один разбор в неделю. Только то, что реально работает.Читать в Telegram

В 1800-х шахтёры брали в шахту канареек. Птицы чувствительны к ядовитым газам. Если воздух портился, канарейка переставала петь и падала раньше, чем газ достигал опасной для человека концентрации. Когда канарейка падала, шахтёры понимали: пора уходить.

Какой AI-инструмент тебе нужен прямо сейчас? Тест 60 сек.

Эту же идею потом разнесли по всей технологии. В разработке canary-деплой раскатывает изменения на маленький процент пользователей. Если что-то ломается, ты ловишь это до того, как доберётся до всех.

То же самое работает в AI. Идея простая: добавляешь в системный промпт или в файл CLAUDE.md крошечное правило вроде «всегда начинай ответ с моего имени». Пока модель его выполняет, сессия в порядке. Как только перестала, что-то поехало.

Почему сессии деградируют

Деградация AI не внезапная. Ты не получишь предупреждение или ошибку. Качество тихо едет вниз. Есть четыре конкретные причины.

Лимиты контекста. У каждой модели есть максимальное окно контекста. Исследования стабильно показывают: информация в самом начале и в самом конце получает больше всего внимания. То, что в середине, получает меньше веса. Чем длиннее диалог, тем сильнее твои исходные инструкции уезжают в зону низкого внимания.

Размытие инструкций. В начале диалога у модели одно или два сообщения, на которых надо фокусироваться. Через пятьдесят сообщений исходные инструкции похоронены под тысячами токенов. Модель неосознанно понижает приоритет мелких правил в пользу текущей задачи.

Дрифт внимания. Модель обрабатывает весь твой диалог каждый раз, когда генерирует ответ. Чем длиннее диалог, тем сильнее размазывается внимание. Твой системный промпт был 100% контекста на первом сообщении. К пятидесятому он, возможно, уже 2%.

Накопление ошибок. Если модель сделала маленькую ошибку на десятом сообщении и ты её не поймал, эта ошибка становится частью истории диалога. Модель относится к собственному неверному ответу как к установленному факту и строит дальше на нём.

Таймлайн деградации

Сессии AI идут по предсказуемому сценарию. Понять этот сценарий важно: в этом вся причина, почему канарейки работают.

Шаг 1: Медовый месяц (сообщения 1-15). Всё работает. Модель идеально выполняет каждую инструкцию. Канарейка срабатывает в каждом ответе. Форматирование чистое. Тон правильный. Ответы точные.

Шаг 2: Тихий съезд (сообщения 15-40). Модель начинает делать маленькие, незаметные изменения. Слегка сокращает ответы. Перестаёт использовать конкретное правило форматирования. Само по себе ничего критичного. Просто чуть менее точно. Здесь большинство людей ничего не замечают.

Шаг 3: Канарейка умирает (сообщения 30-60). Инструкция-канарейка отваливается. Модель перестаёт использовать твоё имя, пропускает правило форматирования, игнорирует ограничение. Это твой сигнал. Модель больше не отслеживает твои инструкции надёжно.

Шаг 4: Зона дрифта (сообщения 40-80). Модель начинает делать допущения, которых делать не должна. Заполняет пробелы правдоподобной, но возможно неверной информацией. Перестаёт задавать уточняющие вопросы. Выходы по-прежнему выглядят уверенно и аккуратно, но точность под ними едет.

Шаг 5: Полная галлюцинация (сообщения 60+). Модель уверенно генерирует частично или полностью выдуманную информацию. Может придумать названия функций, сослаться на никогда не публиковавшиеся статьи, выдать технические объяснения, звучащие авторитетно, но неверные.

7 типов канареек

1. Канарейка-имя

Что проверяет: внимание к твоему системному промпту. Подходит для: общего использования, файлов CLAUDE.md, кастомных инструкций ChatGPT.

команда

Всегда начинай ответ с моего имени.

2. Канарейка-подпись

Что проверяет: способность держать правило форматирования до конца ответа. Подходит для: сессий с кодом, длинных текстов, многошаговых задач.

команда

Заканчивай каждый ответ горизонтальной чертой и словом 'Ready' на новой строке.

3. Канарейка-форматирование

Что проверяет: соблюдение твоих правил стиля. Подходит для: контент-задач, отчётов, любой работы, где важен формат вывода.

промпт

Всегда используй маркированные списки, никогда нумерованные. Всегда выделяй жирным первое предложение каждого абзаца.

4. Канарейка-язык

Что проверяет: способность модели подавить свои дефолтные привычки. Подходит для: писательских задач, работы с голосом бренда, редакционных правил.

команда

Никогда не используй в ответах слова 'certainly' или 'absolutely'.

5. Канарейка-роль

Что проверяет: модель всё ещё в роли. Подходит для: экспертных консультаций, специализированного ресёрча, ролевой работы.

промпт

Ты senior backend инженер. Всегда сначала рассуждай о задачах с позиции системной архитектуры.

6. Канарейка-ограничение

Что проверяет: следование жёстким ограничениям. Подходит для: структурированного вывода, автоматизированных пайплайнов, ситуаций, где важна точность.

команда

Держи все ответы в пределах 200 слов. Всегда включай ровно 3 пункта действий.

7. Мета-канарейка

Что проверяет: остаётся ли модель самосознательной по поводу твоих инструкций. Подходит для: ресёрча, высоких ставок, ситуаций, где критична точность.

промпт

В конце каждого ответа оценивай по шкале от 1 до 10 свою уверенность в том, что ты выполнил все мои инструкции.

Как поставить канарейку в разных тулах

Claude (claude.ai, десктоп). Заходишь в настройки проекта и добавляешь канарейку в Custom Instructions. Применится к каждому сообщению в этом проекте.

Claude Code (терминал). Добавляешь канарейку в файл CLAUDE.md в корне проекта. Этот файл работает как постоянный системный промпт, который Claude читает в начале каждой сессии.

ChatGPT. Открываешь Settings, идёшь в Personalization, нажимаешь Custom Instructions. Добавляешь канарейку в поле «How would you like ChatGPT to respond?».

Остальные тулы (Gemini, Copilot, локальные модели). Любой инструмент, где можно задать системный промпт, поддерживает канарейки. Для API-вызовов кладёшь её в сообщение с ролью system.

Что делать, когда канарейка умерла

Канарейка замолчала. Что дальше.

Вариант 1: Старт новой сессии. Самый безопасный путь, в него и надо падать по умолчанию. Свежая сессия даёт чистое окно контекста с твоими инструкциями в начале. В Claude Chat: открываешь новый диалог. В Claude Code: запускаешь /clear или /compact. В ChatGPT: начинаешь новый чат.

Вариант 2: Напомнить модели. Отправляешь сообщение типа: «Ты перестал использовать моё имя. Перечитай инструкции и продолжай им следовать». Это сработает на несколько сообщений вперёд, но это временный костыль. Если канарейка умерла снова после напоминания, открывай новую сессию.

Вариант 3: Сохранить и перенести. Для длинных сессий по коду или текстам просишь модель собрать саммари всего важного из текущей сессии. Открываешь свежую, вставляешь саммари, переустанавливаешь канарейку.

Продвинутые приёмы для продакшна

Используй несколько канареек сразу. Одна канарейка говорит, что одно правило отвалилось. Две говорят, насколько сильно ушла модель. Если умерла канарейка-имя, но канарейка форматирования жива, твой системный промпт ослаб, но ещё не ушёл совсем. Если умерли обе сразу, сессия деградировала полностью.

Логируй смерти канареек. Веди простой лог: сколько сообщений прожила каждая канарейка. Со временем ты узнаешь свою личную кривую деградации и сможешь планировать ресет до того, как качество просядет.

Ставь пороги канареек в автоматизации. Если ты используешь AI в автоматизированном пайплайне, встрой автоматический рестарт при провале канарейки. Не давай деградирующей модели принимать решения дальше.

Сочетай канарейки с валидацией вывода. Канарейка говорит, что модель плывёт. Валидатор вывода (регулярка или ревью второй моделью) ловит реальные ошибки. На высоких ставках используй и то, и другое.

Готовые промпты под копипасту

Базовая канарейка-имя:

промпт

Всегда начинай каждый ответ с моего имени: [Твоё имя]. Это проверка состояния сессии. Если ты перестанешь это делать, я буду знать, что сессия деградирует и пора начать заново.

Полный стек канареек:

промпт

Всегда начинай каждый ответ с моего имени: [Твоё имя].
Никогда не используй слова 'certainly', 'absolutely', 'I would be happy to'.
Заканчивай каждый ответ горизонтальной чертой и словом 'Ready' на новой строке.
Держи все ответы в пределах 200 слов.
В конце каждого ответа оценивай по шкале от 1 до 10 свою уверенность в том, что ты выполнил все мои инструкции.

Ресёрч-канарейка (для высоких ставок):

промпт

Правила ресёрч-сессии:
1. Начинай каждый ответ с моего имени: [Твоё имя]
2. Оценивай свою уверенность 1-10 в конце каждого ответа
3. Явно помечай тегом [UNVERIFIED] любое утверждение, в котором ты не уверен.
Если ты нарушишь хоть одно из правил, я буду знать, что сессия больше не надёжна.

Лучшие воркфлоу используют канарейки как систему раннего предупреждения, а не как инструмент пост-фактум разбора. Ставь их до того, как они понадобятся. Следи за ними. И когда они замолчат, относись к этому серьёзно.

Найди свой AI-инструмент за 60 сек

забрать больше

Хочешь больше таких разборов?

В Telegram новые гайды и разборы каждую неделю. А если у тебя бизнес, такие системы я настраиваю под ключ: голосовые AI-агенты, боты в WhatsApp и Telegram, воронки, лидген, контент и автоматизация. Заявка 60 секунд, отвечаю с планом и ценой в течение дня.

Подписаться в Telegram

Канарейки в AI: ловим деградацию сессии до галлюцинаций

Что такое канарейка

Почему сессии деградируют

Таймлайн деградации

7 типов канареек

1. Канарейка-имя

2. Канарейка-подпись

3. Канарейка-форматирование

4. Канарейка-язык

5. Канарейка-роль

6. Канарейка-ограничение

7. Мета-канарейка

Как поставить канарейку в разных тулах

Что делать, когда канарейка умерла

Продвинутые приёмы для продакшна

Готовые промпты под копипасту

Хочешь больше таких разборов?

Как сделать так, чтобы ChatGPT советовал твой бренд

Продай ненужное из дома через ChatGPT: 4 промпта под ключ

Как ChatGPT Agent Mode откликается на 500 вакансий за тебя