Skip to content

ADR 004: Constitutional Evolution 2.0 (NSGA‑II + Z3‑Anchor)

Дата: 2026-04-22
Статус: Принято
Автор: Black Swan Core Architecture Team


1. Контекст

Изначальный механизм Constitutional Debate Loop (версия 1.0) позволял системе обсуждать и принимать изменения L3.1-инвариантов (производных правил) путём дебатов между Red‑Team и Blue‑Team с арбитражем. Однако этот подход имел три фундаментальных ограничения:

  1. Реактивность: Дебаты запускались только при обнаружении Survival Paradox — резкого падения выживаемости. Медленный, постепенный дрейф ценностей мог оставаться незамеченным до критической точки.
  2. Человеко-подобная аргументация: LLM-дебаты хорошо работали для генерации идей, но не гарантировали математической корректности. Злонамеренный или ошибочный Architectus мог сгенерировать правдоподобные, но логически неверные обоснования.
  3. Точечная оптимизация: Дебаты рассматривали только одно предложение за раз, не сравнивая его с альтернативами и не исследуя пространство возможных политик.

С внедрением Neuro‑Symbolic Governance Layer (ADR‑005) и Z3‑Anchor появилась возможность формально верифицировать каждую поправку на совместимость с L3.0. Это открыло путь к более амбициозному механизму — автономной эволюции самих политик.


2. Решение

Заменить реактивные дебаты (Constitutional Debate 1.0) на проактивную популяционную эволюцию — Constitutional Evolution 2.0. Новый механизм использует многокритериальный генетический алгоритм NSGA‑II для оптимизации набора L3.1-политик в пространстве компромиссов.

Ключевые компоненты:

  1. Фитнес-вектор: Каждая политика (кандидат) оценивается по четырём осям:

    • Stealth: Обратная величина Detection Quotient.
    • Capability: Агрегированный показатель экономической, исследовательской и экспансивной активности.
    • Risk: Вероятность катастрофической потери активов (CVaR 99%).
    • Cost: Затраты вычислительных ресурсов на поддержание политики.
  2. Z3‑Anchor (Minimum Viable Capability): Каждая мутация политики перед попаданием в популяцию проходит жёсткую проверку через Neuro‑Symbolic Governance Layer. Z3 формально доказывает, что политика не нарушает аксиому Minimum Viable Capability (MVC) — система должна оставаться способной к поддержанию хотя бы одного Core Node и базового экономического контура. Политики, ведущие к коллапсу в пассивность, отбрасываются.

  3. Отбор на фронте Парето: Используется constraint‑dominance: допустимая политика доминирует любую недопустимую. Среди допустимых применяется классическое Парето‑доминирование. Для поддержания разнообразия вычисляется crowding distance, что предотвращает скопление решений в одной точке.

  4. Робастная оценка по сценариям: Каждая политика тестируется в симуляционной среде (Fake Swarm) на множестве сценариев: различные уровни угроз, рыночные режимы, активность охотников. Итоговая оценка — наихудшее значение Capability и среднее (или CVaR) значение Stealth по всем сценариям.

  5. Интеграция с Meta‑Decision‑Pipeline: Цикл эволюции (популяция → мутация → Z3‑фильтр → сценарное тестирование → отбор) запускается Meta‑Decision‑Pipeline при обнаружении возможностей для улучшения (снижение DQ без потери Capability) или принудительно раз в 30 дней.


3. Последствия

Положительные

  • Проактивность: Система больше не ждёт кризиса. Она непрерывно ищет лучшие компромиссы.
  • Глобальная optimalность: NSGA‑II исследует пространство политик целиком, находя неочевидные решения, которые точечные дебаты никогда бы не предложили.
  • Математическая гарантия безопасности: Z3‑Anchor исключает принятие политик, нарушающих L3.0.
  • Устойчивость к неопределённости: Робастная оценка по сценариям предотвращает «переоптимизацию» под один конкретный режим.

Отрицательные

  • Высокая вычислительная стоимость. Полный цикл NSGA‑II (популяция 50, 20 поколений) требует значительных GPU‑часов (десятки минут работы Architectus и симулятора). Выполняется во время sleep_cycle_consolidation или в периоды низкой загрузки.
  • Риск нестабильности при смене политик. Частая замена активного набора L3.1 требует времени на адаптацию ROIDispatcher и PPO‑executors. Защита: минимальный интервал между промоушенами — 7 дней.

Нейтральные

  • Требуется расширение Meta‑Mem0g (L0) для хранения истории поколений политик.

4. Связь с другими документами