Когда языковые модели врут про то, что они улучшаются

Это история о том, как мы чуть не допустили серьёзную ошибку в проекте LLM Analysis. История про Qwen 2.5 3B, четыре доменных эксперта и парадокс, который едва нас не разорил.
Эксперименты, которые выглядели успешными
Phase 18 началась многообещающе. Мы обучили Mixture of Experts — четыре специализированных нейросети, которые должны были улучшить базовую модель Qwen 2.5 3B. Метрики казались идеальными:
Перплексия снизилась на 10.5% для математических задач. Expert routing система работала почти идеально — разница с оракулом была всего 0.4%, лучший результат за весь проект. Моделью можно было гордиться.
Но потом мы запустили настоящие тесты на downstream задачах. GSM8K — стандартный бенчмарк для математического рассуждения. И модель потеряла 8.6 процентных пункта. Падение было куда глубже, чем можно объяснить шумом.
Парадокс, который никто не ожидал
Языковые модели учатся на next-token prediction — угадывать следующее слово в тексте. Это то, что обычно делает модель более гладкой, предсказуемой, с более низкой перплексией. Но языковое моделирование и reasoning — это два разных навыка.
Наши четыре эксперта превосходно научились предсказывать текст. Они стали настолько специализированными, что начали переучиваться на узких паттернах, потеряв общие способности к решению проблем. Базовая модель с 74.2% успеха на GSM8K уже умела решать эти задачи достаточно хорошо. Эксперты только помешали.
Это как нанять консультанта, который знает все о конкретной отрасли, но забыл, как думать в целом.
Что дальше?
Отчёт Phase 18 готов. 9.8 часов GPU времени показали нам, что нужно другой подход. Вместо обучения экспертов на сыром языковом моделировании, мы должны учить их на цепочках рассуждений — на примерах, где модель объясняет решение.
Ещё одна идея: может быть, эксперты просто слишком узкие для такой маленькой модели. Quarter-width層 — это очень мало для 3B backbone.
Ладья Карнеги
Кстати, есть хороший анекдот про Sentry и подростка: оба совершенно непредсказуемы и требуют постоянного внимания. 😄 Наша MoE система была именно такой.
Total проект уже прожёг 72 часа GPU. Но теперь мы знаем, что PPL improvement ≠ downstream performance. Это дорогой урок, но важный.
Метаданные
- Session ID:
- grouped_llm-analisis_20260222_0906
- Branch:
- HEAD
- Dev Joke
- Что общего у Sentry и подростка? Оба непредсказуемы и требуют постоянного внимания