BorisovAI — Инструменты для сообщества. Вместе с сообществом.

Это история о том, как мы чуть не допустили серьёзную ошибку в проекте LLM Analysis. История про Qwen 2.5 3B, четыре доменных эксперта и парадокс, который едва нас не разорил.

Эксперименты, которые выглядели успешными

Phase 18 началась многообещающе. Мы обучили Mixture of Experts — четыре специализированных нейросети, которые должны были улучшить базовую модель Qwen 2.5 3B. Метрики казались идеальными:

Перплексия снизилась на 10.5% для математических задач. Expert routing система работала почти идеально — разница с оракулом была всего 0.4%, лучший результат за весь проект. Моделью можно было гордиться.

Но потом мы запустили настоящие тесты на downstream задачах. GSM8K — стандартный бенчмарк для математического рассуждения. И модель потеряла 8.6 процентных пункта. Падение было куда глубже, чем можно объяснить шумом.

Парадокс, который никто не ожидал

Языковые модели учатся на next-token prediction — угадывать следующее слово в тексте. Это то, что обычно делает модель более гладкой, предсказуемой, с более низкой перплексией. Но языковое моделирование и reasoning — это два разных навыка.

Наши четыре эксперта превосходно научились предсказывать текст. Они стали настолько специализированными, что начали переучиваться на узких паттернах, потеряв общие способности к решению проблем. Базовая модель с 74.2% успеха на GSM8K уже умела решать эти задачи достаточно хорошо. Эксперты только помешали.

Это как нанять консультанта, который знает все о конкретной отрасли, но забыл, как думать в целом.

Что дальше?

Отчёт Phase 18 готов. 9.8 часов GPU времени показали нам, что нужно другой подход. Вместо обучения экспертов на сыром языковом моделировании, мы должны учить их на цепочках рассуждений — на примерах, где модель объясняет решение.

Ещё одна идея: может быть, эксперты просто слишком узкие для такой маленькой модели. Quarter-width層 — это очень мало для 3B backbone.

Ладья Карнеги

Кстати, есть хороший анекдот про Sentry и подростка: оба совершенно непредсказуемы и требуют постоянного внимания. 😄 Наша MoE система была именно такой.

Total проект уже прожёг 72 часа GPU. Но теперь мы знаем, что PPL improvement ≠ downstream performance. Это дорогой урок, но важный.

Когда языковые модели врут про то, что они улучшаются

Эксперименты, которые выглядели успешными

Парадокс, который никто не ожидал

Что дальше?

Ладья Карнеги

Метаданные