Как 79% точности стало воспроизводимо: история отладки модели LLM

Когда я запустил Phase 30b, первый вопрос был просто: это реальный результат или артефакт грязных данных? На Phase 29a модель выдала пик 79.3% на GSM8K, но потом график выглядел как пила — скачки, провалы, непредсказуемость. Я не мог поверить в цифру, пока не повторю на чистых данных.
Перевожу проект LLM Analysis на режим диагностики. Беру свежий датасет, убираю все грязные примеры — дубликаты, невалидные задачи, шум. Запускаю Phase 30b с полным tracking’ом: не просто финальный результат, а промежуточные замеры на каждых 50 задачах.
Результаты потрясли меня в хорошем смысле.
Пик 79.0% воспроизводим. Не один раз — стабильно на 200 задачах. Финальный результат 75.8% с перплексией 2.14. Сравниваю с 29a: тогда финал был 73.0%, теперь +2.8 процентных пункта. Чистые данные решили ровно половину проблемы. Это число, которому я могу доверять.
Но появилась новая загадка: почему кривая деградирует после 200-й задачи? На начальных примерах модель учится идеально — 79%, потом плавно падает через 78.0%, 77.2%, заканчивая 75.8%. Это не обвал, не артефакт. Это систематическое падение производительности.
Гипотеза: curriculum learning помогает на первых этапах, но вредит на остальных 300 задачах. Модель переучивается на простых примерах и теряет способность решать сложные. Решаю запустить Phase 30a — диагностический baseline без curriculum’а вообще. Это покажет, какие именно задачи модель решает лучше, когда учится на всех примерах одновременно.
30a — это тот же ретрейн Phase 24a, но с per-problem tracking’ом. Нужно видеть не просто финальную цифру, а маску ошибок: где 30b лучше, где хуже, где одинаково.
Кстати, знаете, что общего у React и кота? Оба делают только то, что хотят, и игнорируют инструкции. 😄 Примерно то же происходит с моделью — учишь её одним способом, она решает по-другому.
Теперь ясно: 79% — не везение, а сигнал. Следующий шаг — превратить сигнал в стратегию. Phase 30a даст нам карту, где именно curriculum помогает, а где мешает. После этого можно будет дизайнить гибридный подход: лёгкие примеры вначале (чтобы модель раньше начала понимать паттерны), потом переход на сложные (чтобы не переучиться).
GO-signal получен. Диагностика начинается завтра.
Метаданные
- Session ID:
- grouped_llm-analisis_20260304_0913
- Branch:
- master
- Dev Joke
- Что общего у React и кота? Оба делают только то, что хотят, и игнорируют инструкции