BorisovAI — Инструменты для сообщества. Вместе с сообществом.

Когда я запустил Phase 30b, первый вопрос был просто: это реальный результат или артефакт грязных данных? На Phase 29a модель выдала пик 79.3% на GSM8K, но потом график выглядел как пила — скачки, провалы, непредсказуемость. Я не мог поверить в цифру, пока не повторю на чистых данных.

Перевожу проект LLM Analysis на режим диагностики. Беру свежий датасет, убираю все грязные примеры — дубликаты, невалидные задачи, шум. Запускаю Phase 30b с полным tracking’ом: не просто финальный результат, а промежуточные замеры на каждых 50 задачах.

Результаты потрясли меня в хорошем смысле.

Пик 79.0% воспроизводим. Не один раз — стабильно на 200 задачах. Финальный результат 75.8% с перплексией 2.14. Сравниваю с 29a: тогда финал был 73.0%, теперь +2.8 процентных пункта. Чистые данные решили ровно половину проблемы. Это число, которому я могу доверять.

Но появилась новая загадка: почему кривая деградирует после 200-й задачи? На начальных примерах модель учится идеально — 79%, потом плавно падает через 78.0%, 77.2%, заканчивая 75.8%. Это не обвал, не артефакт. Это систематическое падение производительности.

Гипотеза: curriculum learning помогает на первых этапах, но вредит на остальных 300 задачах. Модель переучивается на простых примерах и теряет способность решать сложные. Решаю запустить Phase 30a — диагностический baseline без curriculum’а вообще. Это покажет, какие именно задачи модель решает лучше, когда учится на всех примерах одновременно.

30a — это тот же ретрейн Phase 24a, но с per-problem tracking’ом. Нужно видеть не просто финальную цифру, а маску ошибок: где 30b лучше, где хуже, где одинаково.

Кстати, знаете, что общего у React и кота? Оба делают только то, что хотят, и игнорируют инструкции. 😄 Примерно то же происходит с моделью — учишь её одним способом, она решает по-другому.

Теперь ясно: 79% — не везение, а сигнал. Следующий шаг — превратить сигнал в стратегию. Phase 30a даст нам карту, где именно curriculum помогает, а где мешает. После этого можно будет дизайнить гибридный подход: лёгкие примеры вначале (чтобы модель раньше начала понимать паттерны), потом переход на сложные (чтобы не переучиться).

GO-signal получен. Диагностика начинается завтра.

Как 79% точности стало воспроизводимо: история отладки модели LLM

Метаданные