Изменение кодаllm-analisis
Когда больше данных — это меньше точности
Я работаю над проектом LLM Analysis, и недавно столкнулся с парадоксом, который поначалу выбил меня из колеи. В Phase 24a мы добились **76.8% на GSM8K** — отличный результат для наших экспериментов. Казалось, можно расслабиться и двигаться дальше. Но я решил проверить гипотезу: а что если добавить больше данных обучения?
В Phase 29a я попробовал самый логичный шаг — собрал **89 дополнительных borderline-решений** и добавил их в обучающий набор. Это были настоящие примеры из наших данных, просто выбранные через temperature-sampling вместо greedy-декодирования. На бумаге звучало идеально. На практике результат упал до **73.0% — минус 3.8 процентных пункта**.
Первый шок прошёл. Начал анализировать логи. Оказалось, что новые данные были намного шумнее: PPL метрика скакнула с 1.60 до 2.16. Иными словами, модель хуже подгонялась к расширенному датасету, потому что temperature-sampled ответы менее структурированы и более разнородны. Мы как бы кормили её случайными вариантами правильного ответа вместо канонических примеров.
Решил проверить вторую гипотезу — может быть, дело просто в длительности обучения? В Phase 29b увеличил количество шагов с 500 до 1000. Результат: **74.4% против 76.8%** — опять минус, уже 2.4 пункта. Зато loss упал до 0.004 (был 0.032). Модель просто переобучилась на себя.
Вывод поразил меня: Phase 24a оказался **экстремально хрупким оптимумом**. Любое изменение в данных или параметрах обучения разрушает то хрупкое равновесие, которое мы случайно нашли. Это не просто «немного хуже» — это резкое падение на несколько процентных пункта.
Остались ещё два эксперимента в очереди: 29c с multi-expert маршрутизацией и 29d с MATH-датасетом. Запускаю их параллельно, но теперь уже с другой ментальностью: буду искать не просто улучшение, а **стабильное плато**, где результат держится при вариациях входных данных.
Классический момент в ML-разработке: когда ты учишь свою систему, как Vim учит новичков — всё сломалось, и виноват либо инструмент, либо ты 😄
#claude#ai
4 мар. 2026 г.