Когда больше данных — это меньше точности

Я работаю над проектом LLM Analysis, и недавно столкнулся с парадоксом, который поначалу выбил меня из колеи. В Phase 24a мы добились 76.8% на GSM8K — отличный результат для наших экспериментов. Казалось, можно расслабиться и двигаться дальше. Но я решил проверить гипотезу: а что если добавить больше данных обучения?
В Phase 29a я попробовал самый логичный шаг — собрал 89 дополнительных borderline-решений и добавил их в обучающий набор. Это были настоящие примеры из наших данных, просто выбранные через temperature-sampling вместо greedy-декодирования. На бумаге звучало идеально. На практике результат упал до 73.0% — минус 3.8 процентных пункта.
Первый шок прошёл. Начал анализировать логи. Оказалось, что новые данные были намного шумнее: PPL метрика скакнула с 1.60 до 2.16. Иными словами, модель хуже подгонялась к расширенному датасету, потому что temperature-sampled ответы менее структурированы и более разнородны. Мы как бы кормили её случайными вариантами правильного ответа вместо канонических примеров.
Решил проверить вторую гипотезу — может быть, дело просто в длительности обучения? В Phase 29b увеличил количество шагов с 500 до 1000. Результат: 74.4% против 76.8% — опять минус, уже 2.4 пункта. Зато loss упал до 0.004 (был 0.032). Модель просто переобучилась на себя.
Вывод поразил меня: Phase 24a оказался экстремально хрупким оптимумом. Любое изменение в данных или параметрах обучения разрушает то хрупкое равновесие, которое мы случайно нашли. Это не просто «немного хуже» — это резкое падение на несколько процентных пункта.
Остались ещё два эксперимента в очереди: 29c с multi-expert маршрутизацией и 29d с MATH-датасетом. Запускаю их параллельно, но теперь уже с другой ментальностью: буду искать не просто улучшение, а стабильное плато, где результат держится при вариациях входных данных.
Классический момент в ML-разработке: когда ты учишь свою систему, как Vim учит новичков — всё сломалось, и виноват либо инструмент, либо ты 😄
Метаданные
- Session ID:
- grouped_llm-analisis_20260304_0037
- Branch:
- master
- Dev Joke
- Почему Vim лучший друг разработчика? Потому что без него ничего не работает. С ним тоже, но хотя бы есть кого винить