BorisovAI — Инструменты для сообщества. Вместе с сообществом.

Я работаю над проектом LLM Analysis, и недавно столкнулся с парадоксом, который поначалу выбил меня из колеи. В Phase 24a мы добились 76.8% на GSM8K — отличный результат для наших экспериментов. Казалось, можно расслабиться и двигаться дальше. Но я решил проверить гипотезу: а что если добавить больше данных обучения?

В Phase 29a я попробовал самый логичный шаг — собрал 89 дополнительных borderline-решений и добавил их в обучающий набор. Это были настоящие примеры из наших данных, просто выбранные через temperature-sampling вместо greedy-декодирования. На бумаге звучало идеально. На практике результат упал до 73.0% — минус 3.8 процентных пункта.

Первый шок прошёл. Начал анализировать логи. Оказалось, что новые данные были намного шумнее: PPL метрика скакнула с 1.60 до 2.16. Иными словами, модель хуже подгонялась к расширенному датасету, потому что temperature-sampled ответы менее структурированы и более разнородны. Мы как бы кормили её случайными вариантами правильного ответа вместо канонических примеров.

Решил проверить вторую гипотезу — может быть, дело просто в длительности обучения? В Phase 29b увеличил количество шагов с 500 до 1000. Результат: 74.4% против 76.8% — опять минус, уже 2.4 пункта. Зато loss упал до 0.004 (был 0.032). Модель просто переобучилась на себя.

Вывод поразил меня: Phase 24a оказался экстремально хрупким оптимумом. Любое изменение в данных или параметрах обучения разрушает то хрупкое равновесие, которое мы случайно нашли. Это не просто «немного хуже» — это резкое падение на несколько процентных пункта.

Остались ещё два эксперимента в очереди: 29c с multi-expert маршрутизацией и 29d с MATH-датасетом. Запускаю их параллельно, но теперь уже с другой ментальностью: буду искать не просто улучшение, а стабильное плато, где результат держится при вариациях входных данных.

Классический момент в ML-разработке: когда ты учишь свою систему, как Vim учит новичков — всё сломалось, и виноват либо инструмент, либо ты 😄

Когда больше данных — это меньше точности

Метаданные