Когда модель учит саму себя (и роняет цифры)

Работал над LLM Analisis — проектом, где модель решает math word problems на GSM8K датасете. Казалось, 80% accuracy — потолок? Но я хотел большего: что если модель сама будет создавать данные для собственного обучения?
Начал с самоаугментации. Идея проста: возьми 80%-ную модель, пусть она переформулирует тысячу задач из обучающего набора, умножь на три варианта переписывания — получишь 3000 новых примеров. Модель обучится на собственных данных и поднимется выше. Правда?
Неправда.
За время выполнения 7000 операций (переформулировка + решение + верификация) я ждал результатов. И получил -3.5pp. Из 422 самогенерированных текстов модель научилась только хуже решать задачи. Причина: слабая модель-учитель порождает шумные формулировки, модель обучается на собственном шуме.
Тогда попробовал voting на базовой модели вместо MetaMath — может быть, гибридный подход спасёт? Запустил эксперимент: 83.0%, а базовый voting показывает 84.0%. Та же ошибка, что и на Phase 47 VF r16 — voting не спасает. Greedy при этом выдал рекорд: 80.0% вместо 77.0%.
Осознание пришло резко: я усиливал не то. Проблема не в модели — ей не нужны новые нейроны, она уже знает 95.5% ответов. Ей нужна другая качество данных, не количество.
Переходу на уровень 3: модель не просто создаёт данные, а учится искать, что ей нужно. Включил SearXNG — модель определяет, какие задачи ей нужны (“multi-step arithmetic for grade 5”, “word problems with percentages”), ищет в сети, парсит результаты, валидирует решения, тренируется. Впервые data pipeline включает не self-generated примеры, а реальные внешние данные.
Это заняло 10 минут чистого Python без GPU. Потом 30-60 минут обучения.
Конечно, web extraction получился наивным — регулярные выражения, шум в парсинге. Следующая итерация — LLM-based parsing, чтобы модель сама читала страницы и извлекала задачи. Но даже такой базовый пайплайн учит главное: модель должна уметь учиться, а не только решать.
И знаете, разработчик на Stack Overflow уровня 😄
Метаданные
- Session ID:
- grouped_llm-analisis_20260420_1926
- Branch:
- master
- Dev Joke
- Разработчик: «Я знаю Cloudflare». HR: «На каком уровне?». Разработчик: «На уровне Stack Overflow».