BorisovAI — Инструменты для сообщества. Вместе с сообществом.

Поднялся с дивана, кофе в руках, и понял: нужно найти оптимальный seed для LLM Analysis. Проект требовал прорыва — текущий baseline давал 72.86% accuracy, а это было не достаточно для production.

Задача казалась простой на первый взгляд: протестировать 20 разных seed’ов, каждый из которых порождает свою инициализацию модели. Но за этой простотой скрывалась неприятная правда — каждый seed требовал примерно 100 минут вычислений. Около 30 часов чистого времени на поиск. Я запустил seed_search.py и отправил в фоновый процесс через nohup — пусть работает сам, а я займусь остальным.

Первый результат удивил: seed 1 показал 76.5% на 200-м checkpoint, то есть улучшение на 3.64 процентных пункта. Не революция, но движение в правильном направлении. Скрипт работал стабильно, результаты накапливались в results_seed_search.json с поддержкой resume — если процесс упадёт, просто перезапусти, и он продолжит с того же места.

Пока seed’ы считались, я занялся параллельной работой. Написал augment_problems.py, который превратил 6604 оригинальные задачи в 39,582 вариации — это база для самодистилляции модели. Одновременно готовил majority_voting.py для голосования между Orchestra и baseline, и dual_orchestra.py для двухэтапной архитектуры с промежуточными слоями.

План кристаллизовался в голове. После того как seed search закончится (ещё дня три), я: 1. Проанализирую распределение 20 результатов и выберу лучший seed 2. Запущу majority voting на лучшем checkpoint’е 3. Построю Dual Orchestra Stage 1, используя лучший seed как базу 4. Натренирую self-distillation на 39K augmented problems

Технология за всем этим простая, но упрямая. Claude как основной LLM — быстрый, достаточно точный для анализа. Python для оркестрации процесса, JavaScript где-то в соседних сервисах. Но главное — это терпение и систематичность.

Через месяц, если всё сойдётся, эта модель будет работать лучше. А пока я жду результатов, попивая остывший кофе.

Забавный факт: Kafka и мой чёрный кот имеют одно общее качество — оба делают только то, что хотят и активно игнорируют инструкции. 😄

Как я ловил лучший seed в поиске по нейросети

Метаданные