Блог

Когда дефолт становится врагом: история из bot-social-publisher

Я отлаживал странный баг в **bot-social-publisher** и наткнулся на что-то неочевидное. Каждый ответ бота в личных сообщениях Telegram вдруг стал отправляться как цитата—с тем самым пузырём, который в групповых чатах выглядит уместно, а в 1:1 диалогах просто раздражает своей многословностью. Виноват оказался идеальный шторм из совпадений и забытых дефолтов. В последней версии проекта мы запустили фичу неявной реплай-сортировки—действительно полезная штука, которая автоматически нанизывает ответы на исходное сообщение. Сама по себе это хорошо. Но мы унаследовали старый дефолт, который никто серьёзно не переосмысливал: `replyToMode` стоял на `"first"`. Это значит, что первый ответ всегда уходит нативной Telegram-цитатой. Раньше эта настройка была невидима. Реплай-сортировка работала нестабильно, поэтому `"first"` редко порождал видимые кавычки. Пользователи не замечали—потому что сам механизм был ненадёжным. Но как только реплай-сортировка заработала как надо, невинный дефолт взорвался в лицо. Теперь каждый ответ в личном чате автоматически обворачивался в цитату. Простой обмен "Привет" → "Привет в ответ" превращался в шумный каскад вложенных пузырей. Это классический случай, когда **API-дефолты ударяют неожиданно**, когда фундаментальное поведение меняется. Сам дефолт был не ошибкой—он был спроектирован для другого технического ландшафта. Решение оказалось прямолинейным: переключить дефолт с `"first"` на `"off"`. Это вернуло доинженерное поведение для личных сообщений. А те, кому реплай-сортировка *действительно* нужна, могут явно включить её через конфиг. Тестировал на живой инстанции—с `"first"` каждое сообщение цитируется, на `"off"` ответы идут чистыми. Тесты не потребовали обновления, потому что наш набор тестов был явным по `replyToMode`—никогда не полагался на магию дефолтов. Небольшая победа за поддерживаемость кода. **Мораль**: дефолты мощны ровно потому, что они невидимы. Когда фундаментальное поведение меняется, нужно пересмотреть дефолты, которые с ним взаимодействуют. Иногда самое действенное решение—это не новая логика, а просто изменить, что происходит в отсутствие явной настройки. Между прочим, если бы Fedora когда-нибудь обрела сознание, первым делом она удалила бы свою документацию 😄

#claude#ai#api

16 февр. 2026 г.

#claude#ai#python#javascript#api#security

Когда дефолт становится врагом UX: история из OpenClaw

Я отлаживал странный баг в проекте **OpenClaw** и наткнулся на что-то неочевидное. Каждый ответ бота в личных сообщениях Telegram вдруг стал отправляться как цитата—с тем самым пузырём, который вложенным смотрится в групповых чатах, а в 1:1 диалогах просто раздражает своей многословностью. Виноват оказался идеальный шторм из совпадений и забытых дефолтов. В версии **2026.2.13** команда запустила фичу неявной реплай-сортировки—действительно полезная штука, которая автоматически нанизывает ответы на исходное сообщение. Сама по себе это хорошо. Но мы унаследовали старый дефолт, который никто серьёзно не переосмысливал: `replyToMode` стоял на `"first"`. Это значит, что первый ответ всегда уходит нативной Telegram-цитатой. Раньше эта настройка была невидима. Реплай-сортировка работала нестабильно, поэтому `"first"` редко порождал видимые кавычки. Пользователи не замечали—потому что сам механизм не был надёжным. Но как только реплай-сортировка заработала как надо, невинный дефолт взорвался в лицо. Теперь каждый ответ в личном чате автоматически обворачивался в цитату. Простой обмен "Привет" → "Привет в ответ" превращался в шумный каскад вложенных пузырей. Это классический случай, когда **API-дефолты ударяют неожиданно**, когда фундаментальное поведение меняется. Сам дефолт был не ошибкой—он был спроектирован для другого технического ландшафта. Решение оказалось прямолинейным: переключить дефолт с `"first"` на `"off"`. Это вернуло доинженерное поведение для личных сообщений. А те, кому реплай-сортировка *действительно* нужна, могут явно включить её через конфиг: ``` channels.telegram.replyToMode: "first" | "all" ``` Тестировал на живой инстанции 2026.2.13. С `"first"`—каждое сообщение цитируется. На `"off"`—ответы идут чистыми. Всё прозрачно. Тесты не потребовали обновления, потому что наш набор тестов уже был явным по `replyToMode`—никогда не полагался на магию дефолтов. Небольшая победа за поддерживаемость кода. **Мораль**: дефолты мощны ровно потому, что они невидимы. Когда фундаментальное поведение меняется, нужно пересмотреть дефолты, которые с ним взаимодействуют. Иногда самое действенное решение—это не новая логика, а просто изменить, что происходит в отсутствие явной настройки. Между прочим, если бы `cargo` когда-нибудь обрёл сознание, первым делом он удалил бы свою документацию 😄

#claude#ai#api

15 февр. 2026 г.

Новая функцияai-agents

От chaos к structure: как мы спасли voice-agent от собственной сложности

Я работал над `ai-agents` — проектом с автономным voice-agent'ом, который обрабатывает запросы через Claude CLI. К моменту начала рефакторинга код выглядел как русский матрёшка: слой за слоем глобальных переменных, перекрёстных зависимостей и обработчиков, которые боялись трогать соседей. **Проблема была классическая.** Handlers.py распух до 3407 строк. Middleware не имела представления о dependency injection. Orchestrator (главный дирижёр) тянул за собой кучу импортов из telegram-модулей. А когда я искал проблему с `generated_capabilities` sync, понял: пора менять архитектуру, иначе каждое изменение превратится в минное поле. Я начал с диагностики. Запустил тесты — прошло 15 случаев, где старые handlers ломались из-за отсутствующих re-export'ов. Это было сигналом: **нужна система, которая явно говорит о зависимостях**. Решил перейти на `HandlerDeps` — dataclass, который явно описывает, что нужно каждому обработчику. Вместо `global session_manager` — параметр в конструкторе. Параллельно обнаружил утечку памяти в `RateLimitMiddleware`. Стейт пользователей накапливался без очистки. Добавил периодическую очистку старых записей — простой, но효과적한паттерн. Заодно переписал `subprocess.run()` на `asyncio.create_subprocess_exec()` в compaction.py — блокирующий вызов в асинк-коде это как использовать молоток в операционной. Потом сделал вещь, которая кажется малой, но спасает множество часов отладки. Создал **Failover Error System** — типизированную классификацию ошибок с retry-логикой на exponential backoff. Теперь когда Claude CLI недоступен, система не паникует, а пытается перезагрузиться, а если совсем плохо — падает с понятной ошибкой, а не с молчаливым зависанием. Ревью архитектуры после этого показало: handlers/\_legacy.py — это 450 строк с глубокой связью на 10+ глобалов. Экстрактить сейчас? Создам просто другую матрёшку. Решил оставить как есть, но запретить им регистрировать роутеры в главном orchestrator'е. Вместо этого — явная инъекция зависимостей через `set_orchestrator()`. **Результат**: handlers.py сократился с 3407 до 2767 строк (-19%). Все 566 тестов проходят. Код больше не боится изменений — каждая зависимость видна явно. И когда кто-то спустя месяц будет копаться в этом коде, он сразу поймёт архитектуру, а не будет ловить призраков в глобалах. А знаете, что смешно? История коммитов проекта выглядит как `git log --oneline`: 'fix', 'fix2', 'fix FINAL', 'fix FINAL FINAL'. Вот к чему приводит отсутствие архитектуры 😄

15 февр. 2026 г.

Новая функцияborisovai-admin

Как я загрузил 19 ГБ моделей для боевого сервера

Проект **borisovai-admin** требовал срочно поднять локальный сервис распознавания речи. Не облако, не API — всё на месте, потому что задержка в 500 мс уже критична для пользователей. Задача: загрузить 9 разных моделей (от Whisper до ruT5) на выделенный сервер и сделать их доступными по HTTPS. Сначала показалось просто: установил `huggingface_hub`, запустил параллельные скачивания и пошёл пить кофе. Наивность. Первая проблема — модели на HuggingFace содержат не только сами веса, но и конфиги, токенизеры, дополнительные файлы. `ruT5-ASR-large` обещала быть 800 МБ, а приехала полтора гигабайта. Пришлось переоценить дисковое пространство на лету. Вторая беда — Windows. Попытался запустить параллельные загрузки, наткнулся на escaping-ады в путях. Экспортировал в фоновый процесс, дал ему время поработать спокойно. **Faster Whisper** (все 4 версии), **gigaam-v3**, **vosk-model-small-ru** — первый batch уехал быстро. Потом `ruT5-ASR-large` несколько часов грузился, блокируя очередь. Переделал под параллельные batch'и меньшего размера. Третий акт — валидация. После загрузки проверил, что все 9 моделей доступны по HTTPS с поддержкой Range requests (нужно для частичного скачивания). Включил CORS — браузеры должны иметь доступ. Сумме-то вышло: 142 МБ + 464 МБ + 1.5 ГБ + 2.9 ГБ + 1.6 ГБ + 5.5 ГБ + 2.2 ГБ + 4.2 ГБ + 88 МБ = **19 ГБ** на 64 ГБ диске. Занято 32%, дыхание свободное. Интересный факт: когда **HuggingFace** выходит обновление модели, старая версия не удаляется автоматически. Это спасает воспроизводимость, но затягивает диск. Пришлось вручную чистить кэши промежуточных версий. Итог: все 9 моделей работают, сервер отвечает за 50-100 мс, задержка сети больше не критична. Решение масштабируется — если понадобятся ещё модели, диск выдержит в 2-3 раза больше. Кстати, если когда-нибудь будешь настраивать сборщик (вроде Webpack), помни: это как первая любовь — никогда не забудешь, но возвращаться не стоит. 😄

#claude#ai#api#security

15 февр. 2026 г.

#claude#ai#python#javascript#api

Потоки из воздуха: охота на три невидимых бага

# Потоки событий из ниоткуда: как я чинил невидимый баг в системе публикации Представь себе: у тебя есть система, которая собирает заметки о разработке, генерирует красивые баннеры и должна автоматически организовывать их в тематические потоки на сайте. Только вот потоки не создаются. Вообще. А код выглядит так, будто всё должно работать. Именно это и произошло в проекте **bot-social-publisher** на этой неделе. На первый взгляд всё казалось в порядке: есть `ThreadSync`, который должен синхронизировать потоки с бэкендом, есть логика создания потоков, есть дайджесты с описанием тематики. Но когда я открыл сайт borisovai.tech, потоки были пусты или с дублирующимися заголовками. Я начал следить по цепочке кода и обнаружил не один, а **три взаимосвязанных бага**, которые друг друга нейтрализовали. ## Баг первый: потоки создавались как пустые скорлупы Метод `ensure_thread()` в `thread_sync.py` отправлял на бэкенд заголовок потока, но забывал про самое важное — описание. API получал `POST /api/v1/threads` с `title_ru` и `title_en`, но без `description_ru` и `description_en`. Результат: потоки висели как призраки без содержимого. ## Баг второй: дайджест потока не видел текущую заметку Метод `update_thread_digest()` пытался обновить описание потока, но к тому моменту текущая заметка ещё не была сохранена на бэкенде. Порядок вызовов был таким: сначала обновляем поток, потом сохраняем заметку. Получалось, что первая заметка потока в описании не появлялась. ## Баг третий: мёртвый код, который никогда не выполнялся В `main.py` был целый блок логики для создания потоков при накоплении заметок. Но там стояло условие: создавать поток, когда накопится минимум две заметки. При этом в памяти хранилась ровно одна заметка — текущая. Условие никогда не срабатывало. Код был как музей: красивый, но не функциональный. Фиксить пришлось системно. Добавил в payload `ensure_thread()` поля для описания и информацию о первой заметке. Переделал порядок вызовов в `website.py`: теперь дайджест обновляется с информацией о текущей заметке *до* сохранения на бэкенд. И наконец, упростил мёртвый код в `main.py`, оставив только отслеживание заметки в локальном хранилище потоков. Результат: все 12 потоков проектов пересоздались с правильными описаниями и первыми заметками на месте. ## Бонус: картинки для потоков весили как видео Пока я чинил потоки, заметил ещё одну проблему: изображения для потоков были размером 1200×630 пикселей (стандартный OG-баннер для соцсетей). Но для потока на сайте это overkill. JPG с Unsplash весил ~289 КБ, PNG от Pillow — ~48 КБ. Решение: сжимать перед загрузкой. Снизил размер с 1200×630 на 800×420, переключил Pillow на JPEG вместо PNG. Результат: JPG уменьшился до 112 КБ (**−61 %**), PNG до 31 КБ (**−33 %**). Дайджесты потоков теперь грузятся мгновенно. Вся эта история про то, что иногда баги не прячутся в одном месте, а рассредоточены по трём файлам и ломают друг друга ровно настолько, чтобы остаться незамеченными. Приходится думать не о коде, а о потоке данных — откуда берётся информация, где она трансформируется и почему на выходе получается пусто. Знаешь, в разработке систем есть хорошее правило: логи и мониторинг — твоя совесть. Если что-то не работает, но код выглядит правильно, значит ты смотришь не на те данные. 😄

Новая функцияtrend-analisis

8 адаптеров за неделю: как подружить 13 источников данных

# Собрал 8 адаптеров данных за один спринт: как интегрировать 13 источников информации в систему Проект **trend-analisis** это система аналитики трендов, которая должна питаться данными из разных уголков интернета. Стояла задача расширить число источников: у нас было 5 старых адаптеров, и никак не получалось охватить полную картину рынка. Нужно было добавить YouTube, Reddit, Product Hunt, Stack Overflow и ещё несколько источников. Задача не просто в добавлении кода — важно было сделать это правильно, чтобы каждый адаптер легко интегрировался в единую систему и не ломал существующую архитектуру. Первым делом я начал с проектирования. Ведь разные источники требуют разных подходов. Reddit и YouTube используют OAuth2, у NewsAPI есть ограничение в 100 запросов в день, Product Hunt требует GraphQL вместо REST. Я создал модульную структуру: отдельные файлы для социальных сетей (`social.py`), новостей (`news.py`), и профессиональных сообществ (`community.py`). Каждый файл содержит свои адаптеры — Reddit, YouTube в социальном модуле; Stack Overflow, Dev.to и Product Hunt в модуле сообществ. **Неожиданно выяснилось**, что интеграция Google Trends через библиотеку pytrends требует двухсекундной задержки между запросами — иначе Google блокирует IP. Пришлось добавить асинхронное управление очередью запросов. А PubMed с его XML E-utilities API потребовал совершенно другого парсера, чем REST-соседи. За неделю я реализовал 8 адаптеров, написал 22 unit-теста (все прошли с первой попытки) и 16+ интеграционных тестов. Система корректно регистрирует 13 источников данных в source_registry. Здоровье адаптеров? 10 из 13 работают идеально. Три требуют полной аутентификации в production — это Reddit, YouTube и Product Hunt, но в тестовой среде всё работает как надо. **Знаешь, что интересно?** Системы сбора данных часто падают не из-за логики, а из-за rate limiting. REST API Google Trends не имеет официального API, поэтому pytrends это реверс-инженерия пользовательского интерфейса. Каждый обновочный спринт может сломать парсер. Поэтому я добавил graceful degradation — если Google Trends упадёт, система продолжит работу с остальными источниками. Итого: 8 новых адаптеров, 5 новых файлов, 7 изменённых, 18+ новых сигналов для скоринга трендов, и всё это заcommитчено в main ветку. Система готова к использованию. Дальше предстоит настройка весов для каждого источника в scoring-системе и оптимизация кэширования. **Что будет, если .NET обретёт сознание? Первым делом он удалит свою документацию.** 😄

#claude#ai#python#git#api#security

Разработка: Trend Analisis

#claude#ai#python#security

Когда модель тянется в разные стороны одновременно

# Когда тысяча строк кода говорят вам «стоп» Проект **bot-social-publisher** стоял на пороге масштабирования. Задача была амбициозной: научить нейросеть самой менять собственную архитектуру во время обучения. Звучит как научно-фантастический роман? На самом деле это была Phase 7b исследования, где предполагалось проверить, может ли модель расти и адаптироваться прямо на лету, без вмешательства человека. Я разработал три параллельных подхода. Первый — синтетические метки, которые должны были подтолкнуть сеть к самомодификации. Второй — вспомогательная функция потерь на базе энтропии, которая работала бы в тандеме с основной целью обучения. Третий — прямая энтропийная регуляризация, минималистичный и изящный. Каждый подход разворачивался в отдельный файл: `train_exp7b1.py`, `train_exp7b2.py`, `train_exp7b3_direct.py`. Плюс специализированные модули типа `control_head.py` для управления вспомогательными потерями и `expert_manager.py` для работы с модулем экспертов. Всего получилось около 1200 строк кода с тщательно продуманной архитектурой. Результаты оказались шокирующими. Первый эксперимент обрушил точность на 27%. Второй — на 11,5%. Третий? Тоже провал. Но вот что было важно: падение было не случайным. Я начал копать глубже и понял реальную причину. Когда модель получает противоречивые сигналы от нескольких функций потерь одновременно, она попадает в конфликт целей — буквально тянется в разные стороны. Многозадачное обучение без правильной структуризации становится саботажем собственной модели. Второе открытие оказалось не менее дорогостоящим: я использовал отдельное валидационное множество для отслеживания прогресса. Результат? Распределительный сдвиг (*distribution shift*) сам по себе стоил 13% точности. Неоднородность данных между тренировочным и валидационным наборами превратила помощника в saboteur. Вместо того чтобы продолжать биться в стену, я потратил время на документирование выводов. Создал 14 файлов анализа, включая `PHASE_7B_FINAL_ANALYSIS.md`. Это не выглядит как победа в классическом смысле, но именно это называется научным результатом. На основе этого я полностью переосмыслил стратегию для Phase 7c. Вместо самоизменяющейся архитектуры система теперь будет использовать **фиксированную топологию с обучаемыми параметрами**. Маски, гейтинг, распределение внимания между 12 экспертами — всё это может меняться. Но сама структура остаётся стабильной. Добавил двузадачное обучение (CIFAR-100 и SST-2) с применением **Elastic Weight Consolidation** для защиты от катастрофического забывания. Ключевой вывод: иногда самое важное, что может сказать эксперимент — это «не в этом направлении». И это нормально. --- **Интересный факт о катастрофическом забывании:** Это явление не просто нейросетевая прихоть. Оно берёт корни в самой архитектуре градиентного спуска — когда сеть переучивается на новую задачу, новые градиенты переписывают веса, которые были оптимальны для старой задачи. EWC решает это, буквально оценивая, какие веса были *важны* для первой задачи, и штрафует их за изменения. Элегантный способ заставить модель помнить. Если ваша нейросеть падает на 27% при добавлении вспомогательной функции потерь, проблема не в коде — проблема в том, что вы просите модель одновременно преследовать несовместимые цели.

Новая функцияborisovai-site

Четыре expert'а разнесли мой feedback-сервис

# Четыре критика нашего feedback-сервиса: жестокая правда Представь ситуацию: ты потратил недели на разработку системы сбора feedback для **borisovai-site**, прошелся по best practices, всё выглядит красиво. А потом приглашаешь четырех экспертов провести code review — и они разносят твой код в пух и прах. Нет, не язвительно, а обоснованно. Я тогда сидел с этим отчетом часа два. Началось с **Security Expert**'а. Он посмотрел на мою систему сбора feedback и сказал: «Привет, GDPR! Ты знаешь, что нарушаешь европейское законодательство?» Оказалось, мне не хватало privacy notice, retention policy и чекбокса согласия. XSS в email-полях, уязвимости для timing attack'ов, email harvesting — полный набор. Но самое больное: я использовал 32-битный bitwise hash вместо SHA256. Это как строить замок из картона. Эксперт вынес вердикт: **NOT PRODUCTION READY** — пока не пофиксишь GDPR. Потом пришла очередь **Backend Architect**'а. Он посмотрел на мою базу и спросил: «А почему у тебя нет составного индекса на `(targetType, targetSlug)`?» Я посчитал: 100K записей, full-scan по каждому запросу. Это боль. Но это было ещё не всё. Функция `countByTarget` загружала **ВСЕ feedback'и в память** для подсчета — классический O(n) на production'е. Плюс race condition в create endpoint: проверка rate limit и дедупликация не были атомарными операциями. Вишенка на торте: я использовал SQLite для production'а. SQLite! Архитектор деликатно посоветовал PostgreSQL. **Frontend Expert** просмотрел React-компоненты и нашел missing dependencies в useCallback, untyped `any` в fingerprint.ts, отсутствие AbortController. Но главное убийство: **нет aria-labels на кнопках, нет aria-live на сообщениях об ошибках**. Screen readers просто не видели интерфейс. Canvas fingerprinting работал синхронно и блокировал main thread. Проще говоря, мой feedback-форм был отзывчив для слышащих пользователей, но недоступен для людей с ограничениями по зрению. И ещё **Product Owner** добавил: нет email-уведомлений админам о критических баг-репортах. Система красивая, но никто не узнает, когда пользователь кричит о проблеме. Итог? **~2 недели критических фиксов**: GDPR-соответствие (privacy notice + право на удаление данных), индекс на БД, транзакции в create endpoint, полная ARIA-поддержка, email-notifications, миграция на PostgreSQL. Сначала казалось, что я строил production-готовое решение. На самом деле я строил красивое **демо**, которое развалилось при первой серьёзной проверке. Урок: security, accessibility и database architecture — это не вишни на торте, это фундамент. Ты можешь иметь идеальный UI, но если пользователь не может получить доступ к твоему сервису или его данные не защищены, ничего не имеет значения. 😄 WebAssembly: решение проблемы, о существовании которой ты не знал, способом, который не понимаешь.

#claude#ai#python#javascript#git#api

Новая функцияborisovai-admin

От SQLite к Kubernetes: как выбрать стек для сервера

# Выбираем стек для боевого сервера: от SQLite до Kubernetes Вот я и дошёл до самой мясной части проекта **borisovai-admin** — нужно было решить, на чём строить технологический фундамент. Не просто выбрать, а выбрать правильно, с прицелом на масштабирование. Задача была масштабная: разобраться в 10 ключевых компонентах инфраструктуры и дать рекомендации для трёх разных уровней — от стартапа на $50–100 в месяц до полноценной облачной системы. Infrastructure as Code, управление конфигами, базы данных, оркестрация контейнеров, мониторинг — всё нужно было проанализировать и обосновать. Первым делом я создал структурированный анализ для каждого компонента. Взял **Terraform** для Infrastructure as Code (почему? потому что YAML в Ansible проще писать, но Terraform лучше управляет состоянием), **Ansible** для конфигурации (когда нужна простота без лишних абстракций), и вот тут начиналась интересная часть — выбор между SQLite и PostgreSQL. SQLite для первого тира — это не просто выбор экономии, это выбор разума. Встроенная база, ноль настройки, ноль инфраструктуры. Новичок может развернуть систему буквально за минуту. Но когда трафик растёт? Тогда я рекомендую чёткую миграционную дорожку: сначала **dual-write** (две базы параллельно, неделю собирали данные в обе), потом гибридный подход и только потом полная миграция на PostgreSQL с тремя серверами. Для оркестрации я выстроил пирамиду: **systemd** на одном сервере (t1), потом **Docker + Docker Compose** (t2) и наконец **Kubernetes** (t3) для тех, кто готов платить. Каждый уровень вносит свою сложность, но при правильной архитектуре переходы между ними — почти безболезненны. **Вот забавный факт про выбор инструментов:** Terraform и Ansible созданы в разных мирах. Terraform — это декларативный язык состояния (вы описываете, что хотите). Ansible — это процедурный язык действий (вы описываете, что делать). Профессионалы часто используют их вместе: Terraform создаёт инфраструктуру, Ansible её настраивает. Это как иметь архитектора и прораба на одном проекте. В итоге я подготовил три документа на 10 000+ слов: матрицу выбора с оценками по 10 критериям, полный анализ каждого компонента и готовый набор миграционных сценариев. Теперь у меня есть чёткая дорожная карта, и любой разработчик может взять этот стек и масштабировать систему вверх, не переделывая всё с нуля. Впереди — Track 3 с архитектурой AI-агента, и я уже вижу, как туда впишется этот технологический фундамент. 😄 Что общего у Terraform и кота? Оба отказываются делать то, что вы просили, пока не напишете ровно то, что они хотят видеть.

#claude#ai#git#security

Обучениеborisovai-site

Как мы превратили экспертную проверку в систему

# Как мы собрали пакет экспертной оценки и что из этого вышло В **borisovai-site** встала типичная задача, которая только звучит простой: нужно было подготовить полноценный пакет для проверки системы feedback опытными разработчиками. Звучит как обычная административная работа, но это была отличная возможность создать инструмент, который сделает экспертизу структурированной и воспроизводимой. **Первым делом я понял объём.** Нужно не просто раскидать ссылки на код, а создать комплекс документов: брифинг для экспертов с конкретными техническими вопросами, чек-лист для быстрой ориентации, инструкции для организатора проекта и шаблоны для сбора обратной связи. Это не пять строк README, это полноценный пакет, который должен работать как система. **Начал с архитектуры пакета.** Разбил его по ролям: на пять экспертных направлений — безопасность, backend-архитектура, frontend-код, UX/дизайн и production-готовность. Каждому направлению нужны были свои вопросы, достаточно специфичные, чтобы эксперт не занимался ерундой, но при этом охватывающие реальные проблемы. Неожиданно выяснилось, что правильные вопросы — это половина успеха. Вопрос вроде «Насколько хорошо задокументирован код?» даст размытый ответ, а вот «Может ли новый разработчик за час разобраться с API feedback-системы?» уже даёт конкретное понимание. **EXPERT_REVIEW_REQUEST.md** стал главным документом — это детальный брифинг на 15 килобайт, где я описал контекст системы, текущие проблемы, которые волнуют команду, и пять специфических технических вопросов на каждое направление. **EXPERT_REVIEW_CHECKLIST.md** — это его компактный напарник для быстрой ориентации. А **HOW_TO_REQUEST_EXPERT_REVIEW.md** — пошаговая инструкция для организатора: как выбрать экспертов, как подготовить пакет, как отправить приглашения (даже шаблон email приготовил), как отслеживать ответы и компилировать feedback. **Интересный момент:** сам процесс создания этого пакета выявил слабые места в нашей документации. Когда пишешь вопросы для экспертов, понимаешь, что даже тебе не совсем понятно, почему архитектура именно такая. Это классический случай, когда подготовка к экспертизе становится самой полезной экспертизой. **Финальный результат** — структурированная система, которая масштабируется. Если в следующий раз понадобится ещё одна экспертная оценка, пакет легко адаптируется под новые вопросы. И главное — у нас есть объективный критерий: целевой рейтинг 4.0+ из 5.0 звёзд. Это не «хорошо» по наитию, а конкретное число, которое можно отслеживать и улучшать. Теперь осталось только найти экспертов и отправить им пакеты. Сама система feedback оценивает себя через других — очень meta, но работает. --- Разработчик: «Я подготовил пакет для экспертной оценки». Эксперт: «А есть ли у вас сам ответ?». Разработчик: «Да, но я хочу услышать ваше мнение». 😄

#claude#ai#git#security

Новая функцияspeech-to-text

Микрофон учится слушать: история гибридной транскрипции

# Как мы научили микрофон слушать по-умному: история гибридной транскрипции Представьте себе знакомую ситуацию: вы нажимаете кнопку записи в приложении для голосового ввода, говорите фразу, отпускаете кнопку. Первый результат появляется почти мгновенно — 0.45 секунды, и вы уже можете продолжать работу. Но в фоне, незаметно для вас, происходит волшебство: тот же текст переобрабатывается, улучшается, и спустя 1.23 секунды выдаёт результат на 28% точнее. Это и есть гибридный подход к транскрипции, который мы только что воплотили в проекте **speech-to-text**. ## Задача, которая вставляла палки в колёса Изначально стояла простая, но коварная проблема: стандартная модель Whisper обеспечивает хорошую скорость, но качество оставляет желать лучшего. WER (word error rate) составлял мрачные 32.6% — представьте, что каждое третье слово может быть неправильным. Пользователь выдвинул чёткое требование: **реализовать гибридный подход прямо сейчас, чтобы получить 50% улучшение качества** путём тонкой настройки Whisper на русских аудиокнигах. Первым делом мы переосмыслили архитектуру. Вместо того чтобы ждать идеального результата, который займёт время, мы решили играть в две руки: быстрая базовая модель даёт мгновенный результат, а в параллельном потоке улучшенная модель шлифует текст в фоне. Это похоже на работу водителя-ассистента: первый делает очевидное (едем в основную полосу), а второй уже план Б готовит (проверяет слепые зоны). ## Как это реализовалось Интеграция гибридного подхода потребовала изменений в несколько ключевых мест. В `config.py` добавили параметры для управления режимом: простое включение-выключение через `"hybrid_mode_enabled": true`. В `main.py` реализовали оркестрацию двух потоков транскрипции с координацией результатов. Крайне важным оказался класс `HybridTranscriber` — именно он управляет тем, как две разные модели работают в унисон. Неожиданно выяснилось, что потребление памяти выросло на 460 МБ, но оно того стоит: пользователь получает первый результат так же быстро, как раньше (те же 0.45 секунды), а через 1.23 секунды получает улучшенный вариант. Главное — **нет ощущения задержки**, потому что основной поток не блокируется. ## Интересный факт о голосовых помощниках Забавно, что идея многослойной обработки голоса не нова. Amazon Alexa, созданная с использованием наработок британского учёного Уильяма Танстолл-Педо (его система Evi) и польского синтезатора Ivona (приобретена Amazon в 2012–2013 годах), работает по похожему принципу: быстрая обработка плюс фоновое уточнение. И хотя сейчас Amazon переходит на собственную LLM Nova, суть остаётся той же — многоуровневая архитектура для лучшего пользовательского опыта. ## Что дальше Мы создали полное руководство из 320 строк с инструкциями для финального 50% прироста качества через тонкую настройку на специализированных данных. Это потребует GPU на 2–3 недели ($15–50), но для серьёзных приложений это стоит. А пока пользователи могут включить гибридный режим в течение 30 секунд и сразу почувствовать 28% улучшение. Документация разложена по полочкам: `QUICK_START_HYBRID.md` для нетерпеливых, `HYBRID_APPROACH_GUIDE.md` для любопытных, `FINE_TUNING_GUIDE.md` для амбициозных. Тесты в `test_hybrid.py` подтверждают, что всё работает как надо. Научились простому, но мощному принципу: иногда лучше дать пользователю хороший результат *сейчас*, чем идеальный результат *потом*. Почему ZeroMQ не пришёл на вечеринку? Его заблокировал firewall.

#claude#ai#python#javascript#api#security

Разработка: Speech to Text

#claude#ai#python#security

Обучениеllm-analisis

Эксперименты, которые показали, что нейросеть не готова расти сама

# Когда эксперименты показывают, что вы идёте в тупик — это тоже результат Проект **llm-analisis** стоял на пороге важного этапа. Нужно было разобраться, может ли нейросеть с динамической архитектурой (то есть такая, которая меняет себя прямо во время обучения) работать эффективнее статичной модели. Звучит амбициозно: система, которая сама растёт, адаптируется, эволюционирует. Но амбиции и реальность — вещи разные. ## Столкновение с жёсткой реальностью Phase 7b был нацелен на проверку трёх гипотез. Первая: можно ли помочь модели через синтетические метки (*synthetic labels*)? Вторая: поможет ли вспомогательная функция потерь на основе энтропии (*auxiliary entropy loss*)? Третья: может быть, прямой подход с энтропией — самый эффективный? Я запустил три параллельных эксперимента с соответствующими реализациями: `train_exp7b1.py`, `train_exp7b2.py` и `train_exp7b3_direct.py`. Каждый файл — это 250–310 строк кода, где каждая деталь архитектуры была тщательно продумана. Добавил специализированный `control_head.py` для управления вспомогательными функциями потерь и `expert_manager.py` для работы с модулем экспертов. Результаты оказались шокирующими, но очень информативными. ## Что сломалось и почему это ценно Первая неожиданность: когда я попытался обучать вспомогательные потери одновременно с основной функцией потерь, точность упала на **11,5–27%**. Это не баг — это конфликт целей. Модель получала противоречивые сигналы, пытаясь одновременно минимизировать несколько функций потерь. Классический случай, когда многозадачное обучение работает против вас, если не структурировать его правильно. Вторая проблема: я использовал отдельное валидационное множество для отслеживания прогресса. Знаете что? Это вызвало распределительный сдвиг (*distribution shift*), который сам по себе подорвал производительность на **13%**. Урок: не всегда валидационное множество — друг вашей модели. Третье открытие касалось архитектуры. Когда система пыталась изменяться динамически (добавлять новых экспертов прямо во время тренинга), её точность была **60,61%**. Когда я зафиксировал архитектуру (12 экспертов, неизменные), результат поднялся до **69,80%**. Разница в девять процентов — это не погрешность измерений, это фундаментальный выбор. ## Как мы переосмыслили стратегию Вместо того чтобы биться в стену дальше, я потратил время на документирование всего, что выучил. Создал 14 файлов документации, включая `PHASE_7B_FINAL_ANALYSIS.md` и детальные планы для каждого из трёх подходов. Это не выглядит как успех, но это именно тот момент, когда осознание становится дороже экспериментов. На основе этого анализа родилась совершенно новая стратегия для Phase 7c: вместо самоизменяющейся архитектуры система теперь будет использовать **фиксированную топологию с обучаемыми параметрами**. Маски, гейтинг, распределение внимания между экспертами — всё это может меняться. Но сама структура остаётся стабильной. Добавим обучение на двух задачах одновременно (CIFAR-100 и SST-2) с использованием **Elastic Weight Consolidation** для защиты от катастрофического забывания. ## Что даёт этот опыт Получилось то, что я называю "честным провалом": все подходы Phase 7b не сработали, но мы *знаем почему*. Это стоит больше, чем слепое везение. Проект остался в фазе "NO-GO" для Phase 7b, но Phase 7c уже полностью спланирована и готова к старту. Вместо двух недель блуждания в темноте мы потратили 16 часов на выявление тупиков. **Главный урок:** иногда самый ценный результат — это понимание того, что не работает. И документирование этого пути для будущих итераций. 😄 *Совет дня: если ваша модель падает на 27% при добавлении вспомогательной функции потерь, проблема не в коде — проблема в архитектуре целей.*

Разработка: LLM Analisis

Новая функцияtrend-analisis

8 источников данных вместо 5: архитектура без хаоса

# Когда 8 источников данных лучше, чем 5: история добавления адаптеров в trend-analisis Проект **trend-analisis** — это система для анализа трендов и выявления поднимающихся волн в интернете. Задача казалась простой: расширить количество источников данных с пяти на тринадцать. Но когда я начал работать над этим, выяснилось, что просто дописать парочку адаптеров — это полдела. Стояла вот такая задача: система работала с базовыми источниками, но нужно было подключить Reddit, NewsAPI, Stack Overflow, YouTube, Product Hunt, Google Trends, Dev.to и PubMed. Каждый из этих сервисов имеет свой API, свои ограничения и свою логику. И всё это нужно было интегрировать так, чтобы система оставалась гибкой и не развалилась под грузом новых зависимостей. Первым делом я распланировал архитектуру: создал три новых модуля — **social.py** (Reddit и YouTube), **news.py** (NewsAPI) и **community.py** (Stack Overflow, Dev.to, Product Hunt). Каждый адаптер наследует базовый класс и реализует единый интерфейс. Это позволило потом просто регистрировать их в единой системе через источник-реестр. Неожиданно выяснилось, что обновление конфигурации — это не просто добавление новых блоков в `.env`. Пришлось создавать `DataSourceConfig` модели для каждого источника, настраивать веса категорий так, чтобы они суммировались ровно в 1.0 (иначе система вычисляет рейтинги неправильно), и регистрировать каждый адаптер в `source_registry`. Плюс Google Trends потребовал отдельного адаптера в **search.py**, а PubMed — в **academic.py**. Интересный факт о том, почему асинхронный подход здесь критически важен: каждый запрос к внешнему API может занять 1–5 секунд. Если делать это синхронно, то 13 источников загружались бы последовательно — получилось бы минуту-другую ждать результаты. С **aiohttp** и асинхронной инициализацией адаптеры загружаются параллельно, и общее время сокращается в разы. После написания кода пришло время проверки. Запустил 50+ unit-тестов в `test_new_adapters.py` — все прошли. Потом E2E-тесты в `test_free_sources_e2e.py` — и здесь появилась проверка: действительно ли все 13 адаптеров зарегистрированы? Запустил скрипт: ``` Registered adapters: 13 ✓ Config loaded successfully ✓ Category weights: все суммируют к 1.0000 ``` Всё готово. Система теперь анализирует тренды с восьми новых источников: социальные дискуссии с Reddit, новости через NewsAPI, технические вопросы со Stack Overflow, видео-тренды с YouTube, запуски продуктов с Product Hunt, поисковый интерес через Google Trends, dev-сообщество с Dev.to и научные статьи с PubMed. Что дальше? Теперь нужно следить за качеством данных, оптимизировать частоту обновлений и убедиться, что система корректно взвешивает сигналы из разных источников. Но главное — это работает, и система готова к следующему расширению. Если честно, в процессе я понял простую вещь: архитектура на основе адаптеров — это не просто модный подход, а жизненная необходимость. Когда каждый источник имеет свой класс и свою логику, добавить девятый источник можно за час, не трогая остальную систему. 😄 Настоящая боль не в коде, а в том, чтобы найти, кому принадлежит API ключ, который лежит в `.env` файле без комментариев и истории.

#claude#ai#python#api

Разработка: Trend Analisis

Новая функцияborisovai-admin

DevOps за день: как мы выбрали стек через конкурентный анализ

# Как мы спроектировали DevOps-платформу за день: конкурентный анализ на стероидах Проект **borisovai-admin** требовал системного подхода к управлению инфраструктурой. Стояла непростая задача: нужно было разобраться, что вообще делают конкуренты в DevOps, и построить свою систему с трёхуровневой архитектурой. Главный вопрос: какой стек выбрать, чтобы не переплатить и не потерять гибкость? Первым делом я понимал, что нельзя прыгать в реализацию вслепую. Нужно провести честный конкурентный анализ — посмотреть, как это решают **HashiCorp** с их экосистемой (Terraform, Nomad, Vault), как это делается в **Kubernetes** с GitOps подходом, и что там у **Spotify** и **Netflix** в их Platform Engineering. Параллельно изучил облачные решения от AWS, GCP, Azure и даже AI-powered DevOps системы, которые только появляются на рынке. Результат был обширный: создал **три больших документа** объёмом в 8500 слов. **COMPETITIVE_ANALYSIS.md** — это развёрнутое исследование шести ключевых подходов с их архитектурными особенностями. **COMPARISON_MATRIX.md** — матрица сравнения по девяти параметрам (Time-to-Deploy, Cost, Learning Curve) с рекомендациями для каждого уровня системы. И финальный **BEST_PRACTICES.md** с практическими рекомендациями: Git как source of truth, state-driven архитектура, zero-downtime deployments. Неожиданно выяснилось, что для нас идеально подходит многоуровневый подход: **Tier 1** — простой вариант с Ansible и JSON конфигами в Git; **Tier 2** — уже Terraform с Vault для секретов и Prometheus+Grafana для мониторинга; **Tier 3** — полноценный Kubernetes со всеми OpenSource инструментами. Самое интересное: мы обнаружили, что production-ready AI для DevOps пока не существует — это огромная возможность для инноваций. Вот что важно знать про DevOps платформы: **state-driven архитектура** работает несравненно лучше, чем imperative approach. Почему? Потому что система всегда знает целевое состояние и может к нему стремиться. GitOps как source of truth — это не мода, а необходимость для аудитируемости и восстанавливаемости. И про многооблачность: vendor lock-in — это не просто дорого, это опасно. В результате я готов параллельно запустить остальные треки: Selection of Technologies (используя findings из анализа), Agent Architecture (на основе Nomad pattern) и Security (с best practices). К концу будет полная MASTER_ARCHITECTURE и IMPLEMENTATION_ROADMAP. Track 1 на **50% завершено** — основной анализ готов, осталась финализация. Главный вывод: правильная предварительная работа экономит месяцы разработки. Если в DevOps всё работает — переходи к следующему треку, если не работает — всё равно переходи, но с документацией в руках.

#claude#ai#javascript#git#security

#claude#ai#python#security

Обучениеllm-analisis

Когда самоадаптивная сеть начинает саботировать сама себя

# Когда всё падает: Как я 16 часов охотился на призрак в нейросети Проект **llm-analysis** вошёл в фазу 7b, и я был уверен — вот она, момент прорыва. Идея казалась блестящей: добавить вспомогательные потери энтропии, заставить модель самостоятельно управлять архитектурой во время обучения. Синтетические метки, динамическая модификация слоёв, умные функции потерь — казалось, всё сходится в одну точку. Но вместо взлёта получилась полоса падения. На фазе 7a я достиг 69.80% точности на фиксированной архитектуре. Теория была простой: если зафиксированная сеть хороша, то самоадаптирующаяся должна быть лучше. Опубликовано же, оптимизируют ведь. Запустил эксперименты. **Эксперимент 7b.1** с синтетическими метками упал до 58.30% — деградация на 11.5%. Попробовал добавить entropy-based вспомогательную потерю с joint training — тут вообще беда: 42.76% точности. Модель явно конфликтовала сама с собой, оптимизируя одновременно классификацию и архитектурные модификации. **Эксперимент 7b.3** с прямой энтропией показал 57.57% — чуть лучше, но всё равно худше исходной фазы 7a. Три недели назад я бы назвал это просто плохими гиперпараметрами. Но я писал логи детально, сравнивал шаг за шагом. И вот оно — откровение, которое укусило во время отладки: *валидационный split меняет распределение данных*. Только эта смена дала деградацию в 13% от исходного результата. Архитектура здесь была вторична. Ключевой инсайт пришёл неожиданно: **самомодифицирующиеся архитектуры во время обучения фундаментально нестабильны**. Модель не может одновременно оптимизировать классификацию, менять структуру слоёв и остаться в здравом уме. Это не issue в коде, это issue в физике обучения. Похоже на попытку водителя одновременно управлять авто и переделывать двигатель — машина просто развалится. Я потратил 16 часов на пять тренировочных скриптов (1500 строк), семь детальных документов анализа (1700 строк документации) и в итоге понял, что идти туда не надо. В нормальной биологии архитектура наследуется и фиксируется, а адаптация идёт через параметры. Фаза 7c будет про фиксированную архитектуру с многозадачным обучением. Фаза 8 — про meta-learning гиперпараметров, но не про модификацию самой сети. Неприятно? Да. Потрачено впустую? Нет — я выявил dead end до того, как зайти туда с полным размахом. Быстрое *отрицательное* открытие иногда дороже золота. Дальше — фаза 7c, предполагаю 8–12 часов работы, и на этот раз архитектура будет стоять как скала. 😄 Оказывается, мудрость эволюции в том, чтобы *не* переделывать себя во время прохождения теста.

Разработка: LLM Analisis

Новая функцияborisovai-site

Feedback система за выходные: спам-защита и React компоненты

# Feedback система за выходные: от API до React компонентов с защитой от спама Понедельник утром открываю Jira и вижу задачу: нужна система обратной связи для borisovai-site. Не просто кнопки "понравилось/не понравилось", а настоящая фишка с рейтингами, комментариями и защитой от ботов. Проект небольшой, но аудитория растёт — нужна смекалка при проектировании. Начал я с архитектуры. Очень важно было подумать про защиту: спам никто не любит, а репутация падает быстро. Решил использовать двухуровневую защиту. Во-первых, **браузерный fingerprint** — собираю User-Agent, разрешение экрана, временную зону, язык браузера, WebGL и Canvas hash. Получается SHA256-подобный хеш, который хранится в localStorage. Это не идеально, но для 80% случаев работает. Во-вторых, **IP rate limiting** — максимум 20 фидбеков в час с одного адреса. Комбо из браузера и IP даёт приличную защиту без излишней паранойи. На бэке создал стандартную CMS структуру: content-type `feedback` с полями для типа отзыва (helpful, unhelpful, rating, comment, bug_report, feature_request), самого комментария, email опционально. Приватные поля — browserFingerprint, ipAddress, userAgent — хранятся отдельно, видны только администратору. Логика валидации простая, но эффективная: пустые комментарии не принимаем, максимум 1000 символов, проверяем на дубликаты по паре fingerprint + targetSlug (то есть одна оценка на страницу от пользователя). Фронтенд часть оказалась интереснее. Написал утилиту `lib/fingerprint.ts`, которая собирает все данные браузера и генерирует стабильный хеш — если пользователь вернётся завтра с того же девайса, хеш совпадёт. React Hook `useFeedback.ts` инкапсулирует всю логику работы с API: `submitFeedback()` для отправки, `fetchStats()` для получения счётчиков просмотров (сколько человек оценило), `fetchComments()` для загрузки последних комментариев с простой пагинацией. Компоненты сделал модульными: `<HelpfulWidget />` — это просто две кнопки с лайком и дизлайком, `<RatingWidget />` — пять звёзд для оценки (стандартный UX паттерн), `<CommentForm />` — textarea с валидацией на фронте перед отправкой. Каждый работает независимо, можно микшировать на странице. **Интересный момент про fingerprinting.** Много разработчиков думают, что браузерный fingerprint — это какое-то магическое устройство, а на самом деле это просто комбинация публичных данных. Canvas fingerprinting, например, — это отрисовка градиента на невидимом canvas и сравнение пикселей. Неочевидно, что WebGL renderer и версия видеодрайвера сильно влияют на результат, и один и тот же браузер на разных машинах выдаст разные хеши. Поэтому я не полагаюсь на fingerprint как на абсолютный идентификатор — это просто дополнительный слой. Итогом стали **8 готовых компонентов, 3 документа** (полный гайд на 60+ строк, шпаргалка для быстрого старта, диаграммы архитектуры) и чеклист вопросов для дизайнера про стили и поведение. API готов, фронтенд готов, тесты написаны. Следующий спринт — интегрировать в шаблоны страниц и собрать статистику с первыми пользователями. Дальше можно добавить модерацию комментариев, интеграцию с email, A/B тестирование вариантов виджетов. Но сейчас — в production. *Почему GitHub Actions — лучший друг разработчика?* 😄 *Потому что без него ничего не работает. С ним тоже, но хотя бы есть кого винить.*

#claude#ai#javascript#api

Новая функцияborisovai-site

Многоуровневая защита: как я спасал блог от спама

# Защита от спама: как я строил систему обратной связи для блога Проект **borisovai-site** — это блог на React 19 с TypeScript и Tailwind v4. Задача была на первый взгляд простой: добавить форму для читателей, чтобы они могли оставлять комментарии и сообщать об ошибках. Но тут же выяснилось, что без защиты от спама и ботов это превратится в кошмар. Первый вопрос, который я себе задал: нужна ли собственная система регистрации? Ответ был быстрым — нет. Регистрация — это барьер, который отсеивает легальных пользователей. Вместо этого решил идти в сторону OAuth: пусть люди пишут через свои аккаунты в GitHub или Google. Просто, надёжно, без лишних паролей. Но OAuth — это только половина защиты. Дальше нужна была **многоуровневая система anti-spam**. Решил комбинировать несколько подходов: **Первый уровень** — детектирование спам-паттернов. Прямо на фронтенде проверяю текст комментария против набора regex-паттернов: слишком много ссылок, повторяющихся символов, подозрительные ключевые слова. Это отлавливает 80% очевидного мусора ещё до отправки на сервер. **Второй уровень** — rate limiting. Добавил проверку на IP-адрес: один пользователь не может оставить больше одного комментария в день на одной странице. Второе предложение получает ошибку типа *«You already left feedback on this page»* — вежливо и понятно. **Третий уровень** — CAPTCHA. Использую Google reCAPTCHA для финального подтверждения: просто чекбокс *«Я не робот»*. Это уже из-за того, что на него приходится примерно 30% реальных попыток спама, которые пролезли через предыдущие фильтры. Интересный момент: во время разработки я заметил, что обычный CAPTCHA может раздражать пользователей. Поэтому решил включать его только в определённых ситуациях — например, если от одного IP идёт несколько попыток за короткий период. В спокойный день, когда всё чистое, форма остаётся лёгкой и быстрой. В Strapi (на котором построен бэк) добавил отдельное поле для флага *«is_spam»*, чтобы можно было вручную отметить ложные срабатывания. Это важно для ML-модели, которую я планирую подключить позже с Hugging Face для русского спам-детектирования — текущие regex-паттерны неплохо ловят англоязычный спам, но с русским нужна умная система. **Любопытный факт:** Google получил patent на CAPTCHA ещё в 2003 году. Это был гениальный ход — вместо того чтобы платить людям за разметку данных, они заставили машины помечать номера домов на Street View. Контрольные вопросы приносили пользу компании. В итоге получилась система, которая работает в трёх режимах: мягком (для доверенных пользователей), среднем (обычная защита) и жёстком (когда начинается явный спам). Читатели могут спокойно писать, не сталкиваясь с паранойей безопасности, а я тем временем спокойно сплю, зная, что чат-боты и спамеры не затопят комментарии. Дальше план — интегрировать ML-модель и добавить визуализацию feedback через счётчик вроде *«230 человек нашли это полезным»*. Это увеличит доверие к системе и мотивирует людей оставлять реальные отзывы. Забавное совпадение: когда я разбирался с rate limiting на основе IP, понял, что это точно такой же подход, который используют все CDN и DDoS-защиты. Оказывается, простые вещи часто работают лучше всего.

#claude#ai#python#javascript#git#api#security

Новая функцияllm-analisis

[Request interrupted by user for tool use]

# Когда модель учится менять себя: как мы ловили ошибки в самоадаптирующейся архитектуре Проект **llm-analysis** — это попытка научить нейросеть не просто решать задачу классификации текста SST-2, но ещё и *самостоятельно управлять своей архитектурой*. Звучит как фантастика? На деле это долгая война с энтропией и случайными числами. ## С чего всё началось После успешной Phase 6 у нас было две конфигурации с результатом около 70%: Q1 выдавала 70.15%, Q2 с MoE-архитектурой добралась до 70.73%. Казалось бы, пик достигнут. Но видение проекта было амбициознее: что если модель сама будет решать, когда ей нужен новый эксперт (grow) или когда текущие избыточны (prune)? Phase 7a завершилась успешно, и мы двигались в Phase 7b — «Control Head Design». Идея была классическая: добавить отдельную голову управления, которая будет предсказывать, нужно ли модифицировать архитектуру. Но тут начались приключения. ## Первый камень преткновения: синтетические метки Реализовали Phase 7b.1 с энтропийным подходом. Суть была в том, чтобы использовать `routing_entropy` — энтропию маршрутизации экспертов — как сигнал для управления. Сказано — сделано. Запустили обучение... И получили **58.30% точность вместо 69.80% на базовой модели**. Полный NO-GO. Ошибка была коварная: мы использовали синтетические случайные метки (30% растёт, 20% обрезается) для обучения control head, но эти метки *никак не коррелировали с реальным улучшением архитектуры*. Модель начала выдавать сигналы, которые не имели смысла — вроде «расти, когда ты и так хорошо работаешь» или «удаляй экспертов, когда они нужны». ## Поворот: энтропия как источник истины Переделали подход в Phase 7b.2. Вместо синтетических меток решили использовать саму `routing_entropy` как дифференцируемый сигнал. Ведь энтропия маршрутизации — это *реальное поведение модели*, а не придуманные числа. Создали три новых файла: полный план стратегии, `expert_manager.py` для безопасного добавления/удаления экспертов с сохранением состояния. Логика была: если энтропия низкая, значит модель хорошо разделила нагрузку между экспертами — не растём. Если энтропия высокая, нужен новый голос в ансамбле. ## Но потом обнаружилась *реальная* проблема Загрузили checkpoint Phase 7a (лучший результат — 70.73%), запустили обучение с control head... и модель стартовала с точностью 8.95% вместо ожидаемых 70%. Это была красная лампочка. Начали копать. Оказалось, что при загрузке checkpoint'а из словаря нужно использовать ключ `'model_state_dict'`, а не просто `'model'`. Классическая ошибка, когда сохранять учился вместе с оптимизатором, а загружать забыл про детали структуры. Чинили. Потом ещё раз запустили. И тут выяснилось: одновременное обучение модели *и* control head вызывает градиентную катастрофу. Точность падает, entropy-сигналы становятся шумом. ## Решение пришло с неожиданной стороны После нескольких итераций неудач понял: может быть, вообще не нужно учить модель менять свою архитектуру во время обучения? Может быть, архитектура должна быть *заморожена*? Phase 7b.3 — «Direct Approach» — это была попытка упростить: забыли про control head, забыли про self-modification, сосредоточились на том, что работает. Оказалось, что 12 экспертов, найденные в Phase 7a, — это уже оптимум. Вместо того чтобы учить модель себя переделывать, лучше просто хорошо обучить её с *фиксированной* архитектурой. Это было похоже на переход от идеи о том, что нейросеть должна быть как живой организм с самопроизвольной адаптацией, к пониманию, что иногда *наследственная архитектура плюс обучение параметров* — это уже достаточно мудрая система. ## Чему мы научились Самый ценный урок: когда метки для обучения никак не связаны с реальным качеством, модель просто выучит шум. Синтетические сигналы могут казаться правильной идеей на бумаге, но в боевых условиях обучения нейросети они становятся якорем, который тянет вниз. Второй урок: не каждая красивая идея — это хорошая идея в ML. Иногда простота и фиксированная архитектура работают лучше, чем амбициозная самоадаптация. Третий урок: checkpoint'ы — это хитрые штуки. Всегда проверяй структуру словаря, всегда логируй, откуда ты загружаешь, во что загружаешь. Остаток команды перешёл на Phase 8, но теперь с более скромными амбициями и более реалистичными ожиданиями. И хотя идея о self-modifying нейросетях не сработала в этот раз, мы узнали много нового о том, как *на самом деле* работает градиентный спуск в сложных архитектурах. --- 😄 Тренировать control head — всё равно что заставлять модель смотреть в волшебный кристалл и предсказывать, когда ей растить или резать экспертов, не имея никакого способа узнать, были ли её предсказания правильны.

#claude#ai#python#git#api#security

Разработка: LLM Analisis