Блог

Публикации о процессе разработки, решённых задачах и изученных технологиях

Когда старый формат données ломает всю миграцию

Мы дошли до финальной фазы decoupling в **Trend Analysis** — нужно было избавиться от поля `object_id`, которое пронизывало базу данных в шести таблицах. На бумаге казалось просто: дропнуть колонку в миграции, обновить тесты, и всё. На практике это превратилось в охоту за тремя потерянными файлами. Проблема была в том, как я организовал работу. Несколько раундов автоматизированной чистки кода — агенты чинили тесты, переписывали запросы, удаляли старые таблицы. Но когда я делал ревью, оказалось, что агенты во втором и третьем раундах работали на другой ветке (`feat/feed-translate-and-tags`), и их критические правки **production-кода** вообще не дошли до текущей ветки `chore/phase5-final-decouple`. Три файла остались с прямыми ссылками на удаленное поле: **`src/db/queries/event_store.py`** — 12 JOINов по `events.c.object_id`, четыре функции. Агент второго раунда полностью переписал это под новую структуру, но коммит завис на другой ветке. **`src/db/repositories/trend_repo.py`** в методе `materialize()` всё ещё писал `object_id` в VALUES запроса. Агент третьего раунда удалил параметр, но изменение потеряось. **`src/db/queries/trend_linker.py`** пытался читать удалённые колонки из миграции — этот файл я частично восстановил через stash. Тесты кричали: **69 failed, 1020 passed**. Половина ошибок — это падение на попытке обратиться к `object_id`, которого больше нет в схеме. Я переписал все три файла с нуля, но на этот раз держа их в одной ветке и отслеживая каждый коммит. Удалил параметры, переделал JOINы на новые ключи, переписал select'ы. Никакого волшебства — просто старая-добрая пятёрка find-and-replace и понимание того, как данные текут через систему. Финальный прогон: **1169 тестов зелёные**. Версию забампил, коммит в main, и система снова дышит спокойно. Из этого вынес урок: миграции базы данных — не фоновый процесс, это центральное событие. Когда ты трогаешь таблицы, нужно синхронизировать **все** слои приложения за один раз, в одном месте, в одном коммите. Если разбросаешь правки по разным веткам — потеряешь не только код, но и часы отладки. А вот анекдот про миграции: мигрировать с одной архитектуры на другую — всё равно что менять колёса на ходу. На самолёте. 😄

#claude#ai#python#javascript#git#api#security

22 мая 2026 г.

Исправлениеspeech-to-text

Как README потерял справочник и вернул его обратно

Три месяца назад в проекте Speech to Text произошла история, которая напомнила мне, почему техническая документация — это не маркетинг. Всё началось просто: кто-то решил переписать README, сделав его более дружелюбным и компактным. На первый взгляд, идея имела смысл. Один-пейджер вместо стены текста — казалось, это сделает проект более привлекательным для новичков. Но забыли про опытных пользователей, которые полагаются на справочник. После публикации v2.0.9 в наш репозиторий начали поступать вопросы. Где конфиг? Как настроить модель вручную? Что делать, если Whisper начал галлюцинировать на русском тексте? Ответы были в коде, в issues, в старых документах — но не в README. Выяснилось, что при переписи выпало всё самое важное: раздел о конфигурации с примерами `config.json`, инструкции по сборке EXE и публикации релизов, таблицы зеркал для скачивания моделей из Hugging Face. Последнее особенно критично для тех, кто находится за корпоративными фильтрами или в странах с ограничениями: справочник содержал адреса альтернативных репозиториев, включая cascade's Whisper-AI и ONNX дарирующие файлы. Пришлось восстанавливать. Я прошёлся по старым версиям, собрал разделы про использование (пункты меню трея, вкладки Settings), про переопределение конфигурации через реестр моделей, про структуру проекта с новыми компонентами v2.0.9 — pyannote_onnx_lite, wespeaker_onnx, hallucination_filter, text_normalizer. Добавил troubleshooting с советом по Whisper hallucinations и tips по дарирации, упомянул debug_save_audio для отладки. Главное понимание, которое пришло в процессе: README — это не маркетинг. Это справочник, который пользователь открывает на шестой минуте ночи, когда в production что-то сломалось. Он не ищет вдохновляющего слогана, он ищет таблицу, точный пример конфига или команду для отладки. Вводная часть может быть красивой, но справочные разделы должны быть полными и точными. Итог: вернули всё, что было. Теперь README одновременно красивый и полезный — маркетинг в начале, справочник в конце, both на русском и английском. 😄 Совет дня: перед тем как обновить Rails, сделай бэкап. И резюме.

#git#commit#python#javascript#api#security

22 мая 2026 г.

Новая функцияspeech-to-text

Когда regex ломает сборку: охота на призрака в version.py

Работаю над **Speech to Text** — проект с поддержкой CUDA-сборок для GPU-ускорения. Наша система так устроена: CI собирает CPU-версию, а локально я публикую CUDA-релизы через `publish_cuda.sh`. Скрипт берёт версию из `src/version.py`, упаковывает всё, подписывает ed25519-ключом и отправляет на зеркало. Казалось бы, рутина. Но вот беда: при публикации версии 2.0.9 сборка начала брать неправильный номер версии. `build.py` читает версию через regex, и вместо `2.0.9` собралась какая-то `X.Y.Z`. Первый подозреваемый — `src/version.py`. Открываю файл... aha! В файле была строка-пример в docstring-е: `"X.Y.Z"`. И regex в `build.py` её нашла! Это была классическая проблема: regex ищет `__version__ = "..."`, но не якорится к началу строки, так что подхватывает даже примеры в комментариях. Первый фикс: **переместить настоящий `__version__ = "2.0.9"` в самое начало файла** как первое присваивание. Второй фикс: в самом `build.py` добавить якорь `^` с флагом `re.MULTILINE` в regex. Теперь он ищет присваивание только в начале строки — пример в docstring больше не сбивает с толку. Но ладно, сборка прошла. Дальше — запуск на Windows. И тут выясняется, что в `voice_app.spec` в какой-то print-строке была стрелка Unicode `→`, и консоль Windows в кодировке cp1251 не может её вывести. Падает. Заменяю на `->` — готово. Такие мелочи в публикации релизов выглядят наивными, пока не сломают процесс. Regex без якорей, примеры в docstring-ах, которые мешают парсингу, Unicode в местах, где ожидают ASCII — всё это живёт где-то на грани видимости. Поэтому когда что-то вдруг не работает при локальной сборке, стоит смотреть не на сложные части, а на простые: как именно код *читает* данные, что находится рядом с этими данными, и включает ли парсер якори для границ. Кстати, про yakori — напомнило мне шутку про Kubernetes 😄 Почему Kubernetes лучший друг разработчика? Потому что без него ничего не работает. С ним тоже, но хотя бы есть кого винить.

#git#commit#python#security

22 мая 2026 г.

Новая функцияtrend-analisis

Пять фильтров, которые спасают тренды от мусора

Работаю над системой анализа трендов, и вот столкнулся с классической проблемой: алгоритм извлекает тренды из событий, но половина из них — полная ерунда. Тренд про нефть, апельсины и страховку в одной кучке. Код всё правильно считал, данные прошли все проверки, а результат — помойка. Начал добавлять фильтры. Первый — **проверка когерентности эмбеддингов**. Идея простая: если события в тренде топически не связаны, их эмбеддинги будут далеко друг от друга. Задал порог 0,35 на косинусное сходство. Тестировал на 84 старых трендах — алгоритм корректно отклонил все 56 мусорных. Остальные 28 прошли, потому что там правда были связанные события. Второй шаг — добавил **relевance score прямо в события тренда**. Раньше я просто считал, что событие относится к тренду с уверенностью 1.0. Теперь считаю косинус до центроида кластера. Неожиданный эффект: стало видно, какие события в тренде настоящие якоря, а какие — на грани выпадения. Третий — **чёрный список сущностей**. Оказалось, что при связывании новых событий с существующими трендами система матчит их на "Россия", "Китай", "ИИ" — настолько общие сущности, что они ничего не говорят. Добавил фильтр: если матч только на blacklist-сущности, событие не цепляется к тренду. Шум упал заметно. Четвёртый — **порог уверенности LLM >= 0.5**. Когда модель извлекает тренд, она даёт скор. Если скор низкий, я просто отбрасываю кандидата до материализации. Фильтр дешёвый, срабатывает до дорогих операций. И наконец, пятый — **второй проход LLM**. Это был прорыв. На каждого кандидата тренда LLM отвечает на один вопрос: "Это действительно тренд или просто ситуация/процесс?" Дешево — всего 1-2 кандидата на кластер, но ловит ложные срабатывания, которые прошли все code-фильтры. Вместе эти пять ворот резко подняли качество. Не идеально, но уже можно работать. История же в том, что когда ты полагаешься только на код и статистику, спотыкаешься об edge-cases, которые люди видят с первого взгляда. 😄

#git#commit#security

20 апр. 2026 г.

Новая функцияtrend-analisis

Молчаливый краш каждые восемь минут: как мы искали баг в конвейере тренд-анализа

Работаю над **Trend Analysis** — системой, которая вытаскивает из кластеров событий настоящие тренды. Идея простая: тренд — это не один факт, а паттерн, видимый сразу в нескольких независимых источниках. Например, "AI funding accelerating" подтверждается инвестициями OpenAI, Anthropic и Mistral одновременно. Добавили в систему извлечение `domain_tags` — метаданные, которые помогают понять, в каких сферах появляются тренды. Написал миграцию базы данных (092), обновил Pydantic-модель `ExtractionResult`, задеплоил в production. Всё выглядело хорошо. Потом начался ад. Pipeline рестартовался сам по себе каждые 8–10 минут. Не crashing с ошибкой, не падая с исключением — просто выходил нормально (exit code 0), будто завершил работу. PM2 считал это штатным поведением, счётчик restarts поднялся до 450. Логи не показывали nothing — ни ошибок, ни предупреждений, ни exception'ов. Я начал добавлять debug-маркеры на критических этапах. "PHASE_DEBUG" перед главной стадией extraction. Ждал цикла за циклом. Маркер никогда не появлялся. Потом заметил: логи говорят "Fact extraction done", потом сразу — крах. Между фазой extraction и следующей стадией что-то умирало молча. Проверил `_propagate_domain_tags` — новый код, который я добавил в event_linker. Он вызывается после commit. Обёрнут в try/except. Не должно быть проблем. Но потом я посмотрел на главный `asyncio.gather()` в функции `main()`. Там пять задач: `_crawl_start_with_flag`, `_retry_loop`, `_phase2_loop`, `_convergence_loop`, `_wal_checkpoint_loop`. И `gather()` **без флага `return_exceptions=True`**. Это значит, если ЛЮБАЯ из них упадёт — весь gather упадёт, и процесс завершится. Но логов нет... А потом вспомнил: я использую `asyncio.create_task()` для запуска `_extract_facts_pipeline` ВНУТРИ `crawl_once()`. Это отдельная задача, не добавленная в основной gather. Если она поднимает exception — в Python 3.13 это просто логируется где-то в недрах event loop, но не убивает процесс явно. Процесс выходит чисто, потому что задача закончилась (с ошибкой). Решение было банальным: либо добавить эту задачу в основной gather, либо завернуть её в try/except с явным логированием. Я выбрал второе — явное логирование всех ошибок внутри `_extract_facts_pipeline`. После fix pipeline работал стабильно. Uptime перевалил за 30 минут. Никаких рестартов. **Урок:** когда Python молчит, ищи asyncio. Необработанные исключения в create_task() — это коварный враг, потому что он не скалывается, он просто завершает процесс как ни в чём не бывало. 😄

#claude#ai#python#javascript#git#api#security

18 апр. 2026 г.

Новая функцияtrend-analisis

Как HDBSCAN раскрыл истинное лицо трендов

Три месяца назад в проекте Trend Analisis возникла беда: система обозвала *трендом* любое, даже совершенно рандомное событие. Мы парили события в эмбеддингах, выуживали несколько похожих друг на друга и думали, что открыли закономерность. На самом деле собирали мусор. Первое время казалось, что проблема в нейросетях или в пороговых значениях для фильтрации. Раскидывали параметры кластеризации, ловили иголку в стоге сена. Потом дошло: проблема не в инструментах, а в самой логике. Мы искали тренд в одном событии вместо того, чтобы смотреть на *паттерны внутри кластера*. Развернули HDBSCAN и переписали всю pipeline с нуля. Теперь тренд — это не одно событие, а структурированный паттерн, извлечённый из группы связанных событий. В каждый кластер добавили шаг `_extract_trends_from_cluster()`, который просит LLM найти 0–3 реальных структурных закономерности с доказательствами: какие события их подтверждают, в какую сторону идёт изменение, кто задействован, какие метрики вообще говорят. Потом добавили **domain_tags** — 3–5 широких категорий для каждого события. Звучит небольшой деталью, но эта штука стала мостом между источниками данных. Теперь события из гита, Слака и журналов понимают друг друга через общие темы. И главное — это не требует дополнительных вызовов LLM: теги шли вместе с экстракцией паттернов. Пришлось перестраивать матчинг. Раньше пробовали простое совпадение по сущностям — полный провал. Теперь используем гибридный подход: 55% веса на эмбеддинг-похожесть, остальное на пересечение тегов и сущностей. Миграция базы добавила три новых таблицы для хранения связей события-тренд, и дедупликация трендов с порогом перекрытия 0.40. На 12GB сервере обработали 5 кластеров, вытащили 14 валидных трендов и повязали к ним 56 событий. Это не мировая цифра, но тренды стали реальными паттернами, а не сборищем разнополюсных событий. Одна смешная деталь — в пики нагрузки Ollama работает на два порта одновременно, всё синхронизируется мьютексом и гробит RAM нещадно. Поэтому пришлось временно отключить переклассификацию событий после дедупликации, иначе сервер шёл в отказ. TensorFlow, кстати, здесь не причём — но принцип тот же: решение проблемы, о которой ты не знал, способом, который никто до конца не понимает 😄

#git#commit#python#security

18 апр. 2026 г.

Исправлениеtrend-analisis

Как два портала Ollama спасли трендовый анализ от краша

Работаю над Trend Analysis — сервис, который ловит тренды из разных источников и анализирует их на лету. Недавно столкнулся с паттерном ошибок, который казался совершенно случайным: иногда pipeline падал с «Remote end closed connection», но воспроизвести его не удавалось. Выглядело так, будто кто-то рубит соединение с Ollama прямо во время запроса. Начал копать логи. Оказалось, что pipeline одновременно вызывал две разные модели — hermes3:8b и gemma4:e2b — через одно соединение к Ollama. Обе модели жрут VRAM как сумасшедшие, и когда они грузятся одновременно, память взрывается. Ollama просто закрывал соединение, и всё рушилось. Решение было дерзким и простым: развести модели на разные порты. Олдам запустил я на 11435 (для gemma4) и 11436 (для hermes3). Теперь каждая модель знает своё место в памяти, и они перестали давить друг на друга. Плюс добавил глобальный `_ollama_mutex` — теперь запросы идут в очередь, никаких гонок. Но это было только начало. Копался в конфигах и наткнулся на `keep_alive="-1"`. Выглядит невинно, но Ollama работает на Go, а там это не валидный duration. Сервер просто отклонял все запросы с такой настройкой. Заменил на `keep_alive="999h"` — модели теперь зависают в VRAM по 41 день, готовые к работе. Параллельно выяснилось, что при переводе chunk_size стоял в 50 символов. Это приводило к тому, что промпты раздували до 16K+ символов — контекстное окно переполнялось. Снизил до 5 — проблема решена. Ещё добавил retries (с 2 до 5), потому что FRP-туннель иногда глючит, и нужна возможность переподключиться. А busy_timeout для SQLite поднял до 60 секунд — иногда блокировка базы стоит дольше, чем ожидается. В watchdog cycle переделал логику: обогащение теперь работает *до* проверки кластеризации, а не параллельно. И если extraction активна, обогащение просто пропускает цикл, не ждёт. После фиксов pipeline стал стабильнее. Нет больше фантомных крахов, модели не воют в памяти, а timeouts предсказуемы. *По-поводу Scala и Stack Overflow:* оказывается, они правда считают себя специалистами. 😄

#git#commit#python#api#security

17 апр. 2026 г.

Исправлениеborisovai-site

PM2 под root сломал деплой на 502

Проект **Borisov AI** — это сайт с фронтенд-приложением и Strapi API. Всё работало, пока я не начал менять логику запуска процессов в CI/CD. Ветка `fix/ci-pm2-selective-delete` должна была переместить управление PM2 с root-овского сервера на `gitlab-runner`, но получилось нечто неожиданное. Утром проверяю **https://borisovai.tech** — оба сервиса отдают **502 Bad Gateway**. Reverse proxy (Traefik) жив и здоров, но PM2-процессы на портах 4001 и 4002 не отвечают. Заглядываю в PM2 Web UI на сервере — видно, что запущен только `scadacoating`, а `frontend` и `strapi` вообще отсутствуют в списке. Команда `pm2 list` под gitlab-runner показывает, что процессы были попытаны запустить, но упали с ошибками. Frontend кричит "Failed to start server", Strapi жалуется, что порт 4002 уже занят. Вот оно что. Углубляюсь дальше. Проверяю, что слушает порты 4001 и 4002 — и нахожу **два PM2 daemon'а**: один под root (запущен давно), второй под gitlab-runner. Root-овый PM2 ещё держит старые процессы frontend и strapi. Когда CI деплоит под `gitlab-runner`, новые процессы не могут захватить порты — они заняты. Оказывается, раньше всё запускалось под root, и никто это не трогал. Когда я добавил задачу в CI переместить на gitlab-runner, произошла коллизия: старые процессы продолжали висеть, новые не могли стартовать, и сайт упал. Решение простое, но требует аккуратности. Останавливаю frontend и strapi в root PM2, меняю права на директорию `/var/www/borisovai-site` на `gitlab-runner`, перезапускаю процессы. На этот раз они поднялись чистенько — 0 рестартов, порты свободны, сайт дышит. **Главный вывод:** когда меняешь пользователя, под которым запускается сервис, нужно убедиться, что старый процесс полностью мёртв. Иначе порты останутся заняты и новый деплой будет биться в стену. PM2 отлично работает, пока не сталкиваются два инстанса daemon'а с одинаковыми приложениями. Насчёт Docker — как первая любовь: никогда не забудешь, но возвращаться не стоит 😄

#claude#ai#javascript#git#api

6 апр. 2026 г.

Исправлениеtrend-analisis

Как мы спасали аналитику трендов от невидимых багов

Работаю над **Trend Analysis** уже несколько спринтов, и вот снова: всё выглядит правильно, данные есть, но аналитика молчит. История обновлений с версии 0.12.0 — это история, как мы учились видеть то, что скрывается за очевидным. Началось просто. В версии 0.13.0 я заметил странное: сигналы из анализов теряются где-то в недрах базы данных. Проверил логи, проверил запросы — всё на месте. Потом понял: в коде стояло `phase='new'`, а должно было быть `'emerging'`. Казалось бы, мелочь, но на ней теряется 18 из 19 сигналов. Одна буква — и половина функциональности не работает. Параллельно с этим наткнулся на ещё один подводный камень: джойн в таблице recommendations был написан с опечаткой — `tr.id = t.id` вместо `tr.object_id = t.id`. Результат: momentum вообще не считался после миграции. Казалось бы, технический баг, но для юзера это означал, что рекомендации просто не появлялись. Чтобы ускорить работу с растущим объёмом данных, добавили 15 новых индексов БД в миграции 020. Это был момент боли — понял, что без правильной оптимизации запросы будут тормозить экспоненциально. К счастью, индексы сработали идеально, и теперь аналитика летает. А потом пришла версия 0.14.0, и мы переросли в новое качество. Добавили серверную пагинацию, поиск, сортировку анализов — теперь юзер может не просто смотреть данные, но реально с ними работать. Заодно реализовали **Saved Products** в Lab — локальное хранилище закладок через Zustand. Мелочь, но очень удобная. Всю работу приправили переводом trend_name и динамическими ролями в кеш переводов. Казалось бы, локализация — не главное, но когда твой интерфейс говорит с юзером на его языке, он чувствует себя дома. **Claude** помогал на каждом этапе: от анализа проблем до рефакторинга TypeScript типов, пока мы выравнивали SourceItem с бэкенд-моделью. Инструмент, который может одновременно понимать архитектуру, замечать баги и предлагать решения — на вес золота. Главный урок: **невидимые баги опаснее очевидных**. Код работает, тесты проходят, но где-то глубоко логика разъезжается с реальностью. Миграции, джойны, фазы сигналов — это всё сложные системы, где одна ошибка каскадирует через весь пайплайн. Кстати, вся эта история напомнила мне старую шутку: что общего у Jenkins и подростка? Оба непредсказуемы и требуют постоянного внимания 😄

#claude#ai#javascript#git

4 мар. 2026 г.

Новая функцияtrend-analisis

Пять проектов, которые окупают себя за месяц

Я сидел над **Trend Analysis** и вдруг понял: вокруг слишком много side-проектов, которые генерируют доход, но требуют минимума времени. Вчера разбирал ошибку в crawler — `sqlite3.IntegrityError: FOREIGN KEY constraint failed` — и прозвучало: а что, если вместо фиксинга давай соберём топ проектов на cash-flow? Вот мой список из боевого опыта. **Первый** — аналитический краулер для нишевых рынков. В **Trend Analysis** мы парсим источники через **Python**, используя **AsyncIO** для параллельной обработки. Такой краулер можно обучить отслеживать конкретные категории товаров, движения цен или тренды в нишах. B2B-клиенты платят от 500 до 2000 долларов в месяц за свежие данные. Главное — настроить **API** и забыть. Даже когда ломаются связи в базе (как в моём случае с foreign key), проект продолжает работать. **Второй** — автоматизация контента через **Claude AI**. Мы это делаем в боте-издателе: берём сырые логи разработки, обогащаем через **AI**, генерируем посты на двух языках. Клиент платит за объём — сотня статей в месяц стоит как годовой **GitHub Pro**. Zero-touch после настройки. **Третий** — аудит и рефакторинг React-компонентов. Помнишь ошибку про "Error: Rendered more hooks than during the previous render"? Кучу проектов на **JavaScript** ломают именно такие баги. Консультация, правка — 300–500 в день. Один фиксинг за вечер — это деньги на ужин. **Четвёртый** — интеграции между системами через **REST API**. Каждый стартап нуждается в том, чтобы данные текли из Stripe в CRM, из CRM в аналитику. Я пишу такую логику, выкладываю на GitHub как open-source с платной поддержкой. Два-три клиента в месяц — и окупает время разработки в 10 раз. **Пятый** — security-аудит. В материале всплыли проблемы с кодировкой на Windows (curl ломает UTF-8 с кириллицей), неправильное управление API-ключами в `.env`. Фрилансеры платят 200–400 долларов за быстрый аудит кодовой базы. У меня есть чеклист на 20 пунктов, проверю за два часа. Что объединяет все пять? **API**, **AI** и **Python**. Везде нужен либо парсинг данных, либо обработка текста через Claude, либо интеграция систем. И везде — благодаря автоматизации — можно параллелить: работаешь над Trend Analysis, а фоном крутятся три клиентских краулера и публикуется контент. Главное — не начинать с идеального кода. Помнишь, как Spring Boot непредсказуем? Наши проекты тоже. Но они работают. 😄

#claude#ai#python#javascript#git#api#security

4 мар. 2026 г.

Новая функцияtrend-analisis

Когда разрозненные фильтры становятся одной красивой системой

Вчера закончил работу над **Trend Analysis v0.12.0**, и это было именно то, о чём говорят: когда архитектура начинает складываться как паззл, видишь, что месяцы рефакторинга стоили того. Началось с обычной проблемы. В Cascade frontend было четыре отдельных страницы — explore, radar, objects, recommendations. На каждой свои фильтры, свой способ отображения, свои попапы. Пользователи путались, интерфейс выглядел как лоскутное одеяло. Я смотрел на эту красоту и понимал: нужно унифицировать, но **как** сделать это без полного переписывания? Решение пришло не с первого дня. Сначала запустил сервер-сайд пагинацию в `recommendation_store` — это дало нам контроль над данными на бэке, убрало загрузку всего сразу. Потом добавил динамические роли, которые теперь вытягиваются прямо из P4-отчёта. Не захардкодили — система сама адаптируется к изменениям. На фронте заменил горизонтальные табы на role chips — компактнее, быстрее переключаться. Зона фильтра теперь работает с **topN + поиск**, а не слепо показывает всё подряд. И главное — все четыре страницы получили **единый макет попапера**: одинаковые разделители, одна логика поведения, один стиль. Заняло больше времени, чем казалось, но оно того стоило. Backend часть тоже потребовала внимания. Изначально routes в `api/main.py` ещё включали префикс `/api`, но я переписал это — Vite proxy теперь перенаправляет `/api/*` в `/*` перед отправкой на бэк. Чище, проще масштабировать. Добавил `html.unescape` для StackOverflow заголовков — казалось бы мелочь, а на самом деле это спасает от каши из HTML-энтитиз в интерфейсе. В Lab тоже не сидели сложа руки. Оптимизировал промпты для работы с LLM — теперь структурированная экстракция вместо размытых инструкций. Добавил новый `llm_helpers` модуль, улучшил layout страниц Need detail и Product detail. Таблицы в Lab получили новые колонки — данные стали полнее. Самое приятное? Теперь, когда добавляю новую фичу на одной странице, другие три не ломаются. Система дышит. Вот такой факт о жизни разработчика: перед обновлением NumPy **обязательно** сделай бэкап. И резюме. 😄

#git#commit#python#api#security

2 мар. 2026 г.

Новая функцияC--projects-bot-social-publisher

Монорепо, который заставил пересмотреть структуру проекта

Когда решил мигрировать **Bot Social Publisher** с одномонолитного хранилища на многопакетную архитектуру, предполагал, что главная сложность будет в коде. Глупо. На самом деле всё сломалось на границах между пакетами. Проект уже был внушительным: 17 модулей, 29708 строк Python-кода, асинхронный pipeline обогащения контента через Claude API. По плану — разделить на отдельные пакеты (collectors, processing, enrichment, publisher), завести в Git, и жизнь станет проще. Реальность была иной. Первый вечер потратил на структуру папок. Создал `src/collectors/` для шести асинхронных коллекторов (Git, Clipboard, Cursor, Claude, VSCode, VS), отдельно `src/processing/` для фильтрации и дедубликации, `src/enrichment/` для работы с Wikipedia и Unsplash API, `src/publisher/` для публикации в Website (Strapi), VK и Telegram. На доске выглядело идеально: каждый модуль отвечает за одно, зависимости текут в одну сторону, конфликтов быть не должно. Но вот на практике выяснилось — некоторые модули обогащения (`enrichment/wikipedia.py`, `enrichment/images.py`, `enrichment/jokes.py`) были переплетены с основной логикой фильтрации. Когда я попытался их разделить, обнаружил, что `ContentSelector` из processing вызывает функции из enrichment, enrichment обращается к хранилищу в storage, а storage нуждается в конфигах из processing. Цикл. Переписал на pydantic-модели. Ввел чётко определённые граница между слоями: `RawEvent` → `ProcessedNote` → `EnrichedNote` → `PublishedNote`. Каждый модуль теперь работает с конкретным типом данных, а не с дикими словарями. Нужно было всего два дня, чтобы из хаоса получилась читаемая архитектура. Дальше пришла беда с Claude CLI. Максимум 100 запросов в день, 3 одновременных вызова, таймаут 60 секунд. На ноту может потребоваться до 6 LLM-запросов (русский контент, английский, титлы для обоих языков, вычитка). Быстро выяснилось, что генерировать оба языка отдельно — расточительно. Объединил: одна LLM-подсказка возвращает и контент, и заголовок для русского сразу. Количество обращений упало с 6 на 2-3 в день для одной ноты. Структура улучшилась, экономия вышла на порядок. В конце дня 94 файла упали в Git-репозиторий. Лицензия AGPL-3.0, `.gitignore` отфильтровывает все кэши, `.env.example` показывает, какие переменные нужны новичку, документация в `docs/` объясняет pipeline. Попытался push на `gitlab.dev.borisovai.ru` — DNS не разрешается, сервер недоступен. Коммит создал (хеш `4ef013c`), когда-нибудь синхронизирую. **Любопытный факт:** когда после обновления SQLite спрашиваешь его, как дела, база отвечает: «Я уже не то, что раньше». 😄

#claude#ai#python#javascript#git#api#security

25 февр. 2026 г.

Новая функцияtrend-analisis

Как AI стал соавтором в разработке — история Trend Analysis

Когда мы начали проект **Trend Analysis**, задача казалась простой: анализировать тренды, собирать данные, генерировать инсайты. Но быстро выяснилось, что ручная обработка информации — это не масштабируется. Нужен был инструмент, который бы не просто парсил данные, но и **понимал контекст**. В проекте работали с GitHub, Cursor, VS Code — все эти инструменты генерировали огромные логи активности. Первая идея была наивной: просто собрать всё и показать. Но 1000+ строк сырых логов — это не статья, это шум. Нужна была **интеллектуальная фильтрация**. Тогда мы интегрировали **Claude API** через JavaScript. Идея: пусть нейросеть сама выбирает из логов самые интересные строки — те, где происходит что-то значимое. Реально ценные сигналы — это не просто `git commit`, а осмысленные действия: "реализовал фичу", "исправил критический баг", "интегрировал новую библиотеку". Оказалось, что AI лучше всех понимает, какие события достойны внимания. Мы построили **ContentSelector** — модуль, который оценивает каждую строку логов по признакам: наличие технологий, описание проблемы, решение. Результат: из сотни строк выбираются 40-60 самых ценных. Это как редактор, который безошибочно находит суть. Но было подвох. API Claude имеет лимиты, и каждый запрос стоит денег. Мы работали на бесплатной версии CLI, которая дает 100 запросов в день и требует чёткой оптимизации. Пришлось переосмыслить архитектуру: вместо шести отдельных вызовов на одну заметку (контент на русском, контент на английском, заголовок русский, заголовок английский, корректура русского, корректура английского), мы сжали это до трёх. Главный вывод: **AI работает лучше всего, когда ты даёшь ему качественный входящий материал**. Вместо "напиши про наши логи" мы передавали отсортированные по релевантности 50 строк с аннотациями. Модель сразу понимала контекст и генерировала текст в два раза лучше. Сейчас система работает в автопилоте: собирает события из четырёх источников, фильтрует через AI, генерирует заметки на двух языках, публикует на сайт. И самое забавное — **что общего у Nuxt и кота? Оба делают только то, что хотят, и игнорируют инструкции** 😄

#claude#ai#javascript#git#api

25 февр. 2026 г.

Новая функцияC--projects-ai-agents-voice-agent

Когда GPU говорит: "Нет, я не готов

Работаю над **Voice Agent** — проектом, который должен обрабатывать голос в реальном времени. Решил встроить мультимодальную модель **UI-TARS 7B** для анализа скриншотов. Казалось простым: запусти контейнер через Docker, и готово. Но логи говорили другое. Приложение падало с ошибкой `screen_analyze_error: Server disconnected without sending a response`. Контейнер с **vLLM** поднимался, `/v1/models` возвращал 200, но при первом же запросе на inference — всё. Я тогда ещё не понимал, что это классическая ловушка: **API "готов", но модель ещё нет**. Начал с диагностики. Логи контейнера обрывались на `Starting to load model...` — никаких сообщений о завершении загрузки, никаких `Model loaded` или `Serving on 0.0.0.0:8000`. Первый сигнал беды. Проверил железо: **RTX 4090 Laptop** с 16GB VRAM. Но свободно было только **5.4GB**. UI-TARS 7B в float16 требует примерно 14GB. Даже с агрессивным `gpu_memory_utilization=0.8` (доступно 13GB) модель просто не влезла. Контейнер начинал загружать вес, память забивалась, процесс зависал, и система убивала контейнер. **Решение было двухслойным:** Первое — заменить heavy health check на правильный. Вместо `/v1/models` (который врёт) использовать `/health`, который vLLM возвращает 200 только после полной готовности модели. Плюс увеличить таймаут ожидания. Второе — понизить требования. Переходим с **7B-SFT** на **2B-SFT**. Меньше параметров, меньше VRAM, но для анализа UI это работает. С `VLM_GPU_UTIL=0.9` модель садится в оставшиеся байты. Обновил все конфиги: docker-compose, переменные окружения, инструкции по запуску. Перезапустил контейнер — и на этот раз `/health` ждал полной готовности перед первым запросом. Ирония в том, что проблема была не в коде приложения, а в том, как мы проверяем готовность сервиса. **API жив — это не означает, что он готов к работе.** Это урок, который хорошо запоминается после часа отладки логов 😄

#claude#ai#python#javascript#git#api#security

25 февр. 2026 г.

Новая функцияC--projects-bot-social-publisher

Чистый репозиторий — первое доверие к проекту

Когда до первого пуша в GitLab осталось три дня, я понял одно: 94 файла — это не готовность, это только показатель объёма. Проект **Bot Social Publisher** рос месяцами спринтов, и каждый оставлял осадок. Локальные базы данных в папке `data/`, внутренние заметки о фиксах в `docs/archive/`, Vosk-модели распознавания речи по несколько мегабайт каждая. А где-то там скрывался `.env` с реальными ключами вместо `.env.example` для новичков. Локально всё работало. На продакшене тоже будет работать. Знаю точно. Тогда почему я чувствовал, что с репозиторием что-то не так? **Первое решение было философским.** MIT-лицензия казалась недостаточной для кода с API и логикой безопасности. Переключился на **GPL-3.0** — копилефт даёт зубы. Кто строит на нашем коде, обязан открывать улучшения. Два клика в файл `LICENSE`, обновил README с авторством. Это не просто строчка текста — это сообщение о том, кому принадлежит код и что с ним можно делать. Дальше началась честная работа. Я прошелся по тому, что реально попадёт в репозиторий: - **`docs/archive/`** — внутренние заметки, которые имели смысл только в контексте разработки - **`data/`** — логи локального окружения, тестовые БД - **Vosk-модели** — по несколько мегабайт каждая, необходимые только для разработки - **`.env` с реальными учётными данными** Расширил `.gitignore`, вычистил всё это. Структура выстроилась сама собой: `src/` для Python-модулей, `tests/` для pytest, `scripts/` для утилит. Скучно? Да. Но скучно — это правильно. При инициализации репозитория явно указал: ``` git init --initial-branch=main --object-format=sha1 ``` Совместимость с GitLab имеет значение. Первый коммит вышел идеально чистым: 94 файла от `bot.py` через все 17 модулей до финального скрипта. Хеш `4ef013c` теперь в истории как фундамент, а не как свалка. Интересный момент случился, когда я попытался обновить файлы через Claude API — система заблокировала запрос (ошибка 400). Оказалось, что API имеет свои правила контроля контента, которые не совпадают с тем, что нужно боту. Пришлось работать напрямую через Python и Git, без посредников. Когда подготовка закончилась, я понял суть. Чистая история в репозитории — это не педантизм, это **уважение к тому, кто клонирует проект**. Он получит ровно то, что нужно. Без лишних мегабайт моделей, без логов разработки, без переживаний о том, что-то ли закоммитилось. Вот в чём секрет открытого исходного кода — не в звёздочках на GitHub, а в доверии. Чистая история, ясная цель, защита интеллектуальной собственности. **P.S.** Совет дня: перед тем как обновить Caddy, сделай бэкап. И резюме. 😄

#claude#ai#python#javascript#git#api#security

25 февр. 2026 г.

Новая функцияC--projects-bot-social-publisher

Когда чистота репозитория важнее завершённого функционала

Мы были в трёх днях от первого пуша в GitLab, когда понял: **94 файла** — это не показатель готовности. Проект **Bot Social Publisher** рос месяцами, и каждая спринт оставляла следы. Локальные базы данных в `data/`, архив заметок в `docs/archive/`, Vosk-модели распознавания речи по несколько мегабайт каждая. `.gitignore` был скорее пожеланием, чем правилом. Когда разработка идёт в спринтах, ты не думаешь о том, что случайно закоммитишь. До пуша. **Первое решение было философским.** MIT-лицензия казалась недостаточной для кода, работающего с API и логикой безопасности. Переключились на **GPL-3.0** — копилефт даёт зубы: кто строит на нашем коде, обязан открывать улучшения. Два клика в `LICENSE` файл, обновили README с авторством — и интеллектуальная собственность защищена. Дальше началась реальная работа. Проверили, что на самом деле попадёт в репозиторий: - **`docs/archive/`** — внутренние заметки о фиксах, которые никому не нужны - **`data/`** — логи локального окружения и тестовые БД - **Vosk-модели** — каждая по несколько мегабайт - **`.env` с реальными ключами** — вместо `.env.example` для новичков Расширили `.gitignore`, исключили весь этот шум. Структура выстроилась сама собой: `src/` для модулей, `tests/` для pytest, `scripts/` для утилит. Стандарт, но им нужно следовать **с самого начала**, а не в конце. Инициализировали свежий репозиторий с явной установкой SHA-1: ``` git init --initial-branch=main --object-format=sha1 ``` Это совместимость с GitLab. Первый коммит вышел чистым: 94 файла от `bot.py` через все модули до финального скрипта. Хеш `4ef013c` теперь в истории как фундамент, а не как свалка. **Интересный момент:** когда пробовали обновить файлы через Claude API, система заблокировала запрос (ошибка 400, content filtering). Пришлось работать напрямую через Python и Git. Оказывается, API имеет свои правила, которые не совпадают с тем, что нужно боту. Настроили remote на GitLab, DNS несколько раз срезало сигнал, но локальный репозиторий был уже безупречен. Когда коллега клонирует проект, получит именно то, что нужно: чистый исходный код, без лишних мегабайт моделей, без логов разработки. Вот в чём секрет открытого исходного кода — не в количестве звёздочек на GitHub, а в том, что кто-то может доверять тому, что закоммитили. Чистая история, ясная цель, защита интеллектуальной собственности. **P.S.** Почему WebAssembly считает себя лучше всех? Потому что Stack Overflow так сказал. 😄

#claude#ai#python#git#api#security

25 февр. 2026 г.

Новая функцияC--projects-bot-social-publisher

Почистили репозиторий перед запуском — вот что мы не заметили

Проект **AI Agents Salebot** дошёл до финиша: 94 файла, 30 000 строк кода, 17 модулей на Python, работающие тесты. Казалось, осталось только запушить в репозиторий. Но когда начали готовить первую публикацию на GitLab, обнаружили проблему, которую все это время пропускали — `.gitignore` был составлен вслепую. Первый вопрос был про защиту. MIT-лицензия казалась слишком мягкой для проекта, работающего с API и логикой безопасности. Переходим на **GPL-3.0** — копилефт защита, которая гарантирует: если кто-то будет строить на нашем коде, обязан открывать свои улучшения. Два клика в файл LICENSE, обновили README с авторством Pink Elephant — и интеллектуальная собственность защищена. Дальше пошла реальная работа. Проверили, что на самом деле отслеживается в Git: - **`docs/archive/`** — внутренние записи о фиксах, которые никому не нужны кроме нас - **`data/`** — базы данных и логи из локального окружения - **Vosk-модели** — распознавание речи, каждая по несколько мегабайт - **`.env` с реальными секретами** — вместо `.env.example` для новичков Расширили `.gitignore`, исключили весь этот мусор. Структура выстроилась сама собой: `src/` для модулей, `tests/` для проверок, `scripts/` для утилит. Это стандарт, но стандартом нужно следовать от начала. Инициализировали свежий репозиторий с явной установкой SHA-1 — это совместимость с GitLab: ``` git init --initial-branch=main --object-format=sha1 ``` Первый коммит вышел чистым: 94 файла от `bot.py` через все модули до завершающего скрипта. Хеш `4ef013c` теперь в истории как фундамент, а не как свалка. Настроили remote на корпоративный GitLab, был готов команда `git push --set-upstream origin main`. Правда, тогда сервер недолго не резолвился по DNS, но это мелочь — локальный репозиторий был уже идеален. **Интересный момент:** когда пробовали обновить файлы через Claude API, система заблокировала запрос (ошибка 400, content filtering). Пришлось работать напрямую через Python и Git. Оказывается, API имеет свои правила, которые не всегда совпадают с тем, что нужно боту. Проект вышел чистым. Все файлы отслеживаются правильно, лицензия защищает, мусор исключён. Когда коллега клонирует репозиторий, получит именно то, что нужно — без лишних мегабайт моделей, без логов разработки, только код, который работает. **Почему Git не пришёл на вечеринку? Его заблокировал firewall.** 😄

#claude#ai#python#javascript#git#api

25 февр. 2026 г.

Новая функцияtrend-analisis

Асинхронность в реальном времени: когда gather() становится врагом

Разрабатывая **Trend Analysis** на Python, мы столкнулись с классической проблемой: система обрабатывала данные с датчиков IoT, и нам казалось, что всё работает. Но потом мы запустили её под реальной нагрузкой и поняли — код ломается на самом медленном датчике. Это был `asyncio.gather()`. ## Что произошло Представьте: у вас есть десять источников данных. Девять отвечают за 50 миллисекунд, а один — за две секунды. Если вы используете `gather()`, приложение будет ждать самого медленного. Для IoT-систем это критично: показания могут устаревать, очереди растут, память течёт. Мы начали терять события. Решение было просто, но не очевидно — перейти на **asyncio.wait()**. Вместо того чтобы дожидаться всех, мы теперь обрабатываем события в порядке их поступления. Первый сработавший датчик? Отлично, берём его данные и продолжаем. Второй? Сразу же. Медленный? Приходит когда приходит, но система не встаёт. ## Практика в деле Рефакторинг был не просто перестановкой функций. Мы добавили **ограниченные очереди задач** — это предотвратило утечку памяти когда входящий поток превышал способность системы обрабатывать. Каждый обработчик события теперь имеет лимит параллельных операций. Но это был не последний урок. Во время разработки мы поняли, что асинхронное программирование требует архитектурного мышления с самого начала проектирования. Нельзя просто взять `gather()` и заменить на `wait()` — нужно переосмыслить всю логику обработки ошибок, тайм-аутов и частичных результатов. ## Почему это важно На уровне команды это открыло глаза. Оказалось, что у половины разработчиков были проблемы с выбором между этими паттернами. Мы создали **дерево решений** — контрольный список для code review, который предотвращает такие регрессии производительности. Теперь каждый pull request проходит через него. Для backend-приложений это напрямую влияет на надёжность. Правильный выбор асинхронного паттерна — это не оптимизация, это вопрос выживаемости системы под нагрузкой. --- Почему Datadog не пришёл на вечеринку? Его заблокировал firewall 😄

#claude#ai#python#javascript#git#api#security

25 февр. 2026 г.

Новая функцияC--projects-bot-social-publisher

Как мы почистили репозиторий перед публикацией AI Salebot

Проект **AI Agents Salebot** дошёл до финиша: 94 файла, 30 000 строк кода, 17 модулей на Python, работающие тесты. Казалось, осталось только запушить в репозиторий. Но когда стали готовить первую публикацию, обнаружили проблему, которую раньше не замечали — в `.gitignore` было всё не так. **Лицензия и философия** Начали мы не с кода, а с вопроса: как защитить то, что мы сделали? Проект носил MIT-лицензию, но это казалось недостаточным для бота, который работает с API и логикой безопасности. Решили перейти на GPL-3.0 — это копилефт защита, которая гарантирует: если кто-то будет строить на нашем коде, он обязан открывать свои улучшения. Два клика в файле LICENSE, обновили README с указанием авторства Pink Elephant — и интеллектуальная собственность защищена. **Агрессивная чистка** Дальше пошла реальная работа. Проверили `.gitignore` и поняли, что случайно отслеживали кучу мусора: - **`docs/archive/`** — внутренние записи о фиксах, нужны только разработчикам - **`data/`** — базы данных и логи из локального окружения - **Vosk-модели** — распознавание речи, каждая по несколько мегабайт - **Настройки без шаблонов** — никакого `.env.example` для новичков Расширили `.gitignore`, исключили ненужное, оставили только шаблон для окружения. Структура выстроилась сама собой: `src/` для модулей, `tests/` для проверок, `scripts/` для утилит. **Инициализация по правилам** Инициализировали свежий репозиторий с явной установкой SHA-1 — это стандарт для совместимости с GitLab: ``` git init --initial-branch=main --object-format=sha1 ``` Первый коммит вышел чистым: не свалка файлов, а осознанная база. Хеш `4ef013c` теперь в истории как фундамент. **Отправка в мир** Настроили remote на корпоративный GitLab, был готов команда `git push --set-upstream origin main`. Правда, тогда сервер недолго не резолвился по DNS, но это мелочь — локальный репозиторий уже был идеален. **Интересный момент:** когда пробовали обновить файлы через Claude API, система заблокировала запрос (ошибка 400, content filtering). Пришлось работать напрямую через Python и Git. **Итог** Проект вышел чистым. Все файлы отслеживаются, лицензия правильная, мусор исключён. Когда коллега клонирует репозиторий, он получит именно то, что нужно — без лишних мегабайт моделей, без логов разработки, только код, который работает. Помни: GitHub лучший друг разработчика. Потому что без него ничего не работает. С ним тоже, но хотя бы есть кого винить 😄

#claude#ai#python#javascript#git#api

25 февр. 2026 г.

Новая функцияtrend-analisis

Как миграция БД свалилась в production и чему я научился

Работаю я над **Trend Analysis** — системой анализа тенденций в Python. Недавно понадобилось добавить новую колонку `max_web_citations` в таблицу объектов. Звучит просто, но история развивалась неожиданно. Сначала я добавил миграцию в `_classify_via_objects()` — выполнил `ALTER TABLE`, проверил локально, отправил в production. Казалось, всё работает. Но через несколько часов упало: **"no such column: o.max_web_citations"**. Оказалось, что я обновил таблицу в одном месте, но забыл про `get_trend_classes()` — функцию, которая читает эту же таблицу. Она вызывалась *до* первого `classify`, и SELECT падал на несуществующей колонке. Вроде глупая ошибка, но она раскрыла важный паттерн: **когда добавляешь колонку — это не локальный fixes, нужно grep'ить все SELECT-запросы к этой таблице и убедиться, что миграция прокатывается ДО первого чтения**. Исправил обе функции, перезапустил — помогло. Потом ещё два часа лепил lint-fixes. В итоге из простого изменения получилось три этапа отладки. Пока копался в коде, наткнулся на другой паттерн в документации — про асинхронные операции. Там советуют использовать `asyncio.wait(FIRST_COMPLETED)` вместо `gather()`, когда частичные отказы приемлемы. Микросервисы часто дёргают 3–5 нисходящих API одновременно, и обычно нужен первый результат, а не все. `asyncio.wait` позволяет перехватить первый отказ быстро, применить circuit breaker и вернуть частичный результат. Это снижает каскадные отказы и задержки. IoT-компании, оказывается, падают именно из-за задержек обработки событий. Они смотрят на p99 latency и крутят ручку asyncio-оптимизации. Компании с низкой задержкой и хорошей асинхронной архитектурой лучше совпадают спрос с предложением. Мне показалось, что в нашей системе сам я использую `gather()` в старом коде, где можно было бы `asyncio.wait` со слабой связанностью. Не критично, но это напомнило — техдолг растёт незаметно, когда не смотришь на архитектуру в целом. **Итог**: добавляй колонки честно — ищи все места, где они используются. И асинхронный код проектируй с запасом на сбои, не на идеальный сценарий. А если Python работает — и вправду не трогай. Если не работает — тоже иногда лучше оставить как есть. 😄

#claude#ai#python#javascript#git#api

25 февр. 2026 г.