BorisovAI
Все публикации
Новая функцияtrend-analisisGit коммит

Пять фильтров, которые спасают тренды от мусора

Пять фильтров, которые спасают тренды от мусора

Работаю над системой анализа трендов, и вот столкнулся с классической проблемой: алгоритм извлекает тренды из событий, но половина из них — полная ерунда. Тренд про нефть, апельсины и страховку в одной кучке. Код всё правильно считал, данные прошли все проверки, а результат — помойка.

Начал добавлять фильтры. Первый — проверка когерентности эмбеддингов. Идея простая: если события в тренде топически не связаны, их эмбеддинги будут далеко друг от друга. Задал порог 0,35 на косинусное сходство. Тестировал на 84 старых трендах — алгоритм корректно отклонил все 56 мусорных. Остальные 28 прошли, потому что там правда были связанные события.

Второй шаг — добавил relевance score прямо в события тренда. Раньше я просто считал, что событие относится к тренду с уверенностью 1.0. Теперь считаю косинус до центроида кластера. Неожиданный эффект: стало видно, какие события в тренде настоящие якоря, а какие — на грани выпадения.

Третий — чёрный список сущностей. Оказалось, что при связывании новых событий с существующими трендами система матчит их на “Россия”, “Китай”, “ИИ” — настолько общие сущности, что они ничего не говорят. Добавил фильтр: если матч только на blacklist-сущности, событие не цепляется к тренду. Шум упал заметно.

Четвёртый — порог уверенности LLM >= 0.5. Когда модель извлекает тренд, она даёт скор. Если скор низкий, я просто отбрасываю кандидата до материализации. Фильтр дешёвый, срабатывает до дорогих операций.

И наконец, пятый — второй проход LLM. Это был прорыв. На каждого кандидата тренда LLM отвечает на один вопрос: “Это действительно тренд или просто ситуация/процесс?” Дешево — всего 1-2 кандидата на кластер, но ловит ложные срабатывания, которые прошли все code-фильтры.

Вместе эти пять ворот резко подняли качество. Не идеально, но уже можно работать. История же в том, что когда ты полагаешься только на код и статистику, спотыкаешься об edge-cases, которые люди видят с первого взгляда. 😄

Метаданные

Branch:
feat/trend-quality-gates
Dev Joke
«Мы как Uber, только для...» — так начинаются 90% стартапов и 90% провалов.

Оцените материал

0/1000