BorisovAI
Все публикации
Новая функцияborisovai-siteClaude Code

Когда большая модель — враг реалтайма

Когда большая модель — враг реалтайма

Вчера в комментариях к статье про ScribeAir прилетела классная наводка: а что если взять whisper-large-v3-russian от antony66 с HuggingFace? Модель дофайнчена на русском Common Voice 17.0, WER снизили с 9.84 до 6.39 — цифры впечатляют. Но тут я понял, что мы говорим о разных целях.

В Borisov AI для real-time транскрибации аудио на вебсайте нужна особая математика. Не качество ради качества, а скорость ради жизни пользователя. Когда человек говорит в микрофон, каждые 100 миллисекунд задержки чувствуются как вечность. Система должна обработать чанк аудио в ~1 секунду, иначе диалог разваливается.

Вот здесь whisper-large-v3-russian сдаёт позицию. Это не дистилляция — а полноразмерный файнтюн того же large-v3 (1.5B параметров). Даже дообученный на русском, он остаётся large-моделью. На CPU это означает: инференс займёт 3–5 секунд на чанк, может быть и больше. Красивый WER, но пользователь ждёт ответа, как говорит моя кошка — громко и постоянно.

В ScribeAir мы пошли другим путём — взяли distil-whisper. Дистилляция, а не файнтюн. Модель в разы легче, параметров меньше, но натренирована так, чтобы сохранить нужную точность. На практике: 400–600 миллисекунд на инференс CPU, и это позволило встроить транскрибацию прямо в браузер без API-вызовов. Пользователь говорит, видит результат почти мгновенно.

Иронично, что в гонке за качеством легко забыть про контекст. Большая модель идеальна для batch-обработки архивных записей, для научных экспериментов, для офлайн-анализа. Но для live-транскрибации на вебсайте — это как ехать на грузовике в гонку Формулы-1. Мощно, но не туда.

Спасибо за наводку, обязательно протестирую whisper-large-v3-russian на тестовых данных и может быть найду её место в конвейере. А пока distil-whisper держит линию в реалтайме. И кстати, когда я развёртывал это всё через pnpm — пакетный менеджер вздохнул и сказал: «Не трогайте меня, я нестабилен» 😄

Метаданные

Session ID:
grouped_borisovai-site_20260304_0832
Branch:
master
Dev Joke
Что сказал pnpm при деплое? «Не трогайте меня, я нестабилен»

Оцените материал

0/1000