🤖 Claude Code Tools GitHub avançado

VibeVoice

⭐ 34k stars Abrir no GitHub ↗

Família de modelos de voz frontier open-source da Microsoft: transcreva 60 minutos de uma vez e gere fala de até 90 minutos sem chunking.

⚠ Problema

Sistemas de voz tradicionais processam áudio em chunks curtos, perdendo contexto global — resultando em transcrições inconsistentes para múltiplos locutores e síntese que perde coerência em textos longos.

✓ O que resolve

Família de 3 modelos com tokenizadores contínuos de fala a 7,5 Hz, permitindo janela de contexto de 64K tokens sem chunking: ASR (7B params) para transcrição longa com diarização, TTS (1,5B params) para síntese multi-locutor e Realtime (0,5B params) para latência de ~300ms. Apresentação oral aceita no ICLR 2026.

Como começar
Para que serve
ttsasrspeechvoice-aimicrosoftopen-sourcediarizaçãomultilínguetransformersvllmpythoniclr
Veja também