随着大模型与多模态能力持续爆发,语音交互正成为新一代输入风口。像手机端的豆包语音输入法(豆包输入法正式版发布!搜狗输入法代替品!),凭借精准识别、智能断句、自然流畅,收获大量好评。
但豆包语音输入法目前尚未发布 Windows 版本,电脑端想用上同款体验并不容易。市面上其它语音输入工具,要么依赖云端 API、需要按量付费。
最近,微软直接甩出王炸,开源了超强语音转文本模型 VibeVoice-ASR,并基于它推出了一款开箱即用的语音识别输入工具「Vibing」提供了 Windows 和 macOS 客户端。
VibeVoice-ASR 是微软开源的90 亿参数统一语音识别大模型,在 GitHub 上收获海量 Star,堪称当前 ASR 领域的 “长语音王者”。50 + 语言支持:中英混合、多语种切换都能稳识别,不切片、不拼凑:一次性处理长达 60 分钟音频,64K 超长上下文,全程语义连贯。

免费、开源、开箱即用的 Windows 语音识别输入工具「Vibing」使用很简单,按下快捷键 Ctrl+Win 即可快速激活语音转文本,在 Word、浏览器、聊天窗口等任意输入框都能直接用,不用切换软件。

按下 Ctrl+Win+Alt 支持语音翻译,可直接外语转中文,也能中文转其他语言,翻译准确、延迟极低,跨境沟通、外文听写都能用。

自定义热词,专业场景更准支持添加行业术语、专属名词,解决专业词汇识别不准的问题,科研、法务、技术岗都适配。

功能介绍
- 超长语音输入:单次录制支持5 分钟以上连续语音,不用分段、不用反复暂停,一口气说完。
- 自定义热词库:可添加人名、专业术语、行业黑话等专属词汇,识别更精准,告别频繁改错。
- 上下文意图理解:不只逐字转写,更能结合语境读懂你的真实意图,表达更自然、更准确。
- 50 + 种语言全覆盖:支持全球 50 余种语言输入,自动识别语种,不用手动切换。
- 中英混合自由说:一句话里中英文随意穿插,照样精准识别,符合日常口语习惯。
- 大模型 AI 智能润色:自动将口语化语音整理为通顺、流畅、得体的书面文本,直接可用。
- 实时语音翻译:边说边翻译,跨语言沟通、外语听写、外文记录一步到位。
总结
在语音输入成为刚需的今天,微软 VibeVoice-ASR + Vibing 组合,不用花钱买 API,一键唤起、超长语音、多语言翻译、说话人区分,全部拉满。可以说是目前最省心的开源语音输入法之一。
下载地址
- 官方网站:
https://vibingjustspeakit.github.io/Vibing/ - 项目地址:
https://github.com/VibingJustSpeakIt/Vibing - 网盘下载:
https://pan.quark.cn/s/c4a36a7c74e5
