Whisper Input 是受到即友FeiTTT启发做的一个简单的 python 代码。可以实现按下 Option 按钮开始录制,抬起按钮就结束录制,并调用 Groq Whisper Large V3 Turbo
模型进行转译,由于 Groq 的速度非常快,所以大部分的语音输入都可以在 1-2s 内反馈。并且得益于 whisper 的强大能力,转译效果非常不错。
-
🎉🎉由于目前已经发现了更好用的语音输入软件WhisperKeyBoard,非常推荐大家可以直接使用这款软件即可。Whisper Input 的中心将继续回到 Voice + Agents 上。
-
支持由 SiliconFlow 托管的
FunAudioLLM/SenseVoiceSmall
模型,速度比 Groq 托管的Whisper Large V3 Turbo
更快,识别更准确,并且自带标点符号。最重要的是普通用户也无用量限制!
功能 | 快捷键 |
---|---|
多语言语音转译 | Option 或者 Alt |
中文翻译为英文 | Shift + Option 或者 Shift + Alt |
查看视频效果演示
重点:Groq 和 SiliconFlow 都提供免费用量,并且都足够,无需付费,无需绑定信用卡
目前支持两种免费的 ASR 模型,分别是 Groq 托管的
Whisper Large V3 系列
以及 SiliconFlow 托管的FunAudioLLM/SenseVoiceSmall
系列。所以以下配置只需要二选一即可。
请确保你的本地有 Python 环境,并且 Python 版本不低于 3.10。
-
注册 SiliconFlow 账户:https://siliconflow.cn/zh-cn/models
-
创建并复制免费的 API KEY:https://cloud.siliconflow.cn/account/ak
-
打开
终端
,进入到想要下载项目的文件夹git clone [email protected]:ErlichLiu/Whisper-Input.git
-
创建虚拟环境 【推荐】
python -m venv venv
-
重命名
.env
文件cp .env.example .env
-
粘贴在第 2 步复制的 API KEY 到
.env
文件,效果类似SERVICE_PLATFORM=siliconflow SILICONFLOW_API_KEY=sk_z8q3rXrQM3o******************8dQEJCYz3QTJQYZ
-
在最好不需要关闭的
终端
内进入到对应文件夹,然后激活虚拟环境# macOS / Linux source venv/bin/activate # Windows .\venv\Scripts\activate
-
安装依赖
pip install pip-tools pip-compile requirements.in pip install -r requirements.txt
-
运行程序
python main.py
-
注册 Groq 账户:https://console.groq.com/login
-
复制 Groq 免费的 API KEY:https://console.groq.com/keys
-
打开
终端
,进入到想要下载项目的文件夹git clone [email protected]:ErlichLiu/Whisper-Input.git
-
创建虚拟环境 【推荐】
python -m venv venv
-
重命名
.env
文件cp .env.example .env
-
粘贴在第 2 步复制的 API KEY 到
.env
文件,效果类似SERVICE_PLATFORM=groq GROQ_API_KEY=gsk_z8q3rXrQM3o******************8dQEJCYz3QTJQYZ
-
在最好不需要关闭的
终端
内进入到对应文件夹,然后激活虚拟环境# macOS / Linux source venv/bin/activate # Windows .\venv\Scripts\activate
-
安装依赖
pip install pip-tools pip-compile requirements.in pip install -r requirements.txt
-
运行程序
python main.py
🎉 此时你就可以按下 Option 按钮开始语音识别录入啦!
由于这个程序需要一直在后台运行,所以最好找一个自己不会经常下意识关掉的终端或者终端里的 Tab 来运行,不然很容易会不小心关掉。
关注作者个人网站,了解更多项目: https://erlich.fun
[✅] 多语言转译功能
[✅] 中文或多语言转译为英文
[✅] 标点符号支持
[ ] 添加 Agents,或许可以实现一些屏幕截图,根据上下文做一些输入输出之类的
如果你也有想法: 欢迎 Fork 和 PR,如果你在使用当中遇到问题,欢迎提交 Issue。
- 添加对 SiliconFlow 硅基流动托管的转译模型FunAudioLLM/SenseVoiceSmall 的支持,自带标点,无需润色,输出结果更快。由 @WEIFENG2333 贡献。
- 添加标点和优化进行区分,并且默认不优化转译内容
- 去除掉状态展示的动画
- 修复没有重置状态的 Bug,当录音时间小于 1s 时,会触发重置,避免后续的错误
- 支持 Windows,所有用户需要根据自己的本地环境 pip-compile
- 采用字节流 buffer 存储录音,不需要存储到本地
- 支持语音输入结果优化,并更换推荐模型为
Llama 3.3 70B
,同样免费
- 支持国内网络,无需申请 Groq API KEY 可以免费使用,Erlich 提供免费代理 API KEY
- 通过环境变量支持将繁体中文转化为简体中文
.env
,CONVERT_TO_SIMPLIFIED=true
,默认开启- 通过环境变量支持添加标点符号功能
.env
,ADD_SYMBOL=true
,默认开启,可以更换模型
- 增加了一个延迟 0.5s 的触发,方便在一些快捷键需要用到 Option/Alt 按钮时不会被误触
- 重构代码
- 支持快捷键按下后的状态显示【正在录音、正在转译/翻译、完成】
- 支持多语言语音转换为英文输出
- 支持基本的快捷键语音转文字输入
遵循 MIT 协议