-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathREADME.bak
More file actions
52 lines (41 loc) · 2.05 KB
/
README.bak
File metadata and controls
52 lines (41 loc) · 2.05 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
# 语音转文字工具(Windows)
## 一句话介绍
- 托盘常驻,`Ctrl+Shift+Space` 开始/停止录音,本地 SenseVoice Small 转写,Qwen-Flash 进行整理,最后自动粘贴到光标处。
## 运行要求
- Windows 10/11
- NVIDIA 显卡建议(如 RTX 4070),已安装官方驱动
## 路线 C:安装程序(推荐)
### 构建安装包(开发者)
1) 下载 Python 安装包 `python-3.10.13-amd64.exe` 放到 `installer/`
2) 安装 Inno Setup
3) 用 Inno Setup 打开并编译:`installer\setup.iss`
4) 生成的安装包在:`installer\output\AudioToTextSetup.exe`
### 用户安装流程
1) 运行安装包,必须选择普通可写目录(如 D:\Apps 或 D:\Tools),避免系统保护目录(如 C:\Program Files)
2) 安装过程中会检测 NVIDIA 驱动:
- 检测到驱动:默认安装 CUDA 版
- 未检测到驱动:弹窗提示,用户可选择继续(CPU 版)或退出排查
3) 安装阶段会预下载模型,安装完成即可直接使用
## 启动程序
- 开始菜单或桌面图标启动
- 或手动执行:`run_app.cmd`
## 设置(托盘右键)
- OpenAI Base URL
- OpenAI API Key
- 模型名(推荐 Qwen 系列)
这些会写入 `config.json`。`.env` 仅作为兜底(可参考 `.env.example`)。
## 本地模型说明(SenseVoice Small)
- 安装阶段会提前下载模型,避免首用等待
- 模型缓存目录:安装目录下的 `models`
- 可选 VAD 模型:`iic/speech_fsmn_vad_zh-cn-16k-common-pytorch`
- 可选标点模型:`iic/punc_ct-transformer_cn-en-common-vocab471067-large`
- 推理设备自动选择:检测到 CUDA 即用 GPU,否则使用 CPU
## 空间占用(估算)
- 依赖 + 模型缓存合计约 6–10 GB(取决于 GPU/CPU 版本)
- 模型推理时显存占用约 2–4 GB(含 VAD/标点)
## 说明
- 录音格式固定为 WAV PCM 16kHz 单声道
- CUDA 安装失败会提示是否回退 CPU
## 常见问题
- 快捷键无效:请以管理员身份运行(`keyboard` 库需要高权限)
- 首次识别慢:可能仍在加载模型,稍后会快很多