JianYan/README.bak at main · HCID274/JianYan · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
# 语音转文字工具（Windows）

## 一句话介绍
- 托盘常驻，`Ctrl+Shift+Space` 开始/停止录音，本地 SenseVoice Small 转写，Qwen-Flash 进行整理，最后自动粘贴到光标处。

## 运行要求
- Windows 10/11
- NVIDIA 显卡建议（如 RTX 4070），已安装官方驱动

## 路线 C：安装程序（推荐）
### 构建安装包（开发者）
1) 下载 Python 安装包 `python-3.10.13-amd64.exe` 放到 `installer/`
2) 安装 Inno Setup
3) 用 Inno Setup 打开并编译：`installer\setup.iss`
4) 生成的安装包在：`installer\output\AudioToTextSetup.exe`

### 用户安装流程
1) 运行安装包，必须选择普通可写目录（如 D:\Apps 或 D:\Tools），避免系统保护目录（如 C:\Program Files）
2) 安装过程中会检测 NVIDIA 驱动：
   - 检测到驱动：默认安装 CUDA 版
   - 未检测到驱动：弹窗提示，用户可选择继续（CPU 版）或退出排查
3) 安装阶段会预下载模型，安装完成即可直接使用

## 启动程序
- 开始菜单或桌面图标启动
- 或手动执行：`run_app.cmd`

## 设置（托盘右键）
- OpenAI Base URL
- OpenAI API Key
- 模型名（推荐 Qwen 系列）

这些会写入 `config.json`。`.env` 仅作为兜底（可参考 `.env.example`）。

## 本地模型说明（SenseVoice Small）
- 安装阶段会提前下载模型，避免首用等待
- 模型缓存目录：安装目录下的 `models`
- 可选 VAD 模型：`iic/speech_fsmn_vad_zh-cn-16k-common-pytorch`
- 可选标点模型：`iic/punc_ct-transformer_cn-en-common-vocab471067-large`
- 推理设备自动选择：检测到 CUDA 即用 GPU，否则使用 CPU

## 空间占用（估算）
- 依赖 + 模型缓存合计约 6–10 GB（取决于 GPU/CPU 版本）
- 模型推理时显存占用约 2–4 GB（含 VAD/标点）

## 说明
- 录音格式固定为 WAV PCM 16kHz 单声道
- CUDA 安装失败会提示是否回退 CPU

## 常见问题
- 快捷键无效：请以管理员身份运行（`keyboard` 库需要高权限）
- 首次识别慢：可能仍在加载模型，稍后会快很多