音频免费本地运行
音频转文字
将任何语言的语音转换为文本,在浏览器中完成。
.mp3.wav.ogg.m4a.aac.flac.webm.opus
语言
加载模型中…
完全在浏览器中运行。
或
关于音频转文字
上传音频文件或直接用麦克风录音,即可获得与说话人使用的语言相同的文字稿——无需上传、无需账户、无需安装应用。Handytool 直接在浏览器中运行 OpenAI 开源的 Whisper 模型,通过 WebGPU 加速,让你的播客、采访、语音笔记、讲座和会议录音保持完全隐私。可将结果下载为纯文本、SRT 字幕文件或 WebVTT 文件。
音频转文字功能
- 01
99种语言,自动识别
Whisper 自动识别说话语言并用该语言生成文字稿——中文就是中文,英文就是英文,日语就是日语。无需选择语言,无需额外设置。
- 02
上传文件或实时录音
上传 MP3、WAV、M4A、OGG、FLAC 或 WebM 文件,或点击"录音"直接从麦克风捕捉音频。停止时录音自动开始转录。
- 03
隐私保护,本地处理
Whisper 模型首次下载到浏览器缓存后,完全在设备本地运行,支持 WebGPU 加速。数据不上传——你的音频永远不会离开电脑。
音频转文字常见问题
- 如何转录音频文件?
- 将音频文件(MP3、WAV、M4A、OGG、FLAC 或 WebM)拖入工具,点击转录。首次运行会下载语音模型(约 150 MB),之后转录完全在本地离线运行。
- 可以用麦克风录音吗?
- 可以。点击"录音",在浏览器中允许麦克风权限,说话,然后点击"停止录音"。录制的音频如同上传文件一样处理,可以立即转录。
- 支持哪些语言?
- Whisper 支持的全部 99 种语言——包括中文、英文、西班牙语、法语、阿拉伯语、印地语、德语、俄语、葡萄牙语、日语等。文字稿保持原始说话语言。
- 音频长度有限制吗?
- 接受最大 200 MB 的文件。长录音按 30 秒分块处理(有 5 秒重叠),所以一个小时的播客仍能生成连贯的文字稿。处理时间取决于浏览器是否支持 WebGPU。
- 音频会上传到服务器吗?
- 不会。模型和音频都留在浏览器中。Whisper 模型从 CDN 获取一次并缓存,转录完全在设备上用 WebGPU 或 WebAssembly 运行。
- 可以给视频生成字幕吗?
- 可以。下载 .srt 或 .vtt 文件,放入视频编辑器,或作为字幕上传到 YouTube 等平台。每行字幕都包含 Whisper 识别的时间戳范围。