如何转录音频文件？

将音频文件（MP3、WAV、M4A、OGG、FLAC 或 WebM）拖入工具，点击转录。首次运行会下载语音模型（约 150 MB），之后转录完全在本地离线运行。

可以用麦克风录音吗？

可以。点击"录音"，在浏览器中允许麦克风权限，说话，然后点击"停止录音"。录制的音频如同上传文件一样处理，可以立即转录。

支持哪些语言？

Whisper 支持的全部 99 种语言——包括中文、英文、西班牙语、法语、阿拉伯语、印地语、德语、俄语、葡萄牙语、日语等。文字稿保持原始说话语言。

音频长度有限制吗？

接受最大 200 MB 的文件。长录音按 30 秒分块处理（有 5 秒重叠），所以一个小时的播客仍能生成连贯的文字稿。处理时间取决于浏览器是否支持 WebGPU。

音频会上传到服务器吗？

不会。模型和音频都留在浏览器中。Whisper 模型从 CDN 获取一次并缓存，转录完全在设备上用 WebGPU 或 WebAssembly 运行。

可以给视频生成字幕吗？

可以。下载 .srt 或 .vtt 文件，放入视频编辑器，或作为字幕上传到 YouTube 等平台。每行字幕都包含 Whisper 识别的时间戳范围。

音频免费本地运行

音频转文字

将任何语言的语音转换为文本，在浏览器中完成。

.mp3.wav.ogg.m4a.aac.flac.webm.opus

语言

加载模型中…

完全在浏览器中运行。

将音频文件拖到这里

MP3 · WAV · OGG · M4A · FLAC · WebM · 最大 200 MB

首次运行下载约 150 MB；之后将被缓存。

选择文件

或

关于音频转文字

上传音频文件或直接用麦克风录音，即可获得与说话人使用的语言相同的文字稿——无需上传、无需账户、无需安装应用。Handytool 直接在浏览器中运行 OpenAI 开源的 Whisper 模型，通过 WebGPU 加速，让你的播客、采访、语音笔记、讲座和会议录音保持完全隐私。可将结果下载为纯文本、SRT 字幕文件或 WebVTT 文件。

音频转文字功能

01
99种语言，自动识别
Whisper 自动识别说话语言并用该语言生成文字稿——中文就是中文，英文就是英文，日语就是日语。无需选择语言，无需额外设置。
02
上传文件或实时录音
上传 MP3、WAV、M4A、OGG、FLAC 或 WebM 文件，或点击"录音"直接从麦克风捕捉音频。停止时录音自动开始转录。
03
隐私保护，本地处理
Whisper 模型首次下载到浏览器缓存后，完全在设备本地运行，支持 WebGPU 加速。数据不上传——你的音频永远不会离开电脑。

音频转文字常见问题

如何转录音频文件？: 将音频文件（MP3、WAV、M4A、OGG、FLAC 或 WebM）拖入工具，点击转录。首次运行会下载语音模型（约 150 MB），之后转录完全在本地离线运行。
可以用麦克风录音吗？: 可以。点击"录音"，在浏览器中允许麦克风权限，说话，然后点击"停止录音"。录制的音频如同上传文件一样处理，可以立即转录。
支持哪些语言？: Whisper 支持的全部 99 种语言——包括中文、英文、西班牙语、法语、阿拉伯语、印地语、德语、俄语、葡萄牙语、日语等。文字稿保持原始说话语言。
音频长度有限制吗？: 接受最大 200 MB 的文件。长录音按 30 秒分块处理（有 5 秒重叠），所以一个小时的播客仍能生成连贯的文字稿。处理时间取决于浏览器是否支持 WebGPU。
音频会上传到服务器吗？: 不会。模型和音频都留在浏览器中。Whisper 模型从 CDN 获取一次并缓存，转录完全在设备上用 WebGPU 或 WebAssembly 运行。
可以给视频生成字幕吗？: 可以。下载 .srt 或 .vtt 文件，放入视频编辑器，或作为字幕上传到 YouTube 等平台。每行字幕都包含 Whisper 识别的时间戳范围。

使用指南

文章 →

5 分钟
音频指南
如何在线转录音频为文本
在浏览器中将语音备忘录、采访和录音转换为可搜索的文本，具有设备端语音识别。
更新于 2026年5月1日阅读

探索更多工具

全部工具 →

音频转文字

关于音频转文字

音频转文字功能

99种语言，自动识别

上传文件或实时录音

隐私保护，本地处理

音频转文字常见问题

使用指南

如何在线转录音频为文本

相关工具

音频增强器

人声分离

剪辑音频

探索更多工具

PDF to PNG

日本签证照片制作工具

字幕烧制工具

JSON 查看器

语法检查