如何轉錄音訊檔案？

將音訊檔案（MP3、WAV、M4A、OGG、FLAC 或 WebM）拖入工具，點擊轉錄。首次運行會下載語音模型（約 150 MB），之後轉錄完全在本機離線運行。

可以用麥克風錄音嗎？

可以。點擊"錄音"，在瀏覽器中允許麥克風權限，說話，然後點擊"停止錄音"。錄製的音訊如同上傳檔案一樣處理，可以立即轉錄。

支援哪些語言？

Whisper 支援的全部 99 種語言——包括繁體中文、英文、西班牙文、法文、阿拉伯文、印地文、德文、俄文、葡萄牙文、日語等。文字稿保持原始說話語言。

音訊長度有限制嗎？

接受最大 200 MB 的檔案。長錄音按 30 秒分塊處理（有 5 秒重疊），所以一個小時的播客仍能生成連貫的文字稿。處理時間取決於瀏覽器是否支援 WebGPU。

音訊會上傳到伺服器嗎？

不會。模型和音訊都留在瀏覽器中。Whisper 模型從 CDN 取得一次並快取，轉錄完全在裝置上用 WebGPU 或 WebAssembly 運行。

可以給影片產生字幕嗎？

可以。下載 .srt 或 .vtt 檔案，放入影片編輯器，或作為字幕上傳到 YouTube 等平臺。每行字幕都包含 Whisper 辨識的時間戳範圍。

音訊免費本機執行

音訊轉文字

將任何語言的語音轉換為文字，在瀏覽器中完成。

.mp3.wav.ogg.m4a.aac.flac.webm.opus

語言

載入模型中…

完全在瀏覽器中運行。

將音訊檔案拖到這裡

MP3 · WAV · OGG · M4A · FLAC · WebM · 最大 200 MB

首次運行下載約 150 MB；之後將被快取。

選擇檔案

或

關於音訊轉文字

上傳音訊檔案或直接用麥克風錄音，即可獲得與說話者使用的語言相同的文字稿——無需上傳、無需帳戶、無需安裝應用程式。Handytool 直接在瀏覽器中運行 OpenAI 開源的 Whisper 模型，透過 WebGPU 加速，讓你的播客、採訪、語音筆記、講座和會議錄音保持完全隱私。可將結果下載為純文字、SRT 字幕檔案或 WebVTT 檔案。

音訊轉文字功能

01
99種語言，自動辨識
Whisper 自動辨識說話語言並用該語言生成文字稿——繁體中文就是繁體中文，英文就是英文，日語就是日語。無需選擇語言，無需額外設定。
02
上傳檔案或實時錄音
上傳 MP3、WAV、M4A、OGG、FLAC 或 WebM 檔案，或點擊"錄音"直接從麥克風擷取音訊。停止時錄音自動開始轉錄。
03
隱私保護，本機處理
Whisper 模型首次下載到瀏覽器快取後，完全在裝置本機執行，支援 WebGPU 加速。資料不上傳——你的音訊永遠不會離開電腦。

音訊轉文字常見問題

如何轉錄音訊檔案？: 將音訊檔案（MP3、WAV、M4A、OGG、FLAC 或 WebM）拖入工具，點擊轉錄。首次運行會下載語音模型（約 150 MB），之後轉錄完全在本機離線運行。
可以用麥克風錄音嗎？: 可以。點擊"錄音"，在瀏覽器中允許麥克風權限，說話，然後點擊"停止錄音"。錄製的音訊如同上傳檔案一樣處理，可以立即轉錄。
支援哪些語言？: Whisper 支援的全部 99 種語言——包括繁體中文、英文、西班牙文、法文、阿拉伯文、印地文、德文、俄文、葡萄牙文、日語等。文字稿保持原始說話語言。
音訊長度有限制嗎？: 接受最大 200 MB 的檔案。長錄音按 30 秒分塊處理（有 5 秒重疊），所以一個小時的播客仍能生成連貫的文字稿。處理時間取決於瀏覽器是否支援 WebGPU。
音訊會上傳到伺服器嗎？: 不會。模型和音訊都留在瀏覽器中。Whisper 模型從 CDN 取得一次並快取，轉錄完全在裝置上用 WebGPU 或 WebAssembly 運行。
可以給影片產生字幕嗎？: 可以。下載 .srt 或 .vtt 檔案，放入影片編輯器，或作為字幕上傳到 YouTube 等平臺。每行字幕都包含 Whisper 辨識的時間戳範圍。

指南

文章 →

5 分鐘
音訊指南
如何線上轉錄音訊為文字
在瀏覽器中將語音備忘錄、採訪和錄音轉換為可搜尋的文字，具有裝置端語音識別。
更新於 2026年5月1日閱讀

探索更多工具

所有工具 →

音訊轉文字

關於音訊轉文字

音訊轉文字功能

99種語言，自動辨識

上傳檔案或實時錄音

隱私保護，本機處理

音訊轉文字常見問題

指南

如何線上轉錄音訊為文字

相關工具

音聲增強器

人聲分離

剪輯音訊

探索更多工具

PDF to PNG

日本簽證相片製作工具

字幕燒製工具

JSON 檢視器

文法檢查