Handytool
音訊免費本機執行

音訊轉文字

將任何語言的語音轉換為文字,在瀏覽器中完成。

.mp3.wav.ogg.m4a.aac.flac.webm.opus
語言
載入模型中…

完全在瀏覽器中運行。

關於音訊轉文字

上傳音訊檔案或直接用麥克風錄音,即可獲得與說話者使用的語言相同的文字稿——無需上傳、無需帳戶、無需安裝應用程式。Handytool 直接在瀏覽器中運行 OpenAI 開源的 Whisper 模型,透過 WebGPU 加速,讓你的播客、採訪、語音筆記、講座和會議錄音保持完全隱私。可將結果下載為純文字、SRT 字幕檔案或 WebVTT 檔案。

音訊轉文字功能

  • 01

    99種語言,自動辨識

    Whisper 自動辨識說話語言並用該語言生成文字稿——繁體中文就是繁體中文,英文就是英文,日語就是日語。無需選擇語言,無需額外設定。

  • 02

    上傳檔案或實時錄音

    上傳 MP3、WAV、M4A、OGG、FLAC 或 WebM 檔案,或點擊"錄音"直接從麥克風擷取音訊。停止時錄音自動開始轉錄。

  • 03

    隱私保護,本機處理

    Whisper 模型首次下載到瀏覽器快取後,完全在裝置本機執行,支援 WebGPU 加速。資料不上傳——你的音訊永遠不會離開電腦。

音訊轉文字常見問題

如何轉錄音訊檔案?
將音訊檔案(MP3、WAV、M4A、OGG、FLAC 或 WebM)拖入工具,點擊轉錄。首次運行會下載語音模型(約 150 MB),之後轉錄完全在本機離線運行。
可以用麥克風錄音嗎?
可以。點擊"錄音",在瀏覽器中允許麥克風權限,說話,然後點擊"停止錄音"。錄製的音訊如同上傳檔案一樣處理,可以立即轉錄。
支援哪些語言?
Whisper 支援的全部 99 種語言——包括繁體中文、英文、西班牙文、法文、阿拉伯文、印地文、德文、俄文、葡萄牙文、日語等。文字稿保持原始說話語言。
音訊長度有限制嗎?
接受最大 200 MB 的檔案。長錄音按 30 秒分塊處理(有 5 秒重疊),所以一個小時的播客仍能生成連貫的文字稿。處理時間取決於瀏覽器是否支援 WebGPU。
音訊會上傳到伺服器嗎?
不會。模型和音訊都留在瀏覽器中。Whisper 模型從 CDN 取得一次並快取,轉錄完全在裝置上用 WebGPU 或 WebAssembly 運行。
可以給影片產生字幕嗎?
可以。下載 .srt 或 .vtt 檔案,放入影片編輯器,或作為字幕上傳到 YouTube 等平臺。每行字幕都包含 Whisper 辨識的時間戳範圍。

相關工具

音訊

探索更多工具

所有工具