重要なポイント
- 01Whisper AIはブラウザで実行—ビデオはサーバーにアップロードされません。
- 0299言語対応、自動言語検出。
- 03プレーンテキスト、SRT字幕ファイル、エディタとYouTube用のWebVTTを出力。
- 04最初の実行後、モデルはキャッシュされ、文字起こしはオフラインで機能。
ブラウザでビデオを文字起こしする理由は?
インタビュー、講義、Zoom記録、またはYouTubeビデオの文字起こしは、手動で入力するか、ファイルをクラウドサービスに送信することを意味しました。クラウドサービスは高速ですが、実際のプライバシートレードオフが伴います—機密音声を第三者サーバーにアップロードしています。Handytool は別のアプローチを取ります。OpenAIのオープンソースWhisper音声モデルを1回ダウンロードしてから、WebGPU またはWebAssembly を使用してデバイス上で完全に実行します。
結果はクラウドサービスから得られるのと同じAI品質の文字起こしですが、ビデオファイルと音声は完全にプライベートのままです。最初の実行はモデル(約150MB)をダウンロードしますが、その後、ツールは完全にオフラインで機能します。
ビデオを文字起こしする方法
ビデオファイルをドロップして数分で文字起こしを取得。
- 01
文字起こしツールを開く
Handytool上の「ビデオ文字起こし」ツールに移動します。アカウント不要。
- 02
ビデオファイルを追加
500MB までのMP4、MOV、WebM、MKV、M4V、AVIファイルをドロップします。音声はFFmpeg.wasm でローカルに抽出されます—アップロードなし。
- 03
言語を選択(オプション)
Whisper はほとんどの録画で話されている言語を自動検出します。ビデオにアクセントが強いか、あまり一般的でない言語がある場合、言語を手動で選択すると精度が向上します。
- 04
「文字起こし」をクリック
最初の使用では、Whisper モデル(~150MB)はブラウザキャッシュにダウンロードされます。以降の実行はキャッシュモデルを使用し、オフラインで機能します。文字起こしは30秒のチャンクに処理され、コンテキストを一貫性のあるオーバーラップで保持されます。
- 05
出力をダウンロード
トランスクリプトが表示されたら、プレーンテキスト、SRT字幕ファイル、またはWebVTTファイルとしてダウンロードします。3つすべてが同じ文字起こし実行から生成されます。
ビデオの文字起こしで何ができるか
トランスクリプトと字幕はダウンストリームワークフローのロックを解除します。
- 01YouTube またはVimeo ビデオにクローズドキャプションを追加してアクセス性を向上。
- 02講義、ウェビナー、トレーニング記録から検索可能なメモを作成。
- 03インタビューフッテージをブログ記事または記事に再利用。
- 04SRT ファイルを使用してビデオエディタで焼き込み字幕を追加。
- 05会議記録から概要またはアクションアイテムを生成。
- 06テキストをダウンロード後に別の言語に翻訳。
Whisper はデバイスで実行—何も送信されません
Handytool はFFmpeg.wasm を使用して音声トラックをローカルに抽出し、WebGPU(利用可能な場合)またはピュアWebAssembly を使用してブラウザで実行されているWhisper に渡します。どの段階でも音声またはビデオデータはネットワーク経由で送信されません。
これにより、医療インタビュー、法的証言、内部ビジネス会議、セラピーセッション—クラウド文字起こしサービスへのアップロードが受け入れられない機密記録に適しています。
ビデオ文字起こしFAQ
どのビデオ形式がサポートされていますか?
500MB までのMP4、MOV、WebM、MKV、M4V、AVI コンテナ。これらのコンテナ内の一般的なオーディオコーデック(AAC、MP3、Opus、Vorbis)はすべて機能します。
どの言語を文字起こしできますか?
英語、スペイン語、標準中国語、フランス語、アラビア語、ヒンディー語、ドイツ語、ロシア語、ポルトガル語、日本語を含む、Whisper がサポートするすべての99言語。トランスクリプトは話された言語のままです。
YouTube 用の字幕を生成できますか?
はい。文字起こし後、SRT またはVTT ファイルをダウンロードして、YouTube Studio のキャプションエディタに直接アップロードします。
ビデオはどのくらい長くてもよいですか?
500MB までのファイルが受け入れられます。長い記録は30秒のチャンクに分割され、5秒のオーバーラップ付きで、トランスクリプトがビデオ全体で一貫性を保持します。
ビデオはサーバーにアップロードされますか?
いいえ。FFmpeg.wasm とWhisper モデルはブラウザ内でローカルに実行されます。何もアップロードされません。
オフラインで機能しますか?
最初の実行後、Whisper モデルはブラウザにキャッシュされます。以降の文字起こしは完全にオフラインで機能—最初のインターネット接続のみが必要です。