ビデオをテキストに無料で文字起こしする方法

重要なポイント

01Whisper AIはブラウザで実行—ビデオはサーバーにアップロードされません。
0299言語対応、自動言語検出。
03プレーンテキスト、SRT字幕ファイル、エディタとYouTube用のWebVTTを出力。
04最初の実行後、モデルはキャッシュされ、文字起こしはオフラインで機能。

ブラウザでビデオを文字起こしする理由は？

インタビュー、講義、Zoom記録、またはYouTubeビデオの文字起こしは、手動で入力するか、ファイルをクラウドサービスに送信することを意味しました。クラウドサービスは高速ですが、実際のプライバシートレードオフが伴います—機密音声を第三者サーバーにアップロードしています。Handytool は別のアプローチを取ります。OpenAIのオープンソースWhisper音声モデルを1回ダウンロードしてから、WebGPU またはWebAssembly を使用してデバイス上で完全に実行します。

結果はクラウドサービスから得られるのと同じAI品質の文字起こしですが、ビデオファイルと音声は完全にプライベートのままです。最初の実行はモデル（約150MB）をダウンロードしますが、その後、ツールは完全にオフラインで機能します。

ビデオを文字起こしする方法

ビデオファイルをドロップして数分で文字起こしを取得。

01
文字起こしツールを開く
Handytool上の「ビデオ文字起こし」ツールに移動します。アカウント不要。
02
ビデオファイルを追加
500MB までのMP4、MOV、WebM、MKV、M4V、AVIファイルをドロップします。音声はFFmpeg.wasm でローカルに抽出されます—アップロードなし。
03
言語を選択（オプション）
Whisper はほとんどの録画で話されている言語を自動検出します。ビデオにアクセントが強いか、あまり一般的でない言語がある場合、言語を手動で選択すると精度が向上します。
04
「文字起こし」をクリック
最初の使用では、Whisper モデル（～150MB）はブラウザキャッシュにダウンロードされます。以降の実行はキャッシュモデルを使用し、オフラインで機能します。文字起こしは30秒のチャンクに処理され、コンテキストを一貫性のあるオーバーラップで保持されます。
05
出力をダウンロード
トランスクリプトが表示されたら、プレーンテキスト、SRT字幕ファイル、またはWebVTTファイルとしてダウンロードします。3つすべてが同じ文字起こし実行から生成されます。

ビデオの文字起こしで何ができるか

トランスクリプトと字幕はダウンストリームワークフローのロックを解除します。

01YouTube またはVimeo ビデオにクローズドキャプションを追加してアクセス性を向上。
02講義、ウェビナー、トレーニング記録から検索可能なメモを作成。
03インタビューフッテージをブログ記事または記事に再利用。
04SRT ファイルを使用してビデオエディタで焼き込み字幕を追加。
05会議記録から概要またはアクションアイテムを生成。
06テキストをダウンロード後に別の言語に翻訳。

Whisper はデバイスで実行—何も送信されません

Handytool はFFmpeg.wasm を使用して音声トラックをローカルに抽出し、WebGPU（利用可能な場合）またはピュアWebAssembly を使用してブラウザで実行されているWhisper に渡します。どの段階でも音声またはビデオデータはネットワーク経由で送信されません。

これにより、医療インタビュー、法的証言、内部ビジネス会議、セラピーセッション—クラウド文字起こしサービスへのアップロードが受け入れられない機密記録に適しています。

ビデオ文字起こしFAQ

どのビデオ形式がサポートされていますか？

500MB までのMP4、MOV、WebM、MKV、M4V、AVI コンテナ。これらのコンテナ内の一般的なオーディオコーデック（AAC、MP3、Opus、Vorbis）はすべて機能します。

どの言語を文字起こしできますか？

英語、スペイン語、標準中国語、フランス語、アラビア語、ヒンディー語、ドイツ語、ロシア語、ポルトガル語、日本語を含む、Whisper がサポートするすべての99言語。トランスクリプトは話された言語のままです。

YouTube 用の字幕を生成できますか？

はい。文字起こし後、SRT またはVTT ファイルをダウンロードして、YouTube Studio のキャプションエディタに直接アップロードします。

ビデオはどのくらい長くてもよいですか？

500MB までのファイルが受け入れられます。長い記録は30秒のチャンクに分割され、5秒のオーバーラップ付きで、トランスクリプトがビデオ全体で一貫性を保持します。

ビデオはサーバーにアップロードされますか？

いいえ。FFmpeg.wasm とWhisper モデルはブラウザ内でローカルに実行されます。何もアップロードされません。

オフラインで機能しますか？

最初の実行後、Whisper モデルはブラウザにキャッシュされます。以降の文字起こしは完全にオフラインで機能—最初のインターネット接続のみが必要です。

どこにもアップロードせずに任意のビデオをテキストに変換します。

ブラウザでビデオを文字起こしする理由は？

ビデオを文字起こしする方法

文字起こしツールを開く

ビデオファイルを追加

言語を選択（オプション）

「文字起こし」をクリック

出力をダウンロード

ビデオの文字起こしで何ができるか

Whisper はデバイスで実行—何も送信されません

ビデオ文字起こしFAQ

動画ツールで作業を続ける

動画を文字起こし

動画をトリム

動画をカット & 編集

動画を変換

ブラウザでビデオを文字起こしする理由は？

ビデオを文字起こしする方法

文字起こしツールを開く

ビデオファイルを追加

言語を選択（オプション）

「文字起こし」をクリック

出力をダウンロード

ビデオの文字起こしで何ができるか

Whisper はデバイスで実行—何も送信されません

ビデオ文字起こしFAQ

動画 ツールで作業を続ける

動画を文字起こし

動画をトリム

動画をカット & 編集

動画を変換

動画ツールで作業を続ける