Handytool
ビデオガイド5 分で読める2026年2月11日 に更新

AI 文字起こし、ブラウザのみ

どこにもアップロードせずに任意のビデオをテキストに変換します。

Handytool はOpenAIのWhisperモデルをブラウザで直接実行し、MP4、MOV、WebM、MKVファイルをプレーンテキスト、SRT、VTT字幕ファイルに文字起こしします。ビデオはデバイスから出ません。

重要なポイント

  • 01Whisper AIはブラウザで実行—ビデオはサーバーにアップロードされません。
  • 0299言語対応、自動言語検出。
  • 03プレーンテキスト、SRT字幕ファイル、エディタとYouTube用のWebVTTを出力。
  • 04最初の実行後、モデルはキャッシュされ、文字起こしはオフラインで機能。

ブラウザでビデオを文字起こしする理由は?

インタビュー、講義、Zoom記録、またはYouTubeビデオの文字起こしは、手動で入力するか、ファイルをクラウドサービスに送信することを意味しました。クラウドサービスは高速ですが、実際のプライバシートレードオフが伴います—機密音声を第三者サーバーにアップロードしています。Handytool は別のアプローチを取ります。OpenAIのオープンソースWhisper音声モデルを1回ダウンロードしてから、WebGPU またはWebAssembly を使用してデバイス上で完全に実行します。

結果はクラウドサービスから得られるのと同じAI品質の文字起こしですが、ビデオファイルと音声は完全にプライベートのままです。最初の実行はモデル(約150MB)をダウンロードしますが、その後、ツールは完全にオフラインで機能します。

ビデオを文字起こしする方法

ビデオファイルをドロップして数分で文字起こしを取得。

  1. 01

    文字起こしツールを開く

    Handytool上の「ビデオ文字起こし」ツールに移動します。アカウント不要。

  2. 02

    ビデオファイルを追加

    500MB までのMP4、MOV、WebM、MKV、M4V、AVIファイルをドロップします。音声はFFmpeg.wasm でローカルに抽出されます—アップロードなし。

  3. 03

    言語を選択(オプション)

    Whisper はほとんどの録画で話されている言語を自動検出します。ビデオにアクセントが強いか、あまり一般的でない言語がある場合、言語を手動で選択すると精度が向上します。

  4. 04

    「文字起こし」をクリック

    最初の使用では、Whisper モデル(~150MB)はブラウザキャッシュにダウンロードされます。以降の実行はキャッシュモデルを使用し、オフラインで機能します。文字起こしは30秒のチャンクに処理され、コンテキストを一貫性のあるオーバーラップで保持されます。

  5. 05

    出力をダウンロード

    トランスクリプトが表示されたら、プレーンテキスト、SRT字幕ファイル、またはWebVTTファイルとしてダウンロードします。3つすべてが同じ文字起こし実行から生成されます。

ビデオの文字起こしで何ができるか

トランスクリプトと字幕はダウンストリームワークフローのロックを解除します。

  • 01YouTube またはVimeo ビデオにクローズドキャプションを追加してアクセス性を向上。
  • 02講義、ウェビナー、トレーニング記録から検索可能なメモを作成。
  • 03インタビューフッテージをブログ記事または記事に再利用。
  • 04SRT ファイルを使用してビデオエディタで焼き込み字幕を追加。
  • 05会議記録から概要またはアクションアイテムを生成。
  • 06テキストをダウンロード後に別の言語に翻訳。

Whisper はデバイスで実行—何も送信されません

Handytool はFFmpeg.wasm を使用して音声トラックをローカルに抽出し、WebGPU(利用可能な場合)またはピュアWebAssembly を使用してブラウザで実行されているWhisper に渡します。どの段階でも音声またはビデオデータはネットワーク経由で送信されません。

これにより、医療インタビュー、法的証言、内部ビジネス会議、セラピーセッション—クラウド文字起こしサービスへのアップロードが受け入れられない機密記録に適しています。

ビデオ文字起こしFAQ

どのビデオ形式がサポートされていますか?

500MB までのMP4、MOV、WebM、MKV、M4V、AVI コンテナ。これらのコンテナ内の一般的なオーディオコーデック(AAC、MP3、Opus、Vorbis)はすべて機能します。

どの言語を文字起こしできますか?

英語、スペイン語、標準中国語、フランス語、アラビア語、ヒンディー語、ドイツ語、ロシア語、ポルトガル語、日本語を含む、Whisper がサポートするすべての99言語。トランスクリプトは話された言語のままです。

YouTube 用の字幕を生成できますか?

はい。文字起こし後、SRT またはVTT ファイルをダウンロードして、YouTube Studio のキャプションエディタに直接アップロードします。

ビデオはどのくらい長くてもよいですか?

500MB までのファイルが受け入れられます。長い記録は30秒のチャンクに分割され、5秒のオーバーラップ付きで、トランスクリプトがビデオ全体で一貫性を保持します。

ビデオはサーバーにアップロードされますか?

いいえ。FFmpeg.wasm とWhisper モデルはブラウザ内でローカルに実行されます。何もアップロードされません。

オフラインで機能しますか?

最初の実行後、Whisper モデルはブラウザにキャッシュされます。以降の文字起こしは完全にオフラインで機能—最初のインターネット接続のみが必要です。

関連ツール

動画 ツールで作業を続ける

動画 ツール