Handytool
คู่มือวิดีโออ่าน5นาทีอัปเดต11 ก.พ. 2569

การถอดความพูด AI เฉพาะเบราว์เซอร์

เปลี่ยนวิดีโอใด ๆ เป็นข้อความและคำบรรยายโดยไม่อัปโหลดไปที่ใดก็ได้

Handytool เรียกใช้โมเดล Whisper ของ OpenAI โดยตรงในเบราว์เซอร์ของคุณเพื่อถอดความพูดจากไฟล์ MP4, MOV, WebM และ MKV เป็นข้อความธรรมดา SRT และไฟล์คำบรรยาย VTT วิดีโอของคุณไม่เคยออกจากอุปกรณ์ของคุณ

ประเด็นสำคัญ

  • 01Whisper AI ทำงานในเบราว์เซอร์ของคุณ วิดีโอของคุณไม่เคยถูกอัปโหลดไปยังเซิร์ฟเวอร์ใด
  • 02รองรับ 99 ภาษาด้วยการตรวจหาภาษาอัตโนมัติ
  • 03ส่งออกข้อความธรรมชาติ ไฟล์คำบรรยาย SRT และ WebVTT เพื่อใช้โดยตรงในบรรณาธิการและ YouTube
  • 04หลังจากการรันครั้งแรก รุ่นจะแคชและการถอดความพูดทำงานออฟไลน์

เหตุใดจึงต้องถอดความพูดจากวิดีโอในเบราว์เซอร์ของคุณ

การถอดความพูดจากการสัมภาษณ์ การบรรยาย การบันทึก Zoom หรือวิดีโอ YouTube ใช้ความหมาย ไม่ว่าจะพิมพ์ด้วยตนเองหรือส่งไฟล์ไปยังบริการระบบคลาวด์ บริการระบบคลาวด์นั้นรวดเร็ว แต่มาพร้อมกับการแลกเปลี่ยนความเป็นส่วนตัวที่แท้จริง คุณจะอัปโหลดเสียงที่มีศักยภาพไปยังเซิร์ฟเวอร์ของบริษัทที่สาม Handytool ใช้วิธีการที่แตกต่าง มันดาวน์โหลดโมเดลการพูดแบบเปิดของ OpenAI เพียงครั้งเดียวจากนั้นเรียกใช้มันทั้งหมดบนอุปกรณ์ของคุณโดยใช้ WebGPU หรือ WebAssembly

ผลลัพธ์เป็นการถอดความพูดที่มีคุณภาพ AI เดียวกันกับที่คุณจะได้รับจากบริการระบบคลาวด์ แต่ไฟล์วิดีโอและเสียงของคุณจะเป็นส่วนตัวอย่างสมบูรณ์ การรันครั้งแรกดาวน์โหลดรุ่น (ประมาณ 150 MB) แต่หลังจากนั้น เครื่องมือจะทำงานออฟไลน์ทั้งหมด

วิธีถอดความพูดจากวิดีโอ

วางไฟล์วิดีโอและรับการถอดความพูดในไม่กี่นาที

  1. 01

    เปิดเครื่องมือถอดความพูด

    ไปที่เครื่องมือถอดความพูดวิดีโอบน Handytool ไม่ต้องมีบัญชี

  2. 02

    เพิ่มไฟล์วิดีโอของคุณ

    วางไฟล์ MP4, MOV, WebM, MKV, M4V หรือ AVI ขนาดสูงสุด 500 MB เสียงจะถูกแยกออกในพื้นที่ด้วย FFmpeg.wasm ไม่มีการอัปโหลด

  3. 03

    เลือกภาษา (ไม่จำเป็น)

    Whisper ตรวจหาภาษาพูดโดยอัตโนมัติสำหรับการบันทึกส่วนใหญ่ หากวิดีโอของคุณมีสำเนียงหรือเป็นภาษาที่หนาแน่น การเลือกภาษาด้วยตนเองจะปรับปรุงความแม่นยำ

  4. 04

    คลิก ถอดความพูด

    ในการใช้ครั้งแรก โมเดล Whisper (~150 MB) จะดาวน์โหลดไปยังแคชเบราว์เซอร์ของคุณ การรันครั้งต่อมาใช้รุ่นแคชและทำงานออฟไลน์ การถอดความพูดประมวลผลในชิ้นขนาด 30 วินาทีโดยมีการทับซ้อน 5 วินาที เพื่อให้บริบทมีความสอดคล้องกัน

  5. 05

    ดาวน์โหลดผลลัพธ์ของคุณ

    เมื่อปรากฏการถอดความพูด ดาวน์โหลดเป็นข้อความธรรมชาติ ไฟล์คำบรรยาย SRT หรือไฟล์ WebVTT ทั้งสามสร้างขึ้นจากการถอดความพูดแบบเดียวกัน

สิ่งที่คุณสามารถทำได้กับการถอดความพูดจากวิดีโอ

การถอดความพูดและคำบรรยายปลดล็อกเวิร์กโฟลว์ดั้นน้ำมากมาย

  • 01เพิ่มคำบรรยายปิดไปยังวิดีโอ YouTube หรือ Vimeo เพื่อปรับปรุงการเข้าถึง
  • 02สร้างบันทึกที่ค้นหาได้จากการบรรยาย การสัมมนาทางเวบ หรือการบันทึกการฝึกอบรม
  • 03นำไฟล์วิดีโอการสัมภาษณ์กลับมาใช้ใหม่ลงในบล็อกหรือบทความ
  • 04เพิ่มคำบรรยายไว้ในบรรณาธิการวิดีโอโดยใช้ไฟล์ SRT
  • 05สร้างสรุปหรือประเด็นการดำเนินการจากการบันทึกการประชุม
  • 06แปลการถอดความพูดเป็นภาษาอื่นหลังจากดาวน์โหลดข้อความ

Whisper ทำงานบนอุปกรณ์ของคุณ ไม่มีการส่งไปไหน

Handytool ใช้ FFmpeg.wasm เพื่อแยกแทร็กเสียงในพื้นที่ จากนั้นส่งต่อไปยัง Whisper ที่ทำงานในเบราว์เซอร์ของคุณผ่าน WebGPU (ที่มี) หรือ WebAssembly บริสุทธิ์ ไม่มีจุดใดที่ข้อมูลเสียงหรือวิดีโอถูกส่งผ่านเครือข่าย

สิ่งนี้ทำให้เครื่องมือเหมาะสำหรับการบันทึกที่เป็นความลับ การสัมภาษณ์ทางการแพทย์ การรับสัมภาษณ์ทางกฎหมาย การประชุมธุรกิจภายใน เซสชั่นการรักษาซึ่งการอัปโหลดไปยังบริการถอดความพูดบนเมฆนั้นไม่ยอมรับได้

FAQ การถอดความพูดจากวิดีโอ

รูปแบบวิดีโอใดบ้างที่รองรับ

ภาชนะ MP4, MOV, WebM, MKV, M4V และ AVI ขนาดสูงสุด 500 MB เคอร์เนลเสียงทั่วไปภายในภาชนะเหล่านั้น (AAC, MP3, Opus, Vorbis) ทั้งหมดทำงาน

ภาษาใดที่สามารถถอดความพูดได้

ทั้ง 99 ภาษาที่ Whisper รองรับ รวมถึง English, Spanish, Mandarin, French, Arabic, Hindi, German, Russian, Portuguese และ Japanese การถอดความพูดยังคงเป็นภาษาที่พูด

ฉันสามารถสร้างคำบรรยายสำหรับ YouTube ได้หรือไม่

ใช่ หลังจากถอดความพูด ดาวน์โหลดไฟล์ SRT หรือ VTT และอัปโหลดโดยตรงในบรรณาธิการคำบรรยาย YouTube Studio

วิดีโอสามารถเป็นเนื้อหาความยาวเท่าไหร่

ยอมรับไฟล์ขนาดสูงสุด 500 MB การบันทึกแบบยาวจะแบ่งออกเป็นชิ้นขนาด 30 วินาทีโดยมีการทับซ้อน 5 วินาที ดังนั้นการถอดความพูดจึงมีความเท่าเทียมกันทั่วทั้งวิดีโอ

วิดีโออัปโหลดไปยังเซิร์ฟเวอร์หรือไม่

ไม่ FFmpeg.wasm และโมเดล Whisper ทั้งคู่ทำงานในเบราว์เซอร์ของคุณ ไม่มีการอัปโหลดในขั้นตอนใด

ใช้งานได้ออฟไลน์หรือไม่

หลังจากการรันครั้งแรก โมเดล Whisper จะแคชในเบราว์เซอร์ของคุณ การถอดความพูดครั้งต่อมาทำงานออฟไลน์ทั้งหมด คุณต้องการการเชื่อมต่อระบบอินเทอร์เน็ตเฉพาะในครั้งแรก

เครื่องมือที่เกี่ยวข้อง

ทำงานต่อด้วยเครื่องมือวิดีโอ

เครื่องมือวิดีโอ