Những điểm chính
- 01Whisper AI chạy bên trong trình duyệt của bạn — video của bạn không bao giờ được tải lên bất kỳ máy chủ nào.
- 02Hỗ trợ 99 ngôn ngữ với phát hiện ngôn ngữ tự động.
- 03Xuất ra văn bản thuần, tệp phụ đề SRT và WebVTT để sử dụng trực tiếp trong trình chỉnh sửa và YouTube.
- 04Sau lần chạy đầu tiên, mô hình được lưu trong bộ nhớ cache và phiên âm hoạt động ngoại tuyến.
Tại Sao Phiên Âm Video Trong Trình Duyệt Của Bạn?
Phiên âm phỏng vấn, bài giảng, bản ghi Zoom hoặc video YouTube trước đây có nghĩa là nhập nó theo cách thủ công hoặc gửi tệp tới dịch vụ đám mây. Các dịch vụ đám mây nhanh nhưng có thị tham nhân thực sự — bạn đang tải lên âm thanh có khả năng nhạy cảm lên máy chủ của bên thứ ba. Handytool thực hiện một cách tiếp cận khác: nó tải xuống mô hình Whisper nguồn mở của OpenAI một lần, sau đó chạy nó hoàn toàn trên thiết bị của bạn bằng WebGPU hoặc WebAssembly.
Kết quả là phiên âm chất lượng AI tương tự mà bạn sẽ nhận được từ dịch vụ đám mây, nhưng tệp video và âm thanh của bạn vẫn hoàn toàn riêng tư. Lần chạy đầu tiên tải xuống mô hình (khoảng 150 MB), nhưng sau đó, công cụ hoạt động hoàn toàn ngoại tuyến.
Cách Phiên Âm Video
Thả tệp video và nhận bản phiên âm trong vài phút.
- 01
Mở công cụ phiên âm
Đi tới công cụ Transcribe Video trên Handytool. Không cần tài khoản.
- 02
Thêm tệp video của bạn
Thả tệp MP4, MOV, WebM, MKV, M4V hoặc AVI có dung lượng lên đến 500 MB. Âm thanh được trích xuất cục bộ bằng FFmpeg.wasm — không có gì được tải lên.
- 03
Chọn ngôn ngữ (tùy chọn)
Whisper tự động phát hiện ngôn ngữ nói cho hầu hết các bản ghi. Nếu video của bạn có giọng nói nặng hoặc ở ngôn ngữ ít phổ biến hơn, chọn thủ công ngôn ngữ sẽ cải thiện độ chính xác.
- 04
Nhấp vào Phiên Âm
Lần sử dụng đầu tiên, mô hình Whisper (~150 MB) tải xuống vào bộ nhớ cache trình duyệt. Các lần chạy tiếp theo sử dụng mô hình được lưu trong bộ nhớ cache và hoạt động ngoại tuyến. Phiên âm xử lý trong các khối 30 giây với tính chồng lấp để giữ bối cảnh liên kết.
- 05
Tải xuống đầu ra của bạn
Khi bản phiên âm xuất hiện, tải xuống dưới dạng văn bản thuần, tệp phụ đề SRT hoặc tệp WebVTT. Cả ba đều được tạo từ cùng một lần chạy phiên âm.
Những Gì Bạn Có Thể Làm Với Bản Phiên Âm Video
Bản phiên âm và phụ đề mở khóa nhiều quy trình làm việc hạ lưu.
- 01Thêm chú thích đóng vào video YouTube hoặc Vimeo để cải thiện khả năng tiếp cận.
- 02Tạo ghi chú có thể tìm kiếm từ bài giảng, hội thảo trên web hoặc bản ghi đào tạo.
- 03Tái sử dụng cảnh quay phỏng vấn thành bài đăng trên blog hoặc bài viết.
- 04Thêm phụ đề đốt cháy trong trình chỉnh sửa video bằng tệp SRT.
- 05Tạo tóm tắt hoặc mục d action từ bản ghi họp.
- 06Dịch bản phiên âm sang ngôn ngữ khác sau khi tải xuống văn bản.
Whisper Chạy Trên Thiết Bị Của Bạn — Không Có Gì Được Truyền
Handytool sử dụng FFmpeg.wasm để trích xuất track âm thanh cục bộ, sau đó chuyển nó sang Whisper chạy trong trình duyệt của bạn qua WebGPU (nếu có sẵn) hoặc WebAssembly thuần. Tại không có thời điểm nào dữ liệu âm thanh hoặc video được gửi qua mạng.
Điều này làm cho công cụ phù hợp cho các bản ghi bảo mật — phỏng vấn y tế, chứng thực pháp lý, cuộc họp kinh doanh nội bộ, phiên trị liệu — nơi tải lên dịch vụ phiên âm đám mây không phải là chấp nhận được.
Câu Hỏi Thường Gặp Phiên Âm Video
Những định dạng video nào được hỗ trợ?
Container MP4, MOV, WebM, MKV, M4V và AVI lên đến 500 MB. Các codec âm thanh phổ biến bên trong các container đó (AAC, MP3, Opus, Vorbis) đều hoạt động.
Nó có thể phiên âm bao nhiêu ngôn ngữ?
Tất cả 99 ngôn ngữ Whisper hỗ trợ, bao gồm Tiếng Anh, Tây Ban Nha, Trung Quốc Phổ Thông, Pháp, Ả Rập, Hindi, Đức, Nga, Bồ Đào Nha và Nhật Bản. Bản phiên âm vẫn ở ngôn ngữ nói.
Tôi có thể tạo phụ đề cho YouTube không?
Có. Sau khi phiên âm, tải xuống tệp SRT hoặc VTT và tải lên trực tiếp trong trình chỉnh sửa chú thích của YouTube Studio.
Video có thể dài bao lâu?
Các tệp lên đến 500 MB được chấp nhận. Các bản ghi dài được chia thành các khối 30 giây với tính chồng lấp 5 giây, vì vậy bản phiên âm vẫn liên kết trên toàn bộ video.
Video được tải lên máy chủ không?
Không. Cả FFmpeg.wasm và mô hình Whisper chạy cục bộ trong trình duyệt của bạn. Không có gì được tải lên ở bất kỳ giai đoạn nào.
Nó có hoạt động ngoại tuyến không?
Sau lần chạy đầu tiên, mô hình Whisper được lưu trong bộ nhớ cache của trình duyệt. Các phiên âm tiếp theo hoạt động hoàn toàn ngoại tuyến — bạn chỉ cần kết nối Internet lần đầu tiên.