오디오 파일을 텍스트로 어떻게 변환하나요?

음성 파일(MP3, WAV, M4A, OGG, FLAC, WebM)을 도구에 드래그하고 "변환"을 클릭하세요. 첫 실행 시 음성 모델(약 150 MB)이 다운로드되고, 그 후에는 완전히 로컬에서 오프라인으로 처리됩니다.

마이크로 녹음할 수 있나요?

네. "음성 녹음"을 클릭하고, 브라우저의 마이크 액세스를 허용한 후 말씀하고, "정지"를 클릭하세요. 캡처된 음성은 업로드된 파일처럼 처리되며 즉시 변환할 수 있습니다.

어떤 언어를 지원하나요?

Whisper가 지원하는 모든 99개 언어——영어, 스페인어, 중국어, 프랑스어, 아랍어, 힌디어, 독일어, 러시아어, 포르투갈어, 일본어 등. 텍스트는 원래 화자 언어로 유지됩니다.

오디오 길이에 제한이 있나요?

최대 200 MB 파일 지원. 긴 녹음은 30초 청크(5초 겹침)로 처리되므로 1시간 팟캐스트도 일관성 있는 텍스트가 생성됩니다. 처리 시간은 브라우저의 WebGPU 지원 여부에 따라 다릅니다.

음성이 서버에 업로드되나요?

아니요. 모델과 음성은 브라우저에 유지됩니다. Whisper 모델은 CDN에서 한 번 가져오고 캐시되며, 변환은 WebGPU 또는 WebAssembly를 사용하여 기기에서 완전히 실행됩니다.

동영상의 자막을 생성할 수 있나요?

네. .srt 또는 .vtt 파일을 다운로드하여 동영상 편집기에 넣거나 YouTube 등 플랫폼에 자막 트랙으로 업로드하세요. 각 자막 줄에는 Whisper가 감지한 타임스탬프 범위가 포함됩니다.

오디오무료로컬에서 실행

오디오를 텍스트로 변환

모든 언어의 음성을 텍스트로 변환합니다. 브라우저에서 완전히 처리됩니다.

.mp3.wav.ogg.m4a.aac.flac.webm.opus

언어

모델 로딩 중…

브라우저에서 완전히 처리됩니다.

여기에 음성 파일을 드래그하세요

MP3 · WAV · OGG · M4A · FLAC · WebM · 최대 200 MB

첫 실행 시 약 150 MB 다운로드; 그 후 캐시됨.

파일 선택

또는

오디오를 텍스트로 변환 소개

오디오 파일을 업로드하거나 마이크에서 직접 녹음하면, 화자가 사용한 언어와 동일한 언어의 텍스트를 얻게 됩니다. 업로드 불필요, 계정 불필요, 앱 설치 불필요. Handytool은 OpenAI의 오픈소스 Whisper 모델을 브라우저에서 직접 실행하며 WebGPU로 가속화되어 팟캐스트, 인터뷰, 음성 메모, 강의, 회의 녹음이 완전히 비공개로 유지됩니다. 결과를 순수 텍스트, SRT 자막 파일 또는 WebVTT 파일로 다운로드할 수 있습니다.

오디오를 텍스트로 변환 기능

01
99개 언어, 자동 감지
Whisper는 화자의 언어를 자동으로 인식하고 그 언어로 텍스트화합니다. 스페인어는 스페인어로, 일본어는 일본어로, 독일어는 독일어로. 언어 선택 불필요, 추가 설정 불필요.
02
파일 업로드 또는 실시간 녹음
MP3, WAV, M4A, OGG, FLAC, WebM 파일을 업로드하거나 "음성 녹음"을 클릭하여 마이크에서 직접 캡처. 중지하면 자동으로 변환이 시작됩니다.
03
비공개, 브라우저 처리
Whisper 모델은 브라우저 캐시에 한 번 다운로드된 후 기기에서 완전히 실행됩니다. WebGPU 지원 시 가속화. 업로드 없음——음성은 절대 컴퓨터를 떠나지 않습니다.

오디오를 텍스트로 변환 자주 묻는 질문

오디오 파일을 텍스트로 어떻게 변환하나요?: 음성 파일(MP3, WAV, M4A, OGG, FLAC, WebM)을 도구에 드래그하고 "변환"을 클릭하세요. 첫 실행 시 음성 모델(약 150 MB)이 다운로드되고, 그 후에는 완전히 로컬에서 오프라인으로 처리됩니다.
마이크로 녹음할 수 있나요?: 네. "음성 녹음"을 클릭하고, 브라우저의 마이크 액세스를 허용한 후 말씀하고, "정지"를 클릭하세요. 캡처된 음성은 업로드된 파일처럼 처리되며 즉시 변환할 수 있습니다.
어떤 언어를 지원하나요?: Whisper가 지원하는 모든 99개 언어——영어, 스페인어, 중국어, 프랑스어, 아랍어, 힌디어, 독일어, 러시아어, 포르투갈어, 일본어 등. 텍스트는 원래 화자 언어로 유지됩니다.
오디오 길이에 제한이 있나요?: 최대 200 MB 파일 지원. 긴 녹음은 30초 청크(5초 겹침)로 처리되므로 1시간 팟캐스트도 일관성 있는 텍스트가 생성됩니다. 처리 시간은 브라우저의 WebGPU 지원 여부에 따라 다릅니다.
음성이 서버에 업로드되나요?: 아니요. 모델과 음성은 브라우저에 유지됩니다. Whisper 모델은 CDN에서 한 번 가져오고 캐시되며, 변환은 WebGPU 또는 WebAssembly를 사용하여 기기에서 완전히 실행됩니다.
동영상의 자막을 생성할 수 있나요?: 네. .srt 또는 .vtt 파일을 다운로드하여 동영상 편집기에 넣거나 YouTube 등 플랫폼에 자막 트랙으로 업로드하세요. 각 자막 줄에는 Whisper가 감지한 타임스탬프 범위가 포함됩니다.

가이드

아티클 →

5분
음성 가이드
온라인에서 음성을 텍스트로 변환하는 방법
브라우저에서 음성 메모, 인터뷰, 녹음을 검색 가능한 텍스트로 변환합니다. 기기 온 음성 인식 포함.
2026년 5월 1일에 업데이트됨읽기

다른 도구 둘러보기

모든 도구 →

오디오를 텍스트로 변환

오디오를 텍스트로 변환 소개

오디오를 텍스트로 변환 기능

99개 언어, 자동 감지

파일 업로드 또는 실시간 녹음

비공개, 브라우저 처리

오디오를 텍스트로 변환 자주 묻는 질문

가이드

온라인에서 음성을 텍스트로 변환하는 방법

관련 도구

음성 강화

음성 분리

오디오 자르기

다른 도구 둘러보기

PDF to PNG

일본 비자 사진 메이커

자막 삽입 도구

JSON 뷰어

맞춤법 검사기