핵심 요점
- 012단계 파이프라인: 다중 통과 신경망 데노이징과 비음성 프레임을 침묵시키는 음성 활동 게이트.
- 02분리 강도 및 통과 수 제어를 사용하면 자연스러운 소리와 강한 분리 사이에서 조정할 수 있습니다.
- 03음성이 배경 음악이나 군중음보다 클 때 가장 잘 작동합니다.
- 04출력은 48kHz 모노 WAV입니다. 아무것도 서버에 업로드되지 않습니다.
노이즈 감소 이상이 필요한 경우
표준 노이즈 감소는 일정한 배경 히스와 윙윙거림을 처리합니다. 하지만 바쁜 카페에서 녹음된 팟캐스트 손님, 음악 침대로 진행되는 인터뷰, 붐비는 이벤트에서 촬영된 연설은 어떻게 됩니까? 배경이 시끄럽고, 다양하거나 음악적일 때, 단일 데노이즈 통과로는 충분하지 않습니다. 오디오의 어느 부분이 음성인지 식별하고 다른 모든 것을 침묵시킬 수 있는 시스템이 필요합니다.
Handytool의 음성 분리기는 2단계 파이프라인을 실행합니다. 여러 RNNoise 신경망 데노이징 통과로 노이즈 플로어를 조이고, 모델이 비음성으로 식별하는 프레임을 억제하는 음성 활동 구동 게이트가 뒤따릅니다. 결과는 구절 사이의 배경을 침묵으로 교체하는 트랙이지, 원본 노이즈의 더 조용한 버전이 아닙니다. 전체 프로세스는 브라우저에서 로컬로 실행됩니다. 업로드, 계정 필요 없음.
배경 소음에서 음성을 분리하는 방법
- 01
오디오 파일 드롭
MP3, WAV, M4A, OGG 또는 FLAC 파일을 도구에 드래그합니다. 최대 200MB가 허용됩니다.
- 02
분리 강도 설정
강도는 비음성 프레임이 게이트되는 정도를 제어합니다. 팟캐스트나 인터뷰의 경우 70-80으로 시작합니다. 음악 침대나 군중음을 제거하려면 90-100으로 푸시합니다.
- 03
통과 수 선택
신경망 데노이징의 각 추가 통과는 노이즈 플로어를 조입니다. 한 통과는 약간 시끄러운 녹음에 작동합니다. 배경 노이즈가 크거나 혼합되었을 때 2-3 통과로 결과가 개선됩니다.
- 04
분리를 클릭하고 다운로드
파이프라인은 브라우저에서 로컬로 실행됩니다. 완료되면 분리된 음성을 48kHz 모노 WAV로 다운로드합니다.
음성 분리에서 가장 이점이 있는 녹음
- 01카페나 식당에서 녹음된 팟캐스트 손님
- 02컨퍼런스 또는 군중음이 있는 이벤트에서 촬영된 인터뷰
- 03음악 침대가 아래에 있는 연설이나 프레젠테이션
- 04바람과 교통음이 있는 야외 현장 녹음
- 05한쪽 끝에 시끄러운 환경이 있는 전화 또는 화상 통화 녹음
오디오가 로컬로 처리되고, 서버에서는 아님
분리 파이프라인은 브라우저에 한 번 로드되는 125KB WebAssembly 모듈입니다. 파일을 드롭하면 자신의 기계에서 완전히 디코딩되고 처리됩니다. 오디오가 서버로 스트리밍되지 않고, 계정이 생성되지 않으며, 탭을 닫은 후 아무것도 유지되지 않습니다.
처리 시간은 통과 수와 파일 길이에 따라 다릅니다. 최신 노트북에서 10분 파일에서 2통과는 대략 2-3분 정도 걸립니다. 최대 200MB 파일이 허용됩니다.
음성 분리기 FAQ
음성 녹음에서 배경 음악을 제거하는 방법은?
음성 분리기에 파일을 드롭하고, 강도를 90-100으로 설정하고, 2-3 통과를 선택한 후 분리를 클릭합니다. 게이트는 비음성 프레임을 침묵시킵니다. 데노이저는 단어 중에 출혈하는 음악을 당깁니다.
이것이 음성 향상기와 어떻게 다릅니까?
음성 향상기는 일정한 노이즈를 자연스럽게 정리하기 위해 단일 데노이즈 통과를 합니다. 음성 분리기는 여러 통과를 쌓고 음성 활동 게이트를 추가하여 음성 외의 모든 것을 침묵시킵니다. 음악, 군중음, 다양한 노이즈에 더 좋습니다.
분리 강도 슬라이더는 무엇을 합니까?
비음성 프레임이 감소하는 방정식을 설정합니다. 0에서 게이트는 느슨합니다. 100에서 모델이 음성에 확실하지 않은 모든 것이 침묵으로 갑니다. 팟캐스트의 경우 70-80이 좋은 시작점, 음악이나 군중 제거의 경우 90-100입니다.
내 오디오가 서버에 업로드됩니까?
아니오. 파이프라인은 CPU에서 로컬로 실행되는 WebAssembly 모듈입니다. 아무것도 컴퓨터를 떠나지 않습니다.
어떤 출력 형식을 받습니까?
16비트 PCM의 모노 48kHz WAV. 더 작은 파일이 필요하면 변환 오디오 도구를 사용하여 MP3로 내보냅니다.
녹음은 얼마나 길 수 있습니까?
최대 200MB. 2통과는 최신 노트북에서 대략 3-5배 실시간으로 처리됩니다. 10분 녹음은 2-3분 안에 분리됩니다.