Handytool
Ljudguide5 min läsningUppdaterad 30 mars 2026

AI-röstöverenskommelse

Dra ren röst ur bullriga inspelningar — privat, i din webbläsare.

Handytool:s röstisolerator staplar flerpassig RNNoise-avbrusning med en röstaktivitetsgrind för att strippa musik, folkbrus och rumljud från vilken MP3-, WAV- eller M4A-fil som helst.

Viktiga punkter

  • 01Tvåstegs-pipeline: flerpassig neural avbrusning plus en röstaktivitetsgrind som tystnar icke-talrutor.
  • 02Kontroller för isoleringstyrka och antal passar låter dig justera mellan naturligt ljudande och hårt isolering.
  • 03Fungerar bäst när rösten är högre än bakgrundsmusiken eller folkbruset.
  • 04Resultatet är en 48 kHz mono WAV; inget laddas upp till någon server.

När du behöver mer än brusreducering

Standard brusreducering hanterar stadigt bakgrundsvissling och brum. Men vad sägs om en podcastgäst inspelad i ett fullt kafé, ett samtal gjort över en musikbotten eller ett tal filmat på en tumultuös händelse? När bakgrunden är högljudd, varierande eller musikalisk räcker inte ett enda avbruspas — du behöver ett system som också kan identifiera vilka delar av ljudet som är tal och tystas allt annat.

Handytool:s röstisolerator kör en tvåstegs-pipeline: flera pass av RNNoise neural avbrusning för att stramare brusgolvet, följt av en röstaktivitets-driven grind som undertrycker ramverk modellen identifierar som icke-tal. Resultatet är ett spår där tystnad ersätter bakgrunden mellan fraser, snarare än en tystare version av originalbruset. Hela processen körs lokalt i din webbläsare — ingen uppladdning, inget konto krävs.

Hur du isolerar en röst från bakgrundsbrus

  1. 01

    Släpp din ljudfil

    Dra en MP3-, WAV-, M4A-, OGG- eller FLAC-fil till verktyget. Upp till 200 MB accepteras.

  2. 02

    Ställ isoleringstyrka

    Styrka styr hur aggressivt icke-röstrutor är grindade. Börja på 70–80 för podcasts eller samtal; skjut till 90–100 för att strippa en musikbotten eller folkbrus.

  3. 03

    Välj antalet pass

    Varje ytterligare neural avbrusningspass stramare brusgolvet. Ett pass fungerar för lättare bullriga inspelningar; två eller tre pass förbättrar resultaten när bakgrundsbrus är högt eller blandat.

  4. 04

    Klicka på Isolera och ladda ned

    Pipeline körs lokalt i din webbläsare. När det är klart laddar du ned den isolerade rösten som en 48 kHz mono WAV.

Inspelningar som gagnas mest av röstöverenskommelse

  • 01Podcastgäster inspelade i kaféer eller restauranger
  • 02Samtal filmade på konferenser eller evenemang med folkbrus
  • 03Tal eller presentationer med en musikbotten underneath
  • 04Fältinspelningar från utomhus med vind och trafik
  • 05Telefon- eller videosamptalsinspelningar med bullriga miljöer på en ände

Ditt ljud bearbetas lokalt, inte på en server

Isolerings-pipeline är en 125 KB WebAssembly-modul som läses in en gång i din webbläsare. När du släpper in en fil avkodas och bearbetas den helt på din egen maskin. Inget ljud strömmas till en server, inget konto skapas och inget behålls efter att du stänger fliken.

Bearbetningstiden beror på antalet pass och fillängd. Två pass på en 10-minuters fil tar ungefär två till tre minuter på en modern bärbar dator. Filer upp till 200 MB accepteras.

Röstisolerator FAQ

Hur tar jag bort bakgrundsmusik från en röstinspelning?

Släpp din fil i Röstisolerator, ställ styrka på 90–100, välj två eller tre pass och klicka på Isolera. Grinden tystnar icke-talrutor; avbrusaren drar ner musik som blöder under ord.

Hur skiljer sig detta från Röstförbättring?

Röstförbättring gör ett enda avbruspas för en naturligt känslande rengöring av stadigt brus. Röstisolerator staplar flera pass och lägger till en röstaktivitetsgrind som tystnar vad som helst utanför tal — bättre för musik, folkmassor och varierande brus.

Vad gör isoleringstyrkagliden?

Det ställer in hur aggressivt icke-röstrutor är försvagade. Vid 0 är grinden lös; vid 100 allt modellen inte är säker är röst går till tystnad. 70–80 är en bra utgångspunkt för podcasts, 90–100 för musik- eller folkborttagning.

Laddas mitt ljud upp till en server?

Nej. Pipeline är en WebAssembly-modul som körs lokalt på din CPU. Inget lämnar din dator.

Vilket utmatningsformat får jag?

En mono 48 kHz WAV i 16-bitars PCM. Använd Convert audio-verktyget för att exportera som MP3 om du behöver en mindre fil.

Hur lång kan inspelningen vara?

Upp till 200 MB. Två pass bearbetar ungefär 3–5 gånger realtid på en modern bärbar dator, så en 10-minuters inspelning isoleras på två till tre minuter.

Relaterade verktyg

Fortsätt arbeta med Ljud-verktyg

Ljud-verktyg