मुख्य बिंदु
- 01दो-चरण पाइपलाइन: मल्टी-पास न्यूरल डिनॉइज़िंग साथ ही एक वॉइस-एक्टिविटी गेट जो गैर-स्पीच फ्रेम को मौन करता है।
- 02अलगाव शक्ति और पास की संख्या के लिए नियंत्रण आपको प्राकृतिक-सुनने वाले और कठोर अलगाव के बीच ट्यून करने देते हैं।
- 03सर्वोत्तम कार्य करता है जब वॉइस बैकग्राउंड संगीत या भीड़ की शोर से तेज हो।
- 04आउटपुट 48 kHz मोनो WAV है; कोई भी सर्वर पर अपलोड नहीं किया जाता।
जब आपको नॉइज़ में कमी से अधिक की आवश्यकता हो
मानक नॉइज़ में कमी स्थिर पृष्ठभूमि हिस और गूंज को संभालता है। लेकिन एक व्यस्त कैफे में दर्ज पॉडकास्ट अतिथि, संगीत बिस्तर पर किया गया साक्षात्कार, या एक भीड़ वाले इवेंट में फिल्माया गया भाषण के बारे में क्या? जब बैकग्राउंड जोरदार, विविध या संगीतमय हो, तो एक एकल डिनॉइज़ पास पर्याप्त नहीं है - आपको एक ऐसी प्रणाली की आवश्यकता है जो यह भी पहचान सके कि ऑडियो का कौन सा हिस्सा भाषण है और बाकी सब कुछ को मौन करता है।
Handytool का वॉइस आइसोलेटर एक दो-चरण पाइपलाइन चलाता है: शोर मंजिल को कसने के लिए RNNoise न्यूरल डिनॉइज़िंग के कई पास, इसके बाद एक वॉइस-एक्टिविटी-चालित गेट जो फ्रेम को दबाता है जो मॉडल गैर-भाषण के रूप में पहचानता है। परिणाम एक ट्रैक है जहां मौन वाक्यांशों के बीच बैकग्राउंड को बदलता है, न कि मूल शोर का एक शांत संस्करण। पूरी प्रक्रिया आपके ब्राउज़र में स्थानीय रूप से चलता है - कोई अपलोड नहीं, कोई खाता आवश्यक नहीं।
बैकग्राउंड शोर से वॉइस कैसे अलग करें
- 01
अपनी ऑडियो फाइल डालें
MP3, WAV, M4A, OGG या FLAC फाइल को टूल में खींचें। 200 MB तक स्वीकार किया जाता है।
- 02
अलगाव शक्ति सेट करें
शक्ति नियंत्रित करता है कि गैर-वॉइस फ्रेम कितने आक्रामक रूप से गेट किए जाते हैं। पॉडकास्ट या साक्षात्कार के लिए 70-80 से शुरू करें; संगीत बिस्तर या भीड़ की शोर को हटाने के लिए 90-100 तक धक्का दें।
- 03
पास की संख्या चुनें
न्यूरल डिनॉइज़िंग का प्रत्येक अतिरिक्त पास शोर मंजिल को कसता है। हल्के शोरगुल वाली रिकॉर्डिंग के लिए एक पास काम करता है; दो या तीन पास उस समय परिणाम को सुधारते हैं जब बैकग्राउंड शोर जोरदार या मिश्रित हो।
- 04
आइसोलेट पर क्लिक करें और डाउनलोड करें
पाइपलाइन आपके ब्राउज़र में स्थानीय रूप से चलता है। जब यह समाप्त हो जाता है, तो अलग किए गए वॉइस को 48 kHz मोनो WAV के रूप में डाउनलोड करें।
रिकॉर्डिंग जो सबसे अधिक वॉइस अलगाव से लाभान्वित होती है
- 01कैफे या रेस्तरां में दर्ज पॉडकास्ट अतिथि
- 02सम्मेलन या इवेंट में भीड़ की शोर के साथ फिल्माए गए साक्षात्कार
- 03अंतर्निहित संगीत बिस्तर के साथ भाषण या प्रस्तुतियां
- 04हवा और ट्रैफिक के साथ बाहर के फील्ड रिकॉर्डिंग
- 05एक ओर शोरगुल वाले वातावरण के साथ फोन या वीडियो कॉल रिकॉर्डिंग
आपकी ऑडियो स्थानीय रूप से प्रोसेस की जाती है, सर्वर पर नहीं
अलगाव पाइपलाइन एक 125 KB WebAssembly मॉड्यूल है जो एक बार आपके ब्राउज़र में लोड होता है। जब आप एक फाइल डालते हैं, तो इसे डिकोड किया जाता है और पूरी तरह से आपकी मशीन पर प्रोसेस किया जाता है। कोई ऑडियो सर्वर पर स्ट्रीम नहीं किया जाता है, कोई खाता नहीं बनाया जाता है, और आप टैब को बंद करने के बाद कुछ भी नहीं रखा जाता है।
प्रोसेसिंग समय पास की संख्या और फाइल लंबाई पर निर्भर करता है। एक आधुनिक लैपटॉप पर 10-मिनट की फाइल पर दो पास लगभग दो से तीन मिनट लगते हैं। 200 MB तक की फाइलें स्वीकार की जाती हैं।
वॉइस आइसोलेटर FAQ
मैं वॉइस रिकॉर्डिंग से बैकग्राउंड संगीत कैसे हटाऊं?
अपनी फाइल को वॉइस आइसोलेटर में डालें, शक्ति को 90-100 पर सेट करें, दो या तीन पास चुनें, और आइसोलेट पर क्लिक करें। गेट गैर-स्पीच फ्रेम को मौन करता है; डिनॉइज़र शब्दों के दौरान ब्लीडिंग संगीत को खींचता है।
यह वॉइस एनहांसर से कैसे अलग है?
वॉइस एनहांसर स्थिर नॉइज़ की स्वाभाविक सफाई के लिए एक एकल डिनॉइज़ पास करता है। वॉइस आइसोलेटर कई पास को ढेर करता है और एक वॉइस-एक्टिविटी गेट जोड़ता है जो भाषण के बाहर किसी भी चीज़ को मौन करता है - संगीत, भीड़ और विविध शोर के लिए बेहतर।
अलगाव शक्ति स्लाइडर क्या करता है?
यह नियंत्रित करता है कि गैर-वॉइस फ्रेम कितने आक्रामक रूप से कम हैं। 0 पर गेट ढीला है; 100 पर जो कुछ भी मॉडल को आत्मविश्वास नहीं है वह वॉइस है मौन में चला जाता है। पॉडकास्ट के लिए 70-80 एक अच्छा प्रारंभिक बिंदु है, संगीत या भीड़ हटाने के लिए 90-100।
क्या मेरी ऑडियो किसी सर्वर पर अपलोड की जाती है?
नहीं। पाइपलाइन एक WebAssembly मॉड्यूल है जो आपके CPU पर स्थानीय रूप से चलता है। कुछ भी आपके कंप्यूटर से बाहर नहीं जाता।
मुझे कौन सा आउटपुट फॉर्मेट मिलता है?
16-बिट PCM में मोनो 48 kHz WAV। यदि आपको एक छोटी फाइल चाहिए तो MP3 के रूप में निर्यात करने के लिए कन्वर्ट ऑडियो टूल का उपयोग करें।
रिकॉर्डिंग कितनी लंबी हो सकती है?
200 MB तक। दो पास आधुनिक लैपटॉप पर लगभग 3-5 गुना वास्तविक-समय पर प्रोसेस होता है, इसलिए 10-मिनट की रिकॉर्डिंग दो से तीन मिनट में अलग हो जाती है।