Real-Time Voice Cloning
https://github.com/CorentinJ/Real-Time-Voice-Cloning - 59.3k
- 2025-12

 

-------------------------------------------------------------------------------

생성된 품질이 낮아서 사용이 불가능한 수준


-------------------------------------------------------------------------------
git clone https://github.com/CorentinJ/Real-Time-Voice-Cloning
cd Real-Time-Voice-Cloning

     - uv 설치 (Python 패키지 관리자, 자동 가상환경 생성)
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

     - 실행
uv run --extra cuda demo_toolbox.py

---------------------------------------
< 음성 복제 작업 >
     - 샘플 음성 불러오기
Use embedding from: Browse 버튼 선택


     - 원하는 글자 입력
Synthesize and vocode 버튼 위에 위치한 입력란

     - Synthesize and vocode 버튼 선택
영어만 가능
결과 품질은 매우 낮음(실제 사용 힘듬)

output1.7z
0.08MB


---------------------------------------
< 에러 해결 >

* CorentinJ/SV2TTS 모델 다운로드 에러시
https://huggingface.co/CorentinJ/SV2TTS/tree/main
 encoder.pt, synthesizer.pt, vocoder.pt 3개 파일을 다운로드 해서 saved_models/default/ 로 복사
 
 
---------------------------------------
* (옵션) Dataset을 다운로드해서 사용하는 방법
     - Dataset 다운로드 (미리 녹음된 음성 파일들)
https://www.openslr.org/resources/12/train-clean-100.tar.gz (6GB)

     - datasets 폴더에 압축을 푼다.
압축을 푼후 상태 : datasets/LibriSpeech/train-clean-100

     - dataset 폴더를 지정해서 실행
uv run --extra cuda demo_toolbox.py --datasets_root datasets

    - Dataset 항목에서 선택하여 사용

 

반응형
Posted by codens


반응형