- 음성인식(speech recognition), transscript, dictation, 오디오 파일 받아쓰기 오픈소스 무료 프로그램

https://openai.com/blog/whisper/

https://github.com/openai/whisper

//-------------------------------------
* 설치
> pip install -U openai-whisper

    - 다른 설치 방법
> pip install git+https://github.com/openai/whisper.git 

    - 업그레이드
> pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git


    - ffmpeg 설치 필요
> choco install ffmpeg

    - rust 설치
> pip install setuptools-rust


//-------------------------------------
모델 종류
https://github.com/openai/whisper/blob/main/model-card.md

tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large(=large-v2),  (large-v1 <== old)

자동다운로드되는 경로 : C:\Users\<username>\.cache\whisper\<model>.

//-------------------------------------
    - gpu 사용 방법
        - torch 설치
https://github.com/openai/whisper/discussions/47
> pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118

    --device cuda 옵션 사용


//-------------------------------------
* 사용
> whisper --model medium.en --language en  --device cuda "오디오파일이름(확장명포함)"

    - CPU 사용시  --device cuda 옵션 생략


    - 속도 : 8초 오디오 인식 시간
        - CPU (5950x) : 45초
        - GPU (RTX 4080) : 15초

//-------------------------------------

// 걸린시간 (RTX 4080 GPU 사용시, 영어 인터뷰 오디오 기준)

프로그램 로딩 시간 : 13~15초

오디오
길이()
총 걸린
시간()
순 분석
시간()
1 23 10
2 33 20
5 70 57
10 135 122

 

//

 

반응형
Posted by codens