- 음성인식(speech recognition), transscript, dictation, 오디오 파일 받아쓰기 오픈소스 무료 프로그램

https://openai.com/blog/whisper/

https://github.com/openai/whisper

//-------------------------------------
* 설치
pip install -U openai-whisper

    - 다른 설치 방법
pip install git+https://github.com/openai/whisper.git 

    - 업그레이드
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git


    - ffmpeg 설치 필요
choco install ffmpeg

    - rust 설치
pip install setuptools-rust


//-------------------------------------
모델 종류
https://github.com/openai/whisper/blob/main/model-card.md

tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large(=large-v2),  (large-v1 <== old)

자동다운로드되는 경로 : C:\Users\<username>\.cache\whisper\<model>.

//-------------------------------------
    - gpu 사용 방법
        - torch 설치
https://github.com/openai/whisper/discussions/47
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117

    --device cuda 옵션 사용


//-------------------------------------
* 사용
whisper --model medium.en --language en  --device cuda "AUDIO.mp3"

    - CPU 사용시  --device cuda 옵션 생략


    - 속도 : 8초 오디오 인식 시간
        - CPU (5950x) : 45초
        - GPU (RTX 4080) : 13초

 

반응형
Posted by codens

댓글을 달아 주세요