- 음성인식(speech recognition), transscript, dictation, 오디오 파일 받아쓰기 오픈소스 무료 프로그램
https://openai.com/blog/whisper/
https://github.com/openai/whisper
//-------------------------------------
* 설치
pip install -U openai-whisper
- 다른 설치 방법
pip install git+https://github.com/openai/whisper.git
- 업그레이드
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
- ffmpeg 설치 필요
choco install ffmpeg
- rust 설치
pip install setuptools-rust
//-------------------------------------
모델 종류
https://github.com/openai/whisper/blob/main/model-card.md
tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large(=large-v2), (large-v1 <== old)
자동다운로드되는 경로 : C:\Users\<username>\.cache\whisper\<model>.
//-------------------------------------
- gpu 사용 방법
- torch 설치
https://github.com/openai/whisper/discussions/47
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
--device cuda 옵션 사용
//-------------------------------------
* 사용
whisper --model medium.en --language en --device cuda "AUDIO.mp3"
- CPU 사용시 --device cuda 옵션 생략
- 속도 : 8초 오디오 인식 시간
- CPU (5950x) : 45초
- GPU (RTX 4080) : 13초
'AI' 카테고리의 다른 글
GPT-J 사용법 (0) | 2023.03.03 |
---|---|
[AI 음악] Riffusion 사용법 (0) | 2023.02.26 |
Nvidia GPU 코어 클럭이 일정 이상 올라가지 않는 문제 해결 방법 (0) | 2023.02.03 |
Stable Diffusion web UI 사용법, 에러 해결 방법 (0) | 2022.11.10 |
자연어 처리(NLP ) 역사 (0) | 2022.07.24 |
댓글을 달아 주세요