AI 미세 조정 하이퍼 파라미터 설명

AI 2024. 5. 2. 03:02

AI 미세 조정 하이퍼 파라미터 설명
fine tune hyperparameter, 인공지능 파인튜닝

* epoch : 전체 데이터 훈련 반복 횟수
범위 : 1-10 사이값, 기본값 : 3

* batch size : 한번(1 step) 에 훈련할 예제 수,
범위 : 1 ~ 64 사이값 : 기본 16, (OpenAI는 1 이 기본)
일반적으로 mini-batch gradient descent 사용
값이 클수록 훈련속도가 높아짐(비례)
작을수록 자주 업데이트 되지만 일반화(분산)이 커짐
클수록 훈련이 빨라짐, 일반화(Generalization)가 약해지고, 과적합(overfitting)이 심해짐

- 과적합(overfitting): 제한된 샘플이나 학습 데이터에 지나치게 특화되어, 새로운 샘플에 대한 예측 결과가 오히려 나빠지거나 학습의 효과가 나타나지 않는 경우

* learning rate : 학습률(학습속도)
범위 : 0.0001 ~ 0.01 사이값 : 기본값 0.001

경사하강법(gradient descent algorithm)으로 최적점에 도달하는 단계 크기
값이 클수록 훈련속도가 높아짐(비례)
학습률이 클수록 빨리 진행되지만, 빨리 발산하기 시작하고, 최적의 솔루션에 도달하지 못할 수 있습니다.
학습률이 낮을 수록 최적값에 도달하는 데 시간이 오래 걸림

* learning rate multiplier
범위 : 0.1~10 사이값 , 기본값 : 2
learning rate 의 배수값

* LoRA Rank
https://www.entrypointai.com/blog/lora-fine-tuning/

범위 : 4~16 사이값 , 기본 : 8
값 높을 수록 정밀해짐, 8이상이면 거의 비슷한 결과

LoRA(Low-Rank Adaptation) : Huggingface의 PEFT(Parameter-Efficient Fine-Tuning) 기술
"어댑터"는 기본 모델에 추가될 때 미세 조정된 모델을 생성하는 낮은 순위 행렬의 모음

대형 모델에 대해서 소수의 새로운 파라미터만을 추가하고 조정하는 방식

QLoRA(Quantized Low Rank Adapters) : 16bit를 4bit로 압축했다가 복원, 품질 열화가 거의 없음

//-------------------------------------
< 참고 >
https://www.baeldung.com/cs/learning-rate-batch-size
https://medium.com/geekculture/how-does-batch-size-impact-your-model-learning-2dd34d9fb1fa

저작자표시 (새창열림)

'AI' 카테고리의 다른 글

구글, 프롬프트 엔지니어링 매뉴얼(pdf 한글 번역) (0)	2024.05.25
OpenAI Team 계정 사용법(workspace 사용자 추가 삭제 방법) (0)	2024.05.23
AI 모델의 버전별 출시일 (0)	2024.05.01
리눅스(WSL Ubuntu)에서 CUDA, cuDNN 설치하는 방법 (0)	2024.04.30
음성 합성 AI - OpenVoice 사용법 (0)	2024.04.30

Posted by codens

코드루덴스

AI 미세 조정 하이퍼 파라미터 설명

'AI' 카테고리의 다른 글

카테고리

최근에 올라온 글

최근에 달린 댓글

태그목록

티스토리툴바


	by codens