AI 미세 조정 하이퍼 파라미터 설명
fine tune hyperparameter, 인공지능 파인튜닝 


epoch : 전체 데이터 훈련 반복 횟수
범위 : 1-10 사이값, 기본값 : 3


batch size : 한번(1 step) 에 훈련할 예제 수, 
범위 : 1 ~ 64 사이값 : 기본 16, (OpenAI는 1 이 기본)
일반적으로 mini-batch gradient descent 사용
값이 클수록 훈련속도가 높아짐(비례)
작을수록 자주 업데이트 되지만 일반화(분산)이 커짐
클수록 훈련이 빨라짐, 일반화(Generalization)가 약해지고, 과적합(overfitting)이 심해짐

- 과적합(overfitting):  제한된 샘플이나 학습 데이터에 지나치게 특화되어, 새로운 샘플에 대한 예측 결과가 오히려 나빠지거나 학습의 효과가 나타나지 않는 경우


learning rate : 학습률(학습속도)
범위 : 0.0001 ~ 0.01 사이값 : 기본값 0.001 

경사하강법(gradient descent algorithm)으로 최적점에 도달하는 단계 크기
값이 클수록 훈련속도가 높아짐(비례)
학습률이 클수록 빨리 진행되지만, 빨리 발산하기 시작하고, 최적의 솔루션에 도달하지 못할 수 있습니다. 
학습률이 낮을 수록 최적값에 도달하는 데 시간이 오래 걸림


learning rate multiplier 
범위 : 0.1~10 사이값 , 기본값 : 2
learning rate 의 배수값


LoRA Rank
https://www.entrypointai.com/blog/lora-fine-tuning/

범위 : 4~16 사이값 , 기본 : 8
값 높을 수록 정밀해짐, 8이상이면 거의 비슷한 결과

LoRA(Low-Rank Adaptation) : Huggingface의  PEFT(Parameter-Efficient Fine-Tuning)  기술
"어댑터"는 기본 모델에 추가될 때 미세 조정된 모델을 생성하는 낮은 순위 행렬의 모음

대형 모델에 대해서 소수의 새로운 파라미터만을 추가하고 조정하는 방식

QLoRA(Quantized Low Rank Adapters) : 16bit를 4bit로 압축했다가 복원, 품질 열화가 거의 없음



//-------------------------------------
< 참고 >
https://www.baeldung.com/cs/learning-rate-batch-size
https://medium.com/geekculture/how-does-batch-size-impact-your-model-learning-2dd34d9fb1fa

 

 

반응형
Posted by codens