본문 바로가기

AI Tech

"Auto-regressive" and "Teacher Focing" and "Scheduled Sampling"

1. Auto - regressive

Auto-regressive 모델은 시퀀스의 각 단계에서 이전 단계의 출력을 입력으로 사용하여 다음 단계를 예측한다.

 

  • 훈련: 훈련 시에는 실제 목표 출력을 사용하지 않고, 모델이 예측한 출력을 사용한다. 즉, 이전 단계의 예측이 다음 단계의 입력으로 사용된다.
  • 테스트: 훈련과 테스트 단계 모두에서 모델의 예측 결과를 입력으로 사용하여 시퀀스를 생성한다.

 

  • 장점:
    • 훈련과 테스트에서 일관된 방법으로 작동하므로 모델이 실제 사용 상황을 그대로 반영하여 Robust한 모델을 구축할 수 있다.
  • 단점:
    • 훈련 중에 잘못된 예측이 누적되어 결과에 영향을 미칠 수 있다.
    • 모델이 훈련 데이터에 비해 생성된 시퀀스의 품질이 낮을 수 있다.

 

 

2. Teacher Forcing

Teacher forcing은 훈련 시 실제 목표 출력을 모델에 입력으로 제공하는 방법이다. 모델이 예측한 출력을 사용하는 대신, 올바른 출력을 입력으로 사용하여 훈련한다.

 

  • 훈련: 훈련 과정에서 실제 목표 출력을 입력으로 사용하므로, 모델이 잘못된 예측을 학습할 위험이 적다.
  • 테스트: 테스트에서는 모델이 예측한 출력을 입력으로 사용하기에, 훈련과 테스트 간의 조건이 다를 수 있다.
  • 장점:
    • 훈련이 더 안정적이고 빠를 수 있으며, 모델이 올바른 출력을 학습하므로 학습 과정이 효율적이다.
  • 단점:
    • Exposure Bias: 훈련 중에는 항상 정답을 제공하지만, 테스트에서는 모델의 예측을 사용하므로 훈련과 테스트 간의 차이로 인해 모델의 성능이 저하될 수 있다.

 

 

3. Scheduled Sampling

Scheduled Sampling은 teacher forcing과 Auto - regressive을 혼합하는 방법이다. 훈련 중에 teacher forcing을 점진적으로 줄이고, 모델의 예측을 점진적으로 사용하는 방식이다.

 

  • 훈련: 훈련 초기에는 teacher forcing을 많이 사용하고, 점점 비율을 줄여 Auto - regressive을 입력으로 사용한다. 이를 통해 모델이 자가 예측을 적응하도록 돕는다.
  • 테스트: 테스트에서는 여전히 모델의 예측을 입력으로 사용한다. 
  • 장점:
    • 훈련과 테스트에서의 일관성을 증가시켜 모델이 예측에 더 잘 적응하도록 한다.
    • Exposure Bias 문제를 줄이고, 더 나은 일반화 성능을 달성할 수 있다.
  • 단점:
    • 스케줄링 확률을 조정하는 것이 필요하며, 이를 적절히 설정하기 위한 추가적인 하이퍼파라미터 튜닝이 필수적이다.
    • 훈련 과정이 복잡해질 수 있다.

 

'AI Tech' 카테고리의 다른 글

Matplotlib Ploar Chart  (0) 2024.08.23
Matplotlib 기초  (0) 2024.08.20
어텐션 메커니즘 (Attention Mechanism)  (0) 2024.08.16
가중치 초기화 (Weight Initialization)  (0) 2024.08.13
활성 함수 (Activation Functions)  (0) 2024.08.13