"Auto-regressive" and "Teacher Focing" and "Scheduled Sampling"

Auto-regressive 모델은 시퀀스의 각 단계에서 이전 단계의 출력을 입력으로 사용하여 다음 단계를 예측한다.

장점:
- 훈련과 테스트에서 일관된 방법으로 작동하므로 모델이 실제 사용 상황을 그대로 반영하여 Robust한 모델을 구축할 수 있다.
단점:
- 훈련 중에 잘못된 예측이 누적되어 결과에 영향을 미칠 수 있다.
- 모델이 훈련 데이터에 비해 생성된 시퀀스의 품질이 낮을 수 있다.

Teacher forcing은 훈련 시 실제 목표 출력을 모델에 입력으로 제공하는 방법이다. 모델이 예측한 출력을 사용하는 대신, 올바른 출력을 입력으로 사용하여 훈련한다.

훈련: 훈련 과정에서 실제 목표 출력을 입력으로 사용하므로, 모델이 잘못된 예측을 학습할 위험이 적다.
테스트: 테스트에서는 모델이 예측한 출력을 입력으로 사용하기에, 훈련과 테스트 간의 조건이 다를 수 있다.
장점:
- 훈련이 더 안정적이고 빠를 수 있으며, 모델이 올바른 출력을 학습하므로 학습 과정이 효율적이다.
단점:
- Exposure Bias: 훈련 중에는 항상 정답을 제공하지만, 테스트에서는 모델의 예측을 사용하므로 훈련과 테스트 간의 차이로 인해 모델의 성능이 저하될 수 있다.

Scheduled Sampling은 teacher forcing과 Auto - regressive을 혼합하는 방법이다. 훈련 중에 teacher forcing을 점진적으로 줄이고, 모델의 예측을 점진적으로 사용하는 방식이다.

훈련: 훈련 초기에는 teacher forcing을 많이 사용하고, 점점 비율을 줄여 Auto - regressive을 입력으로 사용한다. 이를 통해 모델이 자가 예측을 적응하도록 돕는다.
테스트: 테스트에서는 여전히 모델의 예측을 입력으로 사용한다.
장점:
- 훈련과 테스트에서의 일관성을 증가시켜 모델이 예측에 더 잘 적응하도록 한다.
- Exposure Bias 문제를 줄이고, 더 나은 일반화 성능을 달성할 수 있다.
단점:
- 스케줄링 확률을 조정하는 것이 필요하며, 이를 적절히 설정하기 위한 추가적인 하이퍼파라미터 튜닝이 필수적이다.
- 훈련 과정이 복잡해질 수 있다.

Matplotlib Ploar Chart (0)	2024.08.23
Matplotlib 기초 (0)	2024.08.20
어텐션 메커니즘 (Attention Mechanism) (0)	2024.08.16
가중치 초기화 (Weight Initialization) (0)	2024.08.13
활성 함수 (Activation Functions) (0)	2024.08.13

뇌절한민초