파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 chapter4

과대적합과 과소적합
- 성능저하 : 과대적합과 과소적합은 기본적으로 모델의 성능을 저하시킨다.
- 모델 선택 실패 : 과대적합의 경우 모델의 구조가 너무 복잡해 훈련 데이터에만 의존하게 되어 성능이 저하된다. 반대로 과소적합의 경우 모델의 구조가 너무 단순해 데이터의 특징을 제대로 학습하지 못한 경우로 볼 수 있다.
- 편향 - 분산 트레이드오프 : 우수한 성능을 보이려면 낮은 편향과 낮은 분산을 가져야한다. 분산이 높으면 추정치에 대한 변동 폭이 커지며, 데이터가 갖고 있는 노이즈까지 학습 과정에 포함돼 과대적합 문제를 발생시킨다.
과대적합과 과소적합 문제 해결
- 데이터수집 : 과대적합과 과소적합 모두 모델이 훈련 데이터를 제대로 학습하지 못하는 경우다. 과댖거합은 훈련 데이터를 너무 적합하게 학습해 문제가 발생하고 과소적합은 훈련 데이터를 제대로 학습하지 못해 발생한다. 모델이 훈련 데이터에서 노이즈를 학습하지 않으면서 일반적인 규칙을 찾을 수 있게 학습 데이터의 수를 늘린다.
- 피처 엔지니어링 : 신규 데이터 수집이 어려운 경우라면 기존 훈련 데이터에서 변수나 특징을 추출하거나 피처를 더 작은 차원으로 축소한다. 모델이 더 학습하기 쉬운 형태로 데이터를 변환하면 노이즈에 더 강건한 모델을 구축할 수 있다.
- 모델 변경 : 과대적합이나 과소적합이 발생하는 주유한 이유는 훈련 데이터세트에 비해 너무 강력한 모델을 사용하거나 너무 간단한 모델을 사용하기 때문이다.
- 조기 중단 : 모델 학습 시 검증 데이터세트로 성능을 지속적으로 평가해 모델의 성능이 저하되기 전에 모델 학습으 조기중단 하는 방법.
- 배치 정규화 : 모델에 배치 정규화를 적용해 모델 성능과 모델 안정성을 향상시킨다. 모델의 계층마다 평균과 분산을 조정해 내부 공변량 변화를 줄여 과대적합을 방지한다.
- 가중치 초기화 : 모델의 매개변수를 최적화하기 전에 가중치 초깃값을 설정하는 프로세스를 의미한다. 학습 시 기울기가 매우 작아지거나 커지는 문제가 발생할 수 있다.
- 정칙화 : 목적함수에 페널티를 부여하는 방법. 모델을 일부 제한해 과대적합을 방지할 수 있다. 정칙화에는 학습 조기 중단, L1 정칙화, 드롭아웃, 가중치 감쇠 등이 있다.

배치 정규화 : 내부 공변량 변화를 줄여 과대 적합을 방지하는 기술. 내부 공변량 변화가 발생하는 경우 은닉층에서 다음 은닉층으로 전달될 때 입력값이 균일해지지 않아 가중치가 제대로 갱신되지 않을 수 있다. 이로 인해 학습이 불안정해지고 느려져 가중치가 일정한 값으로 수렴하기 어려워진다.
정규화 종류 : 계층 정규화, 인스턴스 정규화, 그룹 정규화가 있다.

가중치 초기화: 모델의 초기 가중치 값을 설정하는 것을 말한다.
- 상수 초기화 : 가중치를 초기화하는 매우 간단한 방법은 상숫값으로 초기화하는 것이다. 대칭 파괴 현상으로 인해 모델을 학습하기 어렵거나 학습이 불가능하게 만든다. 그러므로 모든 노드가 동일한 출력을 생성하여 모델이 학습되지 않는다.
- 무작위 초기화 : 초기 가중치의 값을 무작위 값이나 특정 분포 형태로 초기화하는 것을 말한다. 무작위, 균등 분포, 정규 분포, 잘린 정규 분포, 희소 정규 분포 초기화 등이 있다.
- 제이비어 & 글로럿 초기화 : 균등 분포나 정규 분포를 사용해 가중치를 초기화하는 방법. 제이비어 초기화와 확률 분포 초기화의 주요한 차이점은 동일한 표준 편차를 사용하지 않고 은닉층의 노드 수에 따라 다른 표준 편차를 할당한다는 점. 제이비어 초기화는 입력 데이터의 분산이 출력 데이터에서 유지되도록 가중치를 초기화하므로 시그모이드나 하이퍼볼릭 탄젠트를 활성화 함수로 사용하는 네트워크에서 효과적
- 카이밍 & 허 초기화 : 균등분포나 정규분포를 사용해 가중치를 초기화 하는 방법. 순방향 신경망 네트워크에서 가중치를 초기화할 때 효과적. 제이비어 초기화에서 발생한 문제점을 보완한 방법. 각 노드의 출력 분산이 입력 분산과 동일하게 만들어 ReLU 함수의 죽은 뉴런 문제를 최소화할 수 있다.
- 직교 초기화 : 특잇값 분해를 통해 자기 자신을 제외한 나머지 모든 열, 행 벡터들과 직교이면서 동시에 단위 벡터인 행렬을 만드는 방법. 장단기 메모리 및 게이트 순환 유닛과 같은 순환 신경망에서 주로 사용

정칙화 : 모델 학습 시 발생화는 과대적합 문제를 방지하기 위해 사용되는 기술.
- L1 정칙화 : 라쏘 정칙화라고도 하며, L1 노름 방식을 사용해 규제하는 방법. 손실 함수에 가중치 절댓값의 합으로 규제를 가하므로 모델은 가중치 절댓값의 합도 최소가 되는 방향으로 학습이 진행한다. 모델 학습 시 값이 크지 않은 가중치들은 0으로 수렴하게 되어 예측에 필요한 특징의 수가 줄어든다. 주로 선형 모델에 적용.
- L2 정칙화 : 릿지 정칙화 라고도 하며 L2 노름 방식을 사용해 규제하는 방법. L2노름은 벡터 또는 행렬 값의 크기를 계산한다. L1 저칙화에 비해 가중치 값들이 비교적 균일하게 분포되며, 가중치를 0으로 만들지 않고 0에 가깝게 만든다. 가중치 제곱의 합
- 가중치 감쇠 ; 모델이 더 작은 가중치를 갖도록 손실함수에 규제를 가하는 방법.
- 모멘텀 : 경사 하강법 알고리즘의 변형 중 하나로, 이전에 이동했던 방향과 기울기의 크기를 고려하여 가중치를 갱신한다.
- 엘라스틱 넷 : L1 정칙화와 L2 정칙화를 결합해 사용하는 방식. L1 정칙화느ㅏㄴ 모델이 희박한 가중치를 갖게 규제하는 반면, L2 정칙화는 큰 가중치를 갖지 않게 규제. 이 두 정칙화 방식을 결합함으로써 희소성과 작은 가중치의 균형을 맞춘다.
- 드롭아웃 : 정칙화 기법 중 하나로, 모델의 훈련 과정에서 일부 노드를 일정 비율로 제거하거나 0으로 설정해 과대적합을 방지하는 간단하고 효율적인 방법. 과대 적합을 발생시키는 이유 중 하나는 모델 학습 시 발생하는 노드 간 동조화 현상이다. 동조화 현상이란 모델 학습 중 특정 노드의 가중치나 편향이 큰 값을 갖게 되면 다른 노드가 큰 값을 갖는 노드에 의존하는 것을 말한다.
- 그레이디언트 클리핑 : 모델을 학습할 때 기울기가 너무 커지는 현상을 방지하는 데 사용되는 기술. L2 노름을 사용해 최대 기울기를 규제.

데이터 증강 : 데이터가 가진 고유한 특징을 유지한 채 변형하거나 노이즈를 추가해 데이터세트의 크기를 인위적으로 늘리는 방법. 모델은 학습 데이터가 가진 특징의 패턴을 학습해 새로운 데이터를 분석한다.

사전 학습된 모델 : 대규모 데이터세트로 학습된 딥러닝 모델로 이미 학습이 완료된 모델. 사전 핛브된 모델은 전이 학습과 같은 작업 뿐만ㅇ 아니라 백본 네트워크로 사용되며, 대규모 데이터에서 학습한 지식을 활용하여 소량의 데이터로도 웃한 성능을 달성할 수 있다.
- 백본 : 입력 데이터에서 특징을 추출해 최종 분류기에 전달하는 딥려닝 모델이나 딥러닝 모델의 일부를 의미한다. 백본 네트워크는 입력 데이터에서 특징을 추출하므로 노이즈와 불필요한 특성을 제거하고 가장 중요한 특징을 추출할 수 있다.
- 전이 학습 : 어떤 작업을 수행하기 위해 이미 사전 학습된 모델을 재사용해 새로운 작업이나 관련 도메인의 성능을 향상시킬 수 있는 기술을 의미한다. 전이 핛브을 수행하기 위해 사전 학습된 모델을 업스트림 모델이라고 하며, 미세 조정된 모델은 다운스트림 모델이라고 한다. 업스트림 모델은 대규모 특정 도메인의 데이터세트에서 학습한 모델이며 해당 도메인에 대한 특징과 특성이 학습돼야 한다. 다운스트림 모델은 업스트림 모델에서 학습한 지식을 활용해 작은 규모의 타깃 도메인 데이터세트에서 학습한 모델.
  - 귀납적 전이 학습 : 기존에 학습한 모델의 지식을 할용하여 새로운 작업을 수행하기 위한 방법 중 하나. 이전 작업에서 학습한 지식을 새로운 작업에 활용함으로써 모델의 일반화 능력을 향상시킬 수 있다.
    - 자기주도적 학습 : 비지도 전이 학습의 유형 중 하나. 소스 도메인의 데이터세트에서 데이터의 양은 많으나 레이블링된 데이터의 수가 매우 적거나 없을 때 사용하는 방법
    - 다중 작업 학습 : 레이블이 지정된 소스 도메인과 타깃 도메인 데이터를 기반으로 모델에 여러 작업을 동시에 가르치는 방법. 공유 계층과 작업별 계층으로 나뉜다.
  - 변환전 전이 학습 : 소스 도메인과 타깃 도메인이 유사하지만 완전히 동일하지 않은 경우를 의미.
    - 도메인 적응 : 소스 도메인과 타깃 도메인의 특징 분포를 전이시키는 방법.
    - 표본 선택 평향/공변량 이동 : 소스 도메인과 타깃 도메인의 분산과 편향이 크게 다를 때 표본을 선택해 편향이나 공변량을 이동시키는 방법.
  - 비지도 전이 학습 : 소스 도메인과 타깃 도메인 모두 레이블이 지정된 데이터가 없는 전이 학습 방법. 비지도 전이 학습은 레이블의 영향을 받지 않고 데이터가 가진 특징을 학습했으므로 미세 조정 시 더 효과적으로 타깃 도메인에 대해 예측을 수행할 수 있다.
  - 제로-샷 전이 학습 : 사전 학습된 모델을 이용해 다른 도메인에서도 적용할 수 있는 전이 학습 기법. 새로운 도메인에서 학습할 데이터가 부족한 경우에 유용하게 사용할 수 있다. 또한, 다양한 도메인 간의 지식을 전이할 수 있기 때문에 일반화된 성능을 높일 수 있다는 장점이 있다.
  - 원-샷 전이 학습 : 제로-샷 학습과 유사하지만, 한 번에 하나의 샘플만 사용해 모델을 학습하는 방법.
- 특징 추출 및 미세 조정 : 전이 학습에 사용되는 일반적인 기술.

'ML공부🖥️' 카테고리의 다른 글

파이토치 트랜스포머를 활용한 자연어처리와 컴퓨터비전 심층학습 chapter6. 임베딩 (0)	2025.03.26
파이토치 트랜스포머를 활용한 자연어처리와 컴퓨터비전 심층학습 chapter5.토큰화 (0)	2025.03.26
파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 chapter3. 파이토치 기초 (0)	2025.03.17
파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 chapter1 (0)	2025.03.16
[Google Machine Learning Bootcamp]Gemma Sprint- 맞춤형 진로상담 (4)	2024.10.03

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

insight9738 님의 블로그

파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 chapter4

'ML공부🖥️' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 chapter4

'ML공부🖥️' 카테고리의 다른 글

'ML공부🖥️' Related Articles

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역