kl divergence 예제

KL 발산의 KL은 다음과 같은 두 사람을 나타내는 Kullback-Leibler를 의미합니다: Kullback-Leibler 발산(이하 KL 발산으로 작성)은 확률 분포가 다른 확률 분포와 어떻게 다른지를 측정한 것입니다. 고전적으로, 베이지안 이론에서, 몇 가지 진정한 분포$P(X)$; 대략적인 분포 $Q(X)$로 추정하고 싶습니다. 이러한 맥락에서 KL 발산은 대략적인 분포 $Q$에서 실제 분포 $P$까지의 거리를 측정합니다. 우선 우리가 몇 가지 기본 규칙을 구축 할 수 있습니다. 우리는 KL 의 차이를 이해하기 위해 손등처럼 알아야 할 몇 가지를 정의할 것입니다. 즉, 확률 P {디스플레이 스타일 P}와 Q {displaystyle Q}의 로그 차이에 대한 기대치이며, 여기서 예상은 확률 P {displaystyle P}를 사용하여 수행됩니다. Kullback-Leibler 발산은 모든 x {디스플레이 스타일 x} , Q – x) = 0 {디스플레이 스타일 Q(x)=0}은 P를 의미합니다 . 앞에서 설명한 것처럼 $D P (x) {displaystyle P(x)}가 0일 때마다 해당 용어의 기여도는 0으로 해석됩니다. Q) neq D_{KL}(Q| P)$). 따라서 $P 달러를 근사화하려고 할 때 최적화할 두 가지 잠재적 목표 중에서 선택할 수 있습니다. KL 발산은 기계 학습의 모든 곳에서 나타나며 KL 발산 조치가 매우 유용하다는 견고한 기반이 있습니다. 통계에서 KL 발산의 응용 프로그램에 대해 자세히 알아보고 싶다면 베이지안 추론에 대한 기사를 읽는 것이 좋습니다.

KL 발산은 또한 정보 이론에 매우 풍부한 역사를 가지고 : 다음은 좋은 읽기입니다. 딥 러닝을 좋아한다면 현재 KL 발산을 사용하는 두 가지 매우 중요한 개념은 VAE 및 정보 병목 현상입니다. 따라서 KL 발산은 거리 측정이 대칭이어야 하므로 거리 측정이 될 수 없습니다. 아래 수식을 사용하는 예로는 변형 자동 인코더가 있습니다. 위의 결과에서 볼 수 있듯이, 우리의 직관은 KL 발산의 계산에서 비롯됩니다. http://hanj.cs.illinois.edu/cs412/bk3/KL-divergence.pdf 그래서, 위의 예제를 사용 하 여, 엔트로피의 비트를 계산 하자. 실험적으로 접근할 수 있는 시스템에 대한 모델을 평가하기 위한 이 도구는 모든 분야에 적용될 수 있지만, 아카이케 정보 기준을 통해 통계 모델을 선택하는 응용 프로그램은 특히 논문[24]과 책에 잘 설명되어 있습니다[25 ] 번햄과 앤더슨. 간단히 말해서, 모델에서 현실의 Kullback-Leibler 발산은 데이터와 모델의 예측 사이에 관찰 된 편차의 함수 (합산 된 사각형과 같은) 함수에 의해 일정한 첨가제 용어 내에서 추정 될 수있다. 동일한 첨가제 용어를 공유하는 모델에 대한 이러한 발산의 추정치는 차례로 모델 중에서 선택하는 데 사용될 수 있다. 베이지안 추론의 언어로 표현되는 D KL (P_Q) {디스플레이 스타일 D_{text{KL}}}}}는 이전 확률 분포 Q {displaystyle Q}에서 사후에 대한 자신의 신념을 수정할 때 얻은 정보의 척도입니다.

확률 분포 P {디스플레이 스타일 P} . 즉, Q {displaystyle Q}를 사용하여 P {디스플레이 스타일 P}를 근사화할 때 손실되는 정보의 양입니다. [6] 응용 프로그램에서 P {displaystyle P}는 일반적으로 데이터, 관측값 또는 정확하게 계산된 이론 분포의 “true” 분포를 나타내고 Q {displaystyle Q}는 일반적으로 이론, 모델, 설명 또는 근사치를 나타냅니다. P {디스플레이 스타일 P} . P {displaystyle P}에 가장 가까운 분포 Q {displaystyle Q}를 찾기 위해 KL 발산을 최소화하고 정보 프로젝션을 계산할 수 있습니다. 예를 들어, x {displaystyle x}와 {displaystyle a}를 통해 이전 분포 p (x, a)를 가지고 있고 {displaystyle a}를 통해 이전 분포를 배운 경우 {displaystyle a} 는 u (a) {displaystyle u (a)} x {displaystyle x}와 {displaystyle x}에 대한 새 접합 분포 사이} , q (xéa) {displaystyle q (xmid a)u(a)}, 이전 분포는 다음과 됩니다: 따라서 빨간색과 파란색의 비율은 20%: 80%, 35%:65%, 40.2%:59.8% 및 40.67%입니다.