정보이론에서의 엔트로피(Entropy)의 이해.
0. 들어가기에 앞서. 딥러닝에 대해 처음 공부하던 대학원 2학기차에 <정보이론>이라는 수업이 전자공학을 가르치시는 교수님 담당으로 열렸길래 신청한적이 있다. 딥러닝에서 분류기를 만들 때 loss 함수에서 '엔트로피'라는 개념을 많이 봤지만 사실 정확히 어떤 개념인지 이해하지 못했기 때문에 이번 기회에 확실하게 이해하자는 취지에서 신청했다. 하지만 지도교수님께서 그 정보이론 수업은 네가 기대한 내용과 다를 것이라 하셔서 나중에 수강 취소했던 경험이 있다. 아니, 열역학에서 '엔트로피'와 정보이론의 '엔트로피'와 딥러닝에서의 '엔트로피' 모두 이름은 같지만 개념은 다르다니,,,,도대체 엔트로피란 무엇인가? 1. 정보이론에서의 엔트로피 우선 나무위키의 말을 빌리자면, 한 메세지를 표현할 수 있는 최소의 비트 수이다. 나타날 수 있는 경우의 수가 n개 일때 log n이 엔트로피가 되며 단위는 log벡터경우의수/bit 이다. 각 사건이 독립적이라면, log경우의 수가 단위가 된다. 2. 딥러닝에서의 엔트로피 딥러닝에서 엔트로피는 log예측확률이다. 근데 따지고 보면 경우의 수와 확률은 반비례 관계인데 이게 통하지??앞에 마이너스를 붙여줘서 그런가? 맞다. 로그의 경우 마이너스를 붙이는거니까.... 그런데 참 신기하다.. 경우의수의 역수가 반드시 확률이 된다는 보장이 없는데,,,, 그렇게 의미를 만들어가는건가? 입력값 x가 비슷하면 아예 같은 것으로 몰아가고....아니면 다른 값으로 몰아가도록....사실 결국 최종 representation을 입력값으로 만드는 과정이니.....