본문 바로가기

Machine Learning/Knowledge Distillation3

Similarity-Preserving Knowledge Distillation DIYA에서 리뷰했던 "Similarity-Preserving Knowledge Distillation" 요약 및 설명입니다. 2019년 ICCV에 나온 논문이며, Frederick Tung과 Greg Mori이 저자로 참여했습니다. 두 분은 현재 Borealis AI라는 회사에 함께 계시는 듯합니다. 2022년 6월 9일 당시 인용수는 348건입니다. 논문의 코어는 위 그림에 담겨있습니다. 단순 soft label을 전달받는 것을 넘어서 teacher의 activation에서 뭔가를 배워야 한다고 생각하는 것입니다. 그 뭔가는 "teacher가 비슷하다고 생각하는 것은 student도 똑같이 비슷하게 생각하고, teacher가 다르다고 생각하는 것은 student도 다르게 생각하자"입니다. 그래서 이 .. 2022. 9. 22.
Sequence-Level Knowledge Distillation 요약 및 설명 DIYA에서 리뷰했던 "Sequence-Level Knowledge Distillation" 요약 및 설명입니다. 2016년 논문이며 Yoon Kim과 Alexander M. Rush이 저자로 참여했습니다. 2022년 5월 26일 당시 인용수는 642건입니다. 논문 리뷰를 시작하기에 앞서 알아야 할 개념이 존재합니다. BLEU라는 evaluation metric입니다. 0~1(0~100%) 사이의 값으로 나타나는데 구글에서 제공하는 자료에 따르면 0.3(30%)을 넘어가면 그런대로 알만한 번역이 된다고 합니다. BLEU는 두 가지 척도로 번역 품질을 판단합니다. 첫 번째는 정답 문장과 얼마나 겹치는지 판단합니다. 두 번째로는 reference(정답)과 비교하여 output이 과도하게 짧지는 않은지 판단합.. 2022. 9. 11.
Distilling the Knowledge in a Neural Network 요약 및 설명 DIYA에서 리뷰했던 "Distilling the Knowledge in a Neural Network" 요약 및 설명입니다. Knowledge distillation이라는 분야를 창시한 논문이라고 할 수 있습니다. 2015년 논문이며 Geoffrey Hinton, Oriol Vinyals, 그리고 Jeff Dean이 저자로 참여했습니다. 2022년 5월 12일 당시 인용수는 9,689건입니다. 논문의 core idea는 간단합니다. 크고 무거운 teacher network의 지식을 비교적 적은 수의 parameter를 갖는 student network로 옮기는 것입니다. Student network를 훈련시킬 때 기존 training dataset의 hard label(one-hot encoding 된.. 2022. 9. 9.