Multi-modal 관련 논문을 읽고, joint represenation에 대한 정보가 없는 것 같아 찾아서 읽어보게 되었습니다. Joint representation을 진행하는 하나의 기법이긴 하다만, 어떻게 joint representation이 되는지 확인은 한 것 같아서 논문을 이어서 보기 조금은 수월해지지 않았을까 생각합니다. 읽던 도중에 Novel Class(Category) Discovery에 대한 부분도 생소한 것 같아서 정의를 찾아보기 위해 또 다른 논문을 건드리게 되었구요.. 그 부분은 알고 싶은 부분만 따서 정리하였고 1,2 로 나누어서 두 논문을 정리했습니다.
제가 이해한대로 업로드하고,, 틀린 부분이 분명 존재할 수 있습니다.
논문의 난이도도 어렵네요 ;;
Novel Class Discovery : an introduction and Key concepts
#####해당 논문은 Novel Class DIscovery 에 대해 찾아보고자 읽어본 논문
Introduction
- 많은 Classification 모델은 많은 양의 데이터에 그 능력을 의존해왔음
- 그러나 항상 Label된 데이터를 가지는 것은 가능하지 않음
- 이러한 “Open World”엔 새로운 객체가 계속 등장함
- 아래 사진은 테스트타임에 학습시킬 때 전혀 보지 못한 객체들이 있는 것 볼 수 있음
- 이상적인 모델은 앵무새와 고양이는 분류할 수 있을뿐만 아니라 호랑이와 말에 대해서 발견할 수 있어야함
- 그래서 문제가 무엇인가?
- 이러한 예시에서 일반적인 분류 모델은 객체를 틀리게 분류할 가능성이 있음
- 이러한 현상은 뉴럴네트워크에서 잘 알려진 현상임
- 이러한 이유로 연구원들은 현재 Unlabeled한 데이터도 이용가능한 시나리오들을 탐색하고 있음
- Novel Class Discovery 란! 학습에 Labeled set of Known class 과 Unlabeled set of Unknown class가 주어지며, Unlabeled Data를 적절한 클래스로 카테고리화 하는 것을 목표로 함 (NCD)
- NCD의 일반적인 설정
- NCD의 학습 데이터는 두개의 데이터셋 : Known & Unknown classes Dataset 을 포함함
- 테스트는 Unknown Dataset으로 구성되어있음
- Weakly Supervised Learning(Open-World Learning, Zero-shot Learning)에 속해 있음 Weakly Supervised Learning 은 기존의 모든 클래스들을 미리 학습한 상태에서 학습에 나타나지 않은 클래스들을 구별하는 기법
- 현재는 NCD의 실용성과 실생활 어플리케이션에 적용하기 위해 NCD의 관심이 커지고 있음
- 왜 Clustering만 하는 것은 좋은결과를 낳지 못하는가?
- 단순하긴 하지만, Unsupervised clustering은 NCD 문제의 Direct 해결방법이고, 가끔 언라벨 된 데이터의 라벨을 발견하기에 충분함
- 그러나 복잡한 데이터셋에서 더 정교한 접근에 비해 Clustering이 실패한다고 말함
- 다음과 같은 이유로 Clustering은 실패할 수 있음 Spherical clusters, mixture of gaussian distributions, shape of a data, similarity measure
- 따라서, 티셔닝의 결과는 데이터 혹은 의미 클래스가 일관되지 않을 수 있음
- 다시 말해, Unsupervised learning은 몇 몇의 케이스에서 충분하지 않음
- 이러한 점을 해결하기 위해
- 학습한 클래스에서 얻은 지식을 가져와 Unlabel 데이터들을 새로운 클래스로 식별하는 시도를 했음
- 적절한 method가 일반적인 컨셉들을 추출해서 NCD 성능을 향상시킬 수 있어야했고, 여기에 해당하는 기법들이 바로 유사도 함수와 구체화된 domain feature들을 포함하는 latent space을 사용하는 것임
- 이 방법들은 모델이 더이상 unknown class에서 known class를 구별할 필요가 없다고 가정함
- 만약 이러한 가정이 만들어지지 않는다면, 이것들은 Generalized category discovery 문제라고 함.
- 대부분, NCD 문제의 어려움은 다양한 수의 known/unknown 클래스들에서 오며, known class들의 수가 증가할 수록 문제가 쉬워질 수 있다고 함
Novel Class Discovery
- Overview of the domains related to NCD
- Novel class discovery method에 대한 분류
- Two stage 방식과 One stage 방식이 있음
- Two stage 방식에는 또, Learned similarity based 방식과 Latent space based 방식이 있음
- One stage 방식은 다음과 같이 나타남
- NCL Neighborhood Contrastive Learning 등. 여러 기법 있지만. 필요하면 해당 Paper 참고
- 또한 아래 사진은 NCD 기법들 모음
New domains derived from NCD
- Generalized Category Discovery GCD
- Novel Class Discovery without Forgetting NCDwF
- Novel Class Discovery in Semantic Segmentation NCDSS
Tools for Novel Class Discovery
- Self-Supervised Learning
- Pseudo Labels
- Contrastive Learning