Speech2Face에 대해 논문을 읽고 제가 이해한대로 정리하여 PPT로 만들어보았습니다. 이번 논문 또한 Multi-modal에 관한 논문인데 실험결과에 대한 얘기가 많고 Training이나 내부 pipeline에 대한 설명은 간단한 것 같았습니다. Transformer구조가 안들어가서 그런 것 같기도하고요. 목소리를 통해서 얼굴을 복원한다는것이 평소에 우리가 어떤 사람 목소리를 듣고 해당 사람의 얼굴을 떠올린다는 점에서 매커니즘이 비슷한거 같아 정말 '지능' 같다는 생각이 들었습니다.
'Deep Learning' 카테고리의 다른 글
Yolo V5 Gridmask Augmentation (2) | 2024.02.07 |
---|---|
Yolo V5 cutout Augmentation (2) | 2024.01.29 |
Paper Review: ViLBERT: Pretraining Task-Agnostic VisiolinguisticRepresentations for Vision-and-Language Tasks (0) | 2024.01.21 |
Yolo V5 Validation. (0) | 2024.01.15 |
Yolo V5 Training. (2) | 2024.01.12 |