ImageBind: One Embedding Space To Bind Them All

2023년 3월 9일

facebook research

CVPR 2023 (Highlighted Paper).

6개의 다른 데이터를 임베딩해서 조인한 IMAGEBIND모델을 제안

images, text, audio, depth(거리값 센서), thermal(온도센서 데이터), IMU( Inertial Measurement Unit) data

VLM과 zero shot learning, 수학, cross-modal detection, 그리고 생성 테스크를 지원

1. Introduction


최근 이미지와 텍스트, 임지와 오디오 등 2개의 멀티모달 모델을을 기반으로 few shot 방법들이 많이 제안되고 있음

그러나 제약사항이 많음 - 학습한 도메인에만 바로 적용 가능 (이미지 텍스트 임베딩의 경우 바로 오디오에 쓸수 없음)

IMAGEBIND에서 제공하는 방법은 데이터가 6가지 모두 동시에 있을 필요가 없다고 함

IMAGEBIND는 웹 스케일을 (image, text) (video, audio), (image, depth) 데이터를 이용

기존 llama adapter와 같이 CLIP를 베이스로 사용(대용량 Text, Image학습 모델) 그리고 4가치 추가 도메인을 학습하기 위한 방법을 제안

2. Related Work

Language Image Pre-training

Multi-Modal Learning

다양한 도메인을 동일한 embedding space에 매칭시키는 테스크

생략 ..

3. Method


6가지 도메인을 한 공간에매칭시키는 것을 목표로함

3.1. Preliminaries

Aligning specific pairs of modalities.

Contrastive learning을 이용해 각 도메인간 벡터 생성 (2개의 쌍식 활용)

그러나 2개의 쌍의 데이터씩 이용함으로

text image 로 학습된 경우 audio는 바로 활용하지 못함

Zero-shot image classification using text prompts

zero-shot classifiation 방법론이 인기를 끔 (image, text) 주로 image caption 테스크

IMAGEBIND운 zero shot 방법론을 이용해 text 와 image 페어가 아닌경우에도 분류할 수 있도록 함

3.2. Binding modalities with images

IMAGEBIND 동메인간 Pair 정보 사용 (I,M)

I : image representation

M : another modality representation

이미지와 다른 도메인을 각각 다른 모델을 통해 임베딩함

-> qi = f(Ii) and ki = g(Mi)

  • InfoNCE


그 후 InfoNCE 로스함수 사용

τ는 소프트맥스의 smoothness 변수

j는 i와 관계까 없는 데이터

즉, 같은 데이터가 유사한 벡터에 위치하게하는 메트릭 러닝인듯

LI,M + LM,I.

Emergent alignment of unseen pairs of modalities

위처럼 되면 (M1, M2) (M2, M3) 이렇게 페어로 학습 되는것이 아닌

(I,M1), (I,M2) … 이런식으로 각 도메인 데이터가 이미지와 학습됨

3.3. Implementation Details

바닐라 모델을 만들어 비교함

Encoding modalities

Transformer architecture를 사용

이미지, 비디오(2초간 2 frame)는 Vision Transformer (ViT) - patch size of 16 and stride 10

오디오는 2초간 16kHz, spectrograms 128 mel-spectrogram bins 로 임베딩

등등 .. 나머지 생략

4. Experiments

Naturally paired modalities and datasets


멀티모달 데이터셋 - image/video, text, audio, depth, thermal images, IMU

Audioset dataset - video, audio

SUN RGB-D dataset - image, depth

LLVIP dataset - image, thermal

Ego4D dataset - video, IMU

위의 테이블 1 참조

Large scale image-text pairs.

large-scale web data를 사용해 pretrian 함

ViT-H 630M params vision 모델과 OpenCLIP 302M params의 text 인코딩 코델

Encoders for each modality.

오디오는 mel-spectrograms으로 변환해 인코딩함

thermal 는 depth 1개의 채널 이미지로 ViT-B와 ViT-S 인코더로 학습

Emergent zero-shot vs. zero-shot.

CLIP와 AudioCLIP의 경우 image,text 그리고 audio, text 멀티모달 zero-shot 분류를 보여줌

IMAGEBIND도 text prompt를 통해 zero-shot learing이 가능함

직접적인 zero shot learning이 아니기 때문에 emergent zero-shot classification 라고 몇명함

-> 그냥 prompt learning 아닌가?

Evaluation on downstream tasks.

IMAGEBIND 검증을 위해 많은 down stream tasks를 실험함

(Table 1 참조)

4.1. Emergent zero-shot classification


prompt templates을 통해 emgergent zero-shot 분류문제를 테스트함

text prompt 가 필요한경우 prompt를 사용했으나 image base인 depth, termal 등을 사용한경우 vision model인 CLIP를 바로 사용

위 그림에서 우측을 보면 visual이 아닌 경우에도 잘 됨을 보임

4.2. Comparison to prior work

이전 다른 모델들과 비교

Zero-shot text to audio retrieval and classification.


이전 모델들은 지도학습을 통해 멀티모달을 학습함

예시로 AudioCLIP는 audio와 text페어가 있는 AVFIC 데이터셋을 통해 학습

-> 비교대상 모델은 지도학습으로 불리한 조건이라는걸 말하고 싶은걸로 보임

table 3 에서 스코어를 비교함

Text to audio and video retrieval.


MSR-VTT 1k-A 벤치마크를 수행

여기에서는 zero shot lerning의 경우 상대적으로 성능이 매우 내려감 -> 역시 지도학습과 차이가 많이 남

4.3. Few-shot classification


n shot learning 분류 스코어 비교 (audio classification)

오디오와 depth encoder를 사용

AudioMAE는 Audioset 데이터셋을 통해 self superpised 하고 audio 분류를 fine-tuning 시킴

4.4. Analysis and Applications

Multimodal embedding space arithmetic


IMAGEBIND 모델의 인코딩 결과가 다른 도메인에 사용 가능한지 검증함

위의 Figure 4에서 그 결과를 보여줌

이미지 + 음성을 임베딩한 벡터를 더해 새로운 이미지를 생성 해본 결과

Upgrading text-based detectors to audio-based.


학습하지 않고 text와 audio 임베딩을 이용해 audio prompt로 이미지에서 detection 테스크를 수행

Upgrading text-based diffusion models to audio-based.

DALLE-2 pretrain model을 사용 (diffusion model)

맨위의 Figure 1 참고

다른 타입의 데이터를 받아 오디오를 통해 difuusion을 수행