데이터/Machine Learning
[논문 정리]Introduction to VLM(3/3)
성장하기
2024. 11. 24. 21:41
4. Approaches for Responsible VLM Evaluation
- visio-linguistic abilities(단어가 visual clue에 잘 매핑되는 지) 추정하는 것이 중요함
- VQA, zero-shot prediction, bias or hallucination 등을 고려
4. 1 Benchmarking visio-linguistic abilities
- 특정 단어나 문장을 일치하는 visual clue와 잘 연관시키는 능력을 평가
4. 1. 1 Image captioning
- 생성한 caption을 BLEU score나 ROUGE로 측정 → BLEU score는 너무 heuristic함
- CLIPScore : image와 caption의 CLIP representation 유사도
- → CLIP 모델 성능에 따라 달렸다는 한계가 있음
4. 1. 2 Text-to-image consistency
- LLIPScore : text prompt와 생성된 이미지의 alignment를 측정
- Language Model로 txt caption에 대한 질문을 생성
- → 질문이 모두 hallucination 없이 옳아야만 제대로된 측정이 가능하다.
- VPEval : OCR, VQA 등 여러 모듈을 모아놓은 프로그램
4. 1. 3 Visual question answering
- VQA는 VLM에서 거의 main task
- multiple-choice / open-ended answer
- candidate answer 중에서 정확히 일치하는 문자열, 인간이 만든 정답에 기반함
- → 요새는 generative model과 OOD evaluation에 집중함
Selective prediction
- 얼마나 옳은 답을 잘 선택하는 지, 틀린 답을 잘 피하는 지
Visual Dialog
- 이미지에 대한 질문 시리즈
- 이미지로 여러 이야기를 할 수 있는 에이전트로서의 능력
4. 1. 4 Text-centric Visual Question Answering
- 기존 VQA와의 차이점
- 사진속 text를 읽고 배치해야함
- 사진 속 텍스트와 다른 것들과의 상호작용을 추론해야함
- Text Recognition, Scene Text-Centric VQA, Document-Oriented VQA, Key Information Extraction(KIE), Handwritten Mathematical Expression Recognition 등
4. 1. 5 zero-shot image classification
- explicit하게 학습되지 않은 classification task에 대한 능력
- ↔ few shot learning : 적은 데이터로 fine tuning
- CLIP 모델에 prompt structure를 바꾸거나, 특정 task에 커스터마이징하면, 기존 ImageNet benchmark에 필적할만한 성능도 나온다.
- zero-shot ability는 training data에 개념이 존재했는 지, 없었는 지에 dependent하다.
- Generalization on Out-of-Distribution(OOD) tasks
- CLIP이 zeroshot을 잘하는 이유는 이미 Image Net 데이터들을 전부 담을 정도로 큰 데이터셋에서 학습했기 때문일 수 있다.
- training distribution에서 벗어나면 generalization이 매우 안된다.
- test example의 token을 수정하여 ImageNet data distribution을 따르도록 하면 OOD performance가 향상된다.
4. 1. 6 Visio-linguistic compositional reasoning
- 모델이 헷갈릴법한 벤치마크를 디자인 함(문장 내 단어순서 바꾸기 등)
4. 1. 7 Dense captioning and crop caption matching
- VLM을 이용한 생성은 text tokenizer로 인해 짧은 생성만 가능하다
- 그냥 summarization을 하면 이미지의 정보를 많이 잃음 → Densely Captioned Image
- Image를 distinct part로 쪼갬 → human annotation
4. 1. 8 Synthetic data based visio-linguistic evaluations
- negative caption과 관련있는 사건을 찾기 어렵다.(real-data를 사용할 경우)
- location bias 해결 필요, ‘coffee cup under the table’ 등
- → Photorealistic Unreal Graphics dataset
4. 2 Benchmarking Bias and disparties in LLMs
4. 2. 1 Benchmarking bias via classifications
- 사람을 classification(gender, skin tone 등)할 수 있는 요소들에 대한 bias를 직업분류예측 등을 통해 측정
4. 2. 2 Benchmarking bias via embeddings
- embedding space에 집중하는 bias 측정
- text와 image의 representation 사이의 관계
- European American → lighter skin / African American → darker skin
4. 2. 3 Language biases might impact your benchmark!
- unimodal bias를 blind algorithm으로 밝힐 수 있음
4. 2. 4 Evaluating how specific concepts in the training data impact downstream task
- train 때 자주 본 개념은 downstream에서 잘 풀고, 자주 본 것은 못품
4. 3 Benchmarking hallucinations
- caption에 object hallucination이 있고 이를 측정하려는 벤치마크
4. 4 Benchmarking memorization
- 학습데이터를 외우는 것은 LLM이나 diffusion model에서 많이 발생하는 일
- VLM에서 판단이 어려운 이유
- CLIP에 decoder가 있는 게 아니기 때문에 정보를 되돌리기 어려움
- CoCa나 LLaVA 같은 VLM은 생성능력에 한계가 있기에, cross-modal memorization을 증명할 길이 없다.
- CLIP model이 object를 기억하는 것 → deja vu memorization이라 부름
- CLIP - image text pair 학습
- reference CLIP model - caption 없이 이미지만 학습
- 여러 regularization으로도 memorization 낮출 수 있음
4. 5 Red Teaming
- Red Teaming : 공개 인터페이스를 악용하여 바람직하지 않은 출력을 생성하는 것을 의미함
- → red team evaluation을 할 수 있으면 이후에 post-processing이 가능하다.
5. Extending VLM to videos
- 정적인 데이터인 이미지 뿐 아니라 비디오도 많이 연구됨
- video의 시간은 storage와 GPU 메모리, frame rate 학습에 어려움을 준다.
- 초기 video-text 모델은 image-text 모델과 같이 self-supervised learning(contrastive)로 학습되었으나, video는 시간적으로 text와 일치하는 게 더 중요했기에 좋은 방법은 아니었다.
- 요새는 pre-trained LLM을 video encoder와 align 시키려는 시도가 있음
5. 1 Early work on videos based on BERT
- VideoBERT : visual token과 video caption의 textual token → 섞어서 transformer → pretraining objective : 원래 BERT처럼 masking & reconstruct
- Multimodal Event Representation Learning Over Time(MERLOT) : text description과 시간적인 일치도를 볼 수 있음
- contrastive objective : local text token & frame visual tokens
- masked language modeling objective
- temporal reordering objective
- 모델이 가능한 것
- 비디오로부터 배운 지식으로 질문에 답변하는 것
- 많은 범위의 데이터셋과 벤치마크로부터 어려운 질문에 답변하는 것
5. 2 Enabling text generation using and early-fusion VLM
- VideoOFA
- 2 stage framework
- image-text data로 fundamental visual-language representation
- temporal reasoning 같은 특정 concept을 배우기 위해 backbone VLM을 pretraining
- 2 stage framework
5. 3 Using a pretrained LLM
- 성능 좋은 LLM을 최대한 활용하고자 함
- visual backbone을 LLM에 align
- Video-LLaMA
- BLIP-2, Video Q-former, Audio Q-former
- conversational agent
- MiniGPT4-Video
- 4개의 인접 visual-token을 하나로 concat하여 input token 개수 줄임
5. 4 Opportunities in evaluations
- Dataset EgoSchema → 어디서 상호작용이 발생하는 지
- “사람들이 하고 있는 경기는 무엇인가?”와 같은 질문은 단지 single frame만 봐도 풀 수 있기에 좋은 video benchmark가 아니다.
- Video VLM은 추론하고, 세계 이해하는 능력도 중요하다.
- → 물리적으로 불가능한 합성 데이터를 사용하는 것이 효과적이다.
- ‘이것이 물리적으로 옳은가?’라고 질문에 대해서 random performance를 넘기지 못한다.(사람은 80% acc)
5. 5 Challenges in leveraging video data
- temporal space에 대한 supervision이 약한 문제
- 기존 데이터는 scene을 묘사할 뿐 action이나 motion을 묘사하지는 못한다.
- CLIP도 noun bias가 있음
- videoPrism : imperfect caption의 한계 때문에 video encoder를 video만으로 학습
- video processing은 계산량 비싸고, redundant하다.
- 더 효과적인 training protocol
------------------------------------------------------------------------------------
참고 논문: "An Introduction to Vision-Language Modeling" (Florian Bordes et al., 2024).
출처: [arXiv:2405.17247](https://arxiv.org/abs/2405.17247)