[174] Evaluations for Object Hallucinations #193

long8v · 2024-09-02T05:51:40Z

CHAIR (== Object HalBench)

[18'EMNLP] Object Hallucination in Image Captioning https://arxiv.org/abs/1809.02156

COCO caption & semantic segmentation label -- 동의어를 사용해서 captioning model의 hallucination 측정
CHAIR_i의 분모는 언급된 모든 object 개수 // CHAIR_s는 문장 개수
COCO karpathy / robust test set

이 논문에서 말하고자 했던건 CIDEr 등 captioning 성능은 높더라도 실제로 hallucination 성능은 이와 비례하지 않는다는 점
LVLM에서는 RLHF-V가 만든 descriptive 설명을 하라는 8개 프롬프트를 주고 gt segment와 CHAIR를 구하고 이가 Object Halbench로 레포트됨

POPE

[24'EMNLP] Evaluating Object Hallucination in Large Vision-Language Models https://arxiv.org/pdf/2305.10355

위의 CHAIR 같은 object hallucination을 LVLM으로 가져와 측정한 논문

그런데 이때 prompt를 어떻게 할지에 따라 성능이 들쭉날쭉하다. 그리고 object를 뽑고 GT object랑 매칭하는데 복잡한 Human parsing rule이 필요하다
그래서 제안한 것이 POPE

캡션을 생성하고 hallucinated object를 찾는게 아니라 yes, no 로 대답할 수 있는 question을 만들어서 측정
gt label은 semantic label SEEM 같은 것으로 뽑아서 object pool 보강
여기에 3가지 negative set을 만듦
- random : random object class
- popular : 학습 데이터에서 많이 나타난 object class
- adversarial : 현재 등장한 object와 같이 많이 등장한 object class
사용한 set은 COCO에서 object 가 3 개 이상 나오는 subset 500개를 만들었다고
이 논문에서 발견한 것은 1) COCO에서 많이 등장한 2) COCO에서 많이 자주 등장한 object hallucination이 심했다고

HallusionBench

[CVPR'24] HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models https://arxiv.org/abs/2310.14566

AMBER

[arxiv'24] AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation
https://arxiv.org/abs/2311.07397

두가지가 있음 1) generative 2) discriminative
generative는 Object existence를 위해 고안되었고 discriminative 는 object, relation, attribute 모두 구할 수 있음
미리 이미지와 이에 등장한 object, attribute, relation Label을 다 annotate한 뒤에 discriminative는 yes, no로 그냥 맞춤
generative는 생성된 캡션에 대해 noun parse하고 그 다음에 그냥 CHAIR 인듯.. 흠냐

long8v added MLLM evaluation labels Sep 4, 2024

long8v added the survey label Sep 23, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[174] Evaluations for Object Hallucinations #193

[174] Evaluations for Object Hallucinations #193

long8v commented Sep 2, 2024 •

edited

Loading

[174] Evaluations for Object Hallucinations #193

[174] Evaluations for Object Hallucinations #193

Comments

long8v commented Sep 2, 2024 • edited Loading

CHAIR (== Object HalBench)

POPE

HallusionBench

AMBER

long8v commented Sep 2, 2024 •

edited

Loading