You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
위의 CHAIR 같은 object hallucination을 LVLM으로 가져와 측정한 논문
그런데 이때 prompt를 어떻게 할지에 따라 성능이 들쭉날쭉하다. 그리고 object를 뽑고 GT object랑 매칭하는데 복잡한 Human parsing rule이 필요하다
그래서 제안한 것이 POPE
캡션을 생성하고 hallucinated object를 찾는게 아니라 yes, no 로 대답할 수 있는 question을 만들어서 측정
gt label은 semantic label SEEM 같은 것으로 뽑아서 object pool 보강
여기에 3가지 negative set을 만듦
random : random object class
popular : 학습 데이터에서 많이 나타난 object class
adversarial : 현재 등장한 object와 같이 많이 등장한 object class
사용한 set은 COCO에서 object 가 3 개 이상 나오는 subset 500개를 만들었다고
이 논문에서 발견한 것은 1) COCO에서 많이 등장한 2) COCO에서 많이 자주 등장한 object hallucination이 심했다고
HallusionBench
[CVPR'24] HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models https://arxiv.org/abs/2310.14566
두가지가 있음 1) generative 2) discriminative
generative는 Object existence를 위해 고안되었고 discriminative 는 object, relation, attribute 모두 구할 수 있음
미리 이미지와 이에 등장한 object, attribute, relation Label을 다 annotate한 뒤에 discriminative는 yes, no로 그냥 맞춤
generative는 생성된 캡션에 대해 noun parse하고 그 다음에 그냥 CHAIR 인듯.. 흠냐
The text was updated successfully, but these errors were encountered:
CHAIR (== Object HalBench)
[18'EMNLP] Object Hallucination in Image Captioning https://arxiv.org/abs/1809.02156
POPE
[24'EMNLP] Evaluating Object Hallucination in Large Vision-Language Models https://arxiv.org/pdf/2305.10355
HallusionBench
[CVPR'24] HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models https://arxiv.org/abs/2310.14566
AMBER
[arxiv'24] AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation
https://arxiv.org/abs/2311.07397
두가지가 있음 1) generative 2) discriminative
generative는 Object existence를 위해 고안되었고 discriminative 는 object, relation, attribute 모두 구할 수 있음
미리 이미지와 이에 등장한 object, attribute, relation Label을 다 annotate한 뒤에 discriminative는 yes, no로 그냥 맞춤
generative는 생성된 캡션에 대해 noun parse하고 그 다음에 그냥 CHAIR 인듯.. 흠냐
The text was updated successfully, but these errors were encountered: