Vision Language Modelle versagen bei einfachen Bildtests

Auch die größten Vision-Language-Models von OpenAI, Google und Meta können laut einer Studie ganz simple Aufgaben nicht lösen.