2022年GPT-4V(ision)完成训练,2023年3月开始提供早期访问。该模型通过预训练和强化学习微调进行训练。受OpenAI与”Be My Eyes”的合作启发,GPT-4V(ision)是一个用于为盲人或视力受损人群描述视觉世界的工具。Be My AI整合到Be My Eyes平台,为用户提供对智能手机照片的描述。测试表明,Be My AI能够为50万盲人和低视力用户提供满足信息、文化和就业需求的工具。该合作帮助优化GPT-4V的功能,使其更好地理解和描述图像内容,特别是涉及复杂背景的情况。模型还具备地理位置识别和破解CAPTCHA的能力。地理位置识别功能使模型能够识别和描述图像中的地理位置,帮助用户更好地理解图像。而破解CAPTCHA能力引发了关于模型可能被滥用的担忧。
GPT-4V的详细视觉识别能力和局限性,还可以识别图片来判定它的地理位置,而且还能破解不规则的图形验证码!
-
物体检测:GPT-4V可以检测和识别图像中的常见物体,如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。
-
文本识别:该模型具有光学字符识别 (OCR) 功能,可以检测图像中的打印或手写文本并将其转录为机器可读文本。这在文档、标志、标题等图像中进行了测试。
-
人脸识别:GPT-4V可以定位并识别图像中的人脸。它具有一定的能力,可以根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。
-
验证码解决:该模型显示出通过视觉推理来解决基于文本和图像的验证码的能力。这表明了高级的解谜能力。
-
地理定位:GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力。这证明了模型吸收的世界知识。
-
复杂图像:该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它错过了上下文细节。
GPT-4V视觉推理的局限性:
-
空间关系:模型可能很难理解图像中对象的精确空间布局和位置。它可能无法正确传达对象之间的相对位置。
-
重叠对象:当图像中的对象严重重叠时,GPT-4V 有时无法区分一个对象的结束位置和下一个对象的开始位置。它可以将不同的对象混合在一起。
-
背景/前景:模型并不总是准确地感知图像的前景和背景中的对象。它可能会错误地描述对象关系。
-
遮挡:当图像中某些对象被其他对象部分遮挡或遮挡时,GPT-4V 可能无法识别被遮挡的对象或错过它们与周围对象的关系。
-
小细节:模型经常会错过或误解非常小的物体、文本或图像中的复杂细节,从而导致错误的关系描述。
-
上下文推理:GPT-4V 缺乏强大的视觉推理能力来深入分析图像的上下文并描述对象之间的隐式关系。
-
置信度:即使没有图像支持,模型也可能错误地描述对象关系或以高置信度构建关系。