OPENAI公司GPT-4V多模态上线！

AI前沿2年前 (2023)发布 wanglu852

9,129 0 0

2022年GPT-4V(ision)完成训练，2023年3月开始提供早期访问。该模型通过预训练和强化学习微调进行训练。受OpenAI与”Be My Eyes”的合作启发，GPT-4V(ision)是一个用于为盲人或视力受损人群描述视觉世界的工具。Be My AI整合到Be My Eyes平台，为用户提供对智能手机照片的描述。测试表明，Be My AI能够为50万盲人和低视力用户提供满足信息、文化和就业需求的工具。该合作帮助优化GPT-4V的功能，使其更好地理解和描述图像内容，特别是涉及复杂背景的情况。模型还具备地理位置识别和破解CAPTCHA的能力。地理位置识别功能使模型能够识别和描述图像中的地理位置，帮助用户更好地理解图像。而破解CAPTCHA能力引发了关于模型可能被滥用的担忧。

GPT-4V的详细视觉识别能力和局限性，还可以识别图片来判定它的地理位置，而且还能破解不规则的图形验证码！

物体检测：GPT-4V可以检测和识别图像中的常见物体，如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。
文本识别：该模型具有光学字符识别 (OCR) 功能，可以检测图像中的打印或手写文本并将其转录为机器可读文本。这在文档、标志、标题等图像中进行了测试。
人脸识别：GPT-4V可以定位并识别图像中的人脸。它具有一定的能力，可以根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。
验证码解决：该模型显示出通过视觉推理来解决基于文本和图像的验证码的能力。这表明了高级的解谜能力。
地理定位：GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力。这证明了模型吸收的世界知识。
复杂图像：该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它错过了上下文细节。