视觉模型新突破：R1-Onevision – 多模态+深度推理，让AI更懂图像！

9,319 0 0

R1-Onevision：弥合多模态能力与深度推理，让视觉模型更“会思考”

什么是 R1-Onevision？它解决了什么问题？

R1-Onevision 旨在弥合 Qwen-VL 的多模态能力和 DeepSeek-R1 的深度推理能力之间的差距，使视觉模型具备更强的视觉语言理解和推理能力，不仅仅是识别图像中的物体，更能理解图像的含义并进行逻辑推理，从而适用于视觉推理、图像理解等更复杂的任务。简单来说，就是让模型不仅能“看”，还能“思考”。

Qwen-VL 擅长多模态信息的处理，但推理能力相对较弱。
DeepSeek-R1 在深度推理方面表现出色，但在多模态任务上可能有所欠缺。

R1-Onevision 通过结合两者的优势，提升了模型在复杂视觉场景下的表现。

R1-Onevision 如何实现？

R1-Onevision 是基于 Qwen2.5-VL 模型，并在 R1-Onevision数据集上进行微调而成的。这意味着它继承了 Qwen2.5-VL 的多模态处理能力，并通过在特定数据集上的训练，增强了视觉语言理解和推理能力。

R1-Onevision 与 VLM-R1 有什么区别？

之前介绍的 VLM-R1 项目也实现了 R1 向 Qwen2.5-VL 的迁移。但两者侧重点不同：

VLM-R1 更侧重于物体识别。
R1-Onevision 更侧重于文本上的回答，即根据图像内容进行更深入的理解和推理。

R1-Onevision 的实际效果如何？

尽管作者尝试使用高考题目进行测试，但结果可能并不理想，参考答案不确定。不过，在识别戴口罩的人的性别测试中，R1-Onevision 与原生 Qwen2.5-VL 模型的结果一致，都识别为女性。这表明 R1-Onevision 在某些特定任务上可能具备一定的识别能力。

更多详细信息和代码请参考官方 GitHub 仓库：https://github.com/Fancy-MLLM/R1-onevision

如何使用 R1-Onevision？ (使用步骤示例)

由于官方没有提供详细的使用教程，以下是一个通用的基于 Hugging Face Transformers 库使用微调模型的步骤（需要根据 R1-Onevision 的实际情况进行调整）：

安装必要的依赖：
bash
pip install transformers accelerate
加载模型和tokenizer：
python
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = “Fancy-MLLM/R1-onevision” # 替换为 R1-Onevision 的实际模型名称

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
准备输入数据：
python
# 假设你需要处理一张图片，你需要将图片转换为模型可以接受的格式
from PIL import Image
import requests

url = “你的图片URL” # 替换为你的图片URL
image = Image.open(requests.get(url, stream=True).raw).convert(“RGB”)

准备你的文本prompt

text_prompt = “请描述这张图片。” # 或者更具体的指令，例如 “图中人物的性别是？”

需要根据模型的具体要求，对图片和文本进行预处理

inputs = tokenizer(text_prompt, images=image, return_tensors=”pt”)
运行模型并生成结果：
python
outputs = model.generate(**inputs)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(result)