多模态版DeepSeekR1在部分评测中的表现确实超越了GPT4o。基于自研全模态框架AlignAnything,北大联合港科大团队推出的多模态版DeepSeekR1(AlignDSV),在部分视觉理解表现评测集上超越了GPT4o。
例如,当图文结合地询问它减肥时更适合喝哪一款饮品时,AlignDSV能够精确地指出图中饮品的款数、饮品名称,以及减脂时最适合饮用的饮品。这表明它在处理图文信息时具有很强的能力。
此外,多模态版DeepSeekR1通过深度融合视觉与语言模态,显著提升了文本推理能力,尤其在科学任务、复杂推理和数学代码等方面表现超越GPT4o。而且,多模态训练使该模型不仅在文本任务上有提升,还在其他方面表现出色,其模态穿透还能反哺文本推理能力。
需要注意的是,评测结果往往是基于特定的评测集和任务类型。不同的任务场景和评测标准可能会导致不同的结果。目前只是在部分视觉理解表现评测集等方面有超越表现,但不能简单地说在所有方面都全面超越GPT4o。不过,多模态版DeepSeekR1的表现已经显示出其强大的竞争力和潜力。