多模态版DeepSeek-R1的评测表现真的超越了GPT-4o吗？

Question

多模态版DeepSeekR1在部分评测中的表现确实超越了GPT4o。基于自研全模态框架AlignAnything，北大联合港科大团队推出的多模态版DeepSeekR1（AlignDSV），在部分视觉理解表现评测集上超越了GPT4o。

例如，当图文结合地询问它减肥时更适合喝哪一款饮品时，AlignDSV能够精确地指出图中饮品的款数、饮品名称，以及减脂时最适合饮用的饮品。这表明它在处理图文信息时具有很强的能力。

此外，多模态版DeepSeekR1通过深度融合视觉与语言模态，显著提升了文本推理能力，尤其在科学任务、复杂推理和数学代码等方面表现超越GPT4o。而且，多模态训练使该模型不仅在文本任务上有提升，还在其他方面表现出色，其模态穿透还能反哺文本推理能力。

需要注意的是，评测结果往往是基于特定的评测集和任务类型。不同的任务场景和评测标准可能会导致不同的结果。目前只是在部分视觉理解表现评测集等方面有超越表现，但不能简单地说在所有方面都全面超越GPT4o。不过，多模态版DeepSeekR1的表现已经显示出其强大的竞争力和潜力。