DeepSeek开源Janus-Pro多模态理解生成模型,到底有多厉害?

Viewed 61

DeepSeek开源的JanusPro多模态理解生成模型相当厉害。

一、性能卓越
JanusPro在多模态理解基准MMBench上取得了79.2的分数,超越了Janus(69.4)、TokenFlow(68.9)等先进的统一多模态模型,和MetaMorph(75.2)。在GenEval和DPGBench基准测试中,JanusPro7B击败了StableDiffusion和OpenAI的DALLE3。其准确率较前代Janus大幅提高,在文生图GenEval和DPGBench基准测试中,准确率测试结果分别为80%和84.2%,高于包括OpenAI在内的其他模型。

二、功能强大
它是一种新颖的自回归框架,统一了多模态理解和生成。既能理解多模态类型的输入,又能文生图,这一特性至今很少有其他模型能做到。它可以看懂图片、回答问题,还能根据文字描述生成图片,集成了类似GPT4V的看图能力和StableDiffusion的画图能力。

三、架构创新
采用解耦的视觉编码路径,增强了多模态任务的灵活性和稳定性,克服了之前方法的局限性。同时仍然使用单一的、统一的变压器架构进行处理。

四、训练高效
JanusPro最多用了256张英伟达A100GPU卡训练了14天,最少用128张英伟达A100训练7天,整个模型训练投入仅数万美金,这得益于数据规模、蒸馏方法等创新模式。并且提供1B和7B两种规模,适配多元应用场景,通过改进的训练策略、扩展的数据集和更大规模的模型,显著提升了文本到图像的生成能力和指令跟随性能。

0 Answers