DeepSeek演都不演了,又发布的视觉多模态模型janus Pro到底如何?

Viewed 39

DeepSeek又发布了视觉多模态模型JanusPro,这一模型有着诸多值得关注的特点。

一、性能表现优异
从一些基准测试结果来看,JanusPro7B在GenEval和DPGBench基准测试中击败了OpenAI的DALLE3和StableDiffusion。在图像生成和多模态理解方面表现卓越,其准确率较前代Janus大幅提高,在文生图GenEval和DPGBench基准测试中,JanusPro7B的准确率分别为80%和84.2%,高于包括OpenAI等在内的其他模型。这表明它在处理图像生成以及多模态任务时,有着很强的能力。

二、模型架构优势
JanusPro是一种全新的技术框架,它能够同时理解和生成多种类型的信息,比如文字和图像。它采用了新颖的自回归框架,并通过将视觉编码分离为“理解”和“生成”两条路径来提升性能。这种架构上的创新有助于提升模型在不同任务中的适配性与表现,大大提高了模型处理多模态任务的效率和准确性。

三、开源与应用潜力
DeepSeek已经发布13个大模型,并且都已开源,JanusPro也不例外。开源的特性使得更多的开发者和研究人员能够接触到这个模型,有助于推动整个行业在多模态领域的研究和发展。它可以被应用于很多场景,例如在文生图领域就有着很好的表现,能够根据文本提示生成图像。虽然目前只支持较小规格的图像(384...),但随着技术的发展,其应用潜力巨大。

0 Answers