多模态DeepSeek来了,杨耀东团队联合港科发布的AlignDSV具有多方面的优势。
一、性能表现出色
1.在部分视觉理解表现评测集上超越GPT4o。例如当图文结合询问减肥时适合喝的饮品时,AlignDSV能精确指出图中饮品,这显示出它在处理多模态信息时的准确性。
2.经过多模态训练之后,模型在文本模态任务上的表现有所提升,在科学任务、复杂推理、数学代码等方面也有较好表现。
二、本地化能力强
研发团队对AlignDSV进行香港地区价值观的本地化对齐,令其适应粤语/英语/普通话混合语言输入,深度整合港铁动态、台风预警及八达通缴费等香港本土生活场景,这体现了它在垂域应用方面的强大能力。
三、依托强大的模型系统
AlignDSV所依托的DeepSeekR1系列模型,是一个集成了强大推理能力的大模型系统。在多模态场景下,它不仅能处理更为复杂的文本信息,还能处理图像信息。