DeepSeek,这家最近颠覆了行业对行业发展成本假设的中国AI实验室,发布了一系列新的开源多模态AI模型,据称在关键基准测试中优于OpenAI的DALL-E 3。
被称为Janus Pro的模型,参数从10亿(极小)到70亿(接近SD 3.5L的规模)不等,可立即在机器学习和数据科学中心Huggingface上下载。
最大版本Janus Pro 7B不仅击败了OpenAI的DALL-E 3,还击败了其他领先模型如PixArt-Alpha、Emu3-Gen和SDXL,在行业基准GenEval和DPG-Bench上表现出色,这是根据DeepSeek AI分享的信息。
该模型的发布恰逢DeepSeek凭借其R1语言模型引发关注,该模型在仅耗资500万美元的情况下就匹配了GPT-4的能力,引发了关于AI行业当前状况的激烈辩论。
这家中国初创公司的产品还引发了行业范围内的担忧,担心它可能颠覆现有企业,并打击主要芯片制造商Nvidia的增长轨迹,Nvidia在周一遭遇了有史以来最大单日市值损失。
DeepSeek的Janus Pro模型使用了该公司所谓的"新型自回归框架",将视觉编码分解为单独的通道,同时保持单一的统一变换架构。
这种设计使模型能够分析图像并以768x768分辨率生成图像。
DeepSeek在其发布文档中声称:"Janus Pro超越了以前的统一模型,并与专项模型的性能相匹配或超越。Janus Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的强有力候选。"
与DeepSeek R1不同,该公司没有发布该模型的完整白皮书,但发布了其技术文档,并免费提供了该模型供立即下载——继续其开源发布的做法,这与美国科技巨头的封闭专有方法形成鲜明对比。
那么,我们的评论是什么?这个模型非常通用。
但是,不要期望它能取代你最喜欢的任何专业模型。它可以生成文本、分析图像和生成照片,但与只擅长其中一项的模型相比,它最多只能与之持平。
请注意,目前没有直接使用传统UI运行它的方法——Comfy、A1111、Focus和Draw Things目前都与之不兼容。这意味着在本地运行该模型有些不太实用,需要通过终端中的文本命令进行。
不过,一些Hugginface用户已经创建了可以尝试该模型的空间。DeepSeek的官方空间目前不可用,所以我们建议使用NeuroSenko的免费空间来尝试Janus 7b。
请注意您的操作,因为有些标题可能会让人误解。例如,AP123运营的空间声称运行的是Janus Pro 7b,但实际上运行的是Janus Pro 1.5b——这可能会让您浪费大量时间测试模型并得到糟糕的结果。相信我们,我们就是这样经历的。
该模型擅长视觉理解,可以准确描述照片中的元素。
它显示了良好的空间感和不同物体之间的关系。
它也比LlaVa(最流行的开源视觉模型)更准确,能够提供更准确的场景描述,并根据视觉提示与用户互动。
但是,它仍然不如GPT Vision,特别是在需要逻辑或超越照片显示的简单分析的任务中。例如,我们让模型分析这张照片并解释其含义。
模型回答说,"这张图像似乎是一幅幽默的卡通画,描绘了一个女人正在舔一个男孩附着的长长的红色舌头的场景。"
它总结说,"整体来看,这幅图像的氛围似乎是轻松愉快的,可能暗示了一种女人正在进行恶作剧或戏弄行为的场景。"
在需要超越简单描述的推理的情况下,该模型大多数时候都会失败。
相比之下,ChatGPT例如真正理解了图像背后的含义:"这个隐喻暗示母亲的态度、言语或价值观直接影响着孩子的行为,尤其是在欺负或歧视等负面方面,"它得出了准确的结论。
图像生成看起来很强大和相对准确,但需要仔细的提示才能获得好的结果。
DeepSeek声称Janus Pro击败了SD 1.5、SDXL和Pixart Alpha,但需要强调这必须是与基础非微调模型进行的比较。
换句话说,公平的比较是在当前可用的最差版本之间,因为可以说,没有人会在有数百个微调版本可以与即使是最先进的模型如Flux或Stable Diffusion 3.5相媲美时,还使用基础SD 1.5来生成艺术。
所以,生成的质量并不令人印象深刻,但似乎比SD1.5或SDXL刚推出时的输出要好。
例如,这里是Janus和SDXL为提示"一只可爱可爱的棕眼小狐狸,背景是迷人的秋叶,不朽的,毛茸茸的,闪亮的鬃毛,花瓣,仙女,高度详细,逼真,电影感,自然色彩"生成的图像的对比。
Janus在理解核心概念方面胜过SDXL:它能生成一只小狐狸,而不是SDXL生成的成年狐狸。
它也更好地理解了逼真的风格,其他元素(毛茸茸的、电影感)也都存在。
但是,SDXL生成的图像更清晰,尽管没有完全遵循提示。整体质量更好,眼睛更逼真,细节也更容易看出。
其他生成中也呈现了这种模式:理解提示不错,但执行较差,生成的图像模糊不清,与当前最先进的图像生成器相比显得过时。
但是,需要注意的是,Janus是一个多模态LLM,能够生成文本对话、分析图像和生成图像。而Flux、SDXL和其他模型都不是为这些任务而构建的。
所以,Janus在核心上更加通用,只是在任何一个特定任务上都不如专门的模型出色。
作为开源项目,Janus作为生成式AI爱好者中的领导者的未来,将取决于一系列旨在改善这些方面的更新。
由Josh Quittner和Sebastian Sinclair编辑