最先进 LLM 与 MLLM 及图像/视频生成模型调研(2025 年版)
本文档系统梳理了 2025 年最新的开源与闭源大语言模型(LLM)、多模态语言模型(MLLM),以及图像/视频生成模型,按照模型类型与开放程度进行分类,并提供权威链接。
1. 文本型 LLM(Text-only LLM)
1.1 开源模型
- Meta LLaMA 3:包括 8B 与 70B 两种规模,训练数据包含多语种与代码,支持 128K context。
- Mistral AI(Mixtral 8x7B、Mistral Small/Medium):强大的 MoE 架构开源模型,推理效率优,开源社区活跃。
- Falcon 180B:由 TII 发布的大规模 Transformer,表现优异。
- DeepSeek-V2:来自清华背景团队的研究模型,强调推理能力与压缩效率。
- DBRX (Databricks):MoE 架构,性能优于 LLaMA 2。
- Qwen 系列(Qwen 1.5/2.5/3):阿里出品,支持中文、代码、多模态输入。
- GPT-J / GPT-NeoX-20B:EleutherAI 社区实现的 GPT 替代品。
1.2 闭源模型
- GPT-4 / GPT-4o (OpenAI):支持文本、图像、音频的高级模型,推理能力极强。
- Claude 3 (Anthropic):支持 200K 上下文,逻辑、推理任务表现优秀。
- Gemini 1.5/2.5 (Google DeepMind):支持长上下文和多模态能力。
- ERNIE 4.0/4.5 Turbo(百度):大语言模型 + 知识增强的代表。
2. 多模态语言模型 MLLM
2.1 开源模型
- InternVL3-78B:多模态对齐效果强,表现出色。
- Aria (Shanghai AI Lab):支持图文并茂的推理。
- Qwen-VL / Qwen-Omni 系列:多模态理解与生成能力均衡,支持图像、音频、视频。
- LLaVA-Next / LLaVA-1.5:与 LLaMA 相结合的多模态视觉问答模型。
- VILA / VIM (Xverse):全模态对齐能力强,支持 VQA、视频问答等任务。
- VILA-1.5:通用型视觉语言基础模型。
2.2 闭源模型
- GPT-4o (OpenAI):OpenAI 全模态旗舰,支持实时语音、图像、文本混合输入。
- Gemini 2.5 (Google):支持文图音视频一体化处理。
- Claude 3.5 Sonnet/Opus (Anthropic):可用于视觉理解、表格推理等复杂任务。
- ERNIE X1 / 4.5 Turbo(百度):文图音视频一体支持,嵌入飞桨生态。
3. 图像/视频生成模型
3.1 开源模型
- Stable Diffusion XL:最流行的开源文本生成图像模型之一。
- SD Turbo:实时推理优化,适合部署与互动。
- PixArt-α (2024):基于 DiT 架构,生成质量接近 MidJourney。
- Sora 风格开源模型(如 Moonshot-Vid / Open-Sora):模仿 OpenAI Sora 的视频生成模型。
- AnimateDiff:基于 StableDiffusion 动画生成器。
- VideoCrafter2:文本生成视频的强大开源方案。
- ModelScope T2V:阿里达摩院视频生成模型。
3.2 闭源模型
- Sora (OpenAI):文本到高清视频生成的强模型,闭源但展示能力惊人。
- Pika Labs:实时视频生成功能,支持语义控制与风格迁移。
- Runway Gen-2:视频编辑与生成工具,深受艺术家欢迎。
- Google Lumiere:先进的视频生成模型,基于时空一致性优化。
- Kling AI(字节跳动):视频生成接近 Sora 的水准,尚处于灰度内测阶段。
4. 总结与建议
- 如果你追求 最强性能 + 最多模态能力,可选择 GPT-4o、Gemini、Claude 3.5。
- 偏好 可控性 + 自主训练部署,建议使用 Qwen、InternVL、Mistral、LLaVA 系列。
- 在图像/视频生成方面,Stable Diffusion XL + AnimateDiff + VideoCrafter2 是最佳开源路线,闭源方向可持续关注 Sora / Lumiere / Kling。
- 多模态时代已经来临,建议提前构建包括图像/文本/音频/视频的 统一推理链路,为构建 Agent 与 Embodied AI 做准备。
本报告持续更新,后续将纳入评测指标(MMMU、MMLU、MT-Bench 等)、推理速度、部署可行性、应用案例等方面。
联系与协作:欢迎通过 OpenAI API 或 Hugging Face 获取模型接口与文档。
留下评论