少于 1 分钟阅读

本文档系统梳理了 2025 年最新的开源与闭源大语言模型(LLM)、多模态语言模型(MLLM),以及图像/视频生成模型,按照模型类型与开放程度进行分类,并提供权威链接。


1. 文本型 LLM(Text-only LLM)

1.1 开源模型

1.2 闭源模型


2. 多模态语言模型 MLLM

2.1 开源模型

2.2 闭源模型


3. 图像/视频生成模型

3.1 开源模型

3.2 闭源模型

  • Sora (OpenAI):文本到高清视频生成的强模型,闭源但展示能力惊人。
  • Pika Labs:实时视频生成功能,支持语义控制与风格迁移。
  • Runway Gen-2:视频编辑与生成工具,深受艺术家欢迎。
  • Google Lumiere:先进的视频生成模型,基于时空一致性优化。
  • Kling AI(字节跳动):视频生成接近 Sora 的水准,尚处于灰度内测阶段。

4. 总结与建议

  • 如果你追求 最强性能 + 最多模态能力,可选择 GPT-4o、Gemini、Claude 3.5。
  • 偏好 可控性 + 自主训练部署,建议使用 Qwen、InternVL、Mistral、LLaVA 系列。
  • 在图像/视频生成方面,Stable Diffusion XL + AnimateDiff + VideoCrafter2 是最佳开源路线,闭源方向可持续关注 Sora / Lumiere / Kling
  • 多模态时代已经来临,建议提前构建包括图像/文本/音频/视频的 统一推理链路,为构建 Agent 与 Embodied AI 做准备。

本报告持续更新,后续将纳入评测指标(MMMU、MMLU、MT-Bench 等)、推理速度、部署可行性、应用案例等方面。

联系与协作:欢迎通过 OpenAI APIHugging Face 获取模型接口与文档。

留下评论