Cao Jiahao

Ph.D. student in AI, focusing on computer vision and deep learning. Passionate about sharing knowledge and building open-source projects.

最先进 LLM 与 MLLM 及图像/视频生成模型调研（2025 年版）

July 1, 2025 少于 1 分钟阅读

本文档系统梳理了 2025 年最新的开源与闭源大语言模型（LLM）、多模态语言模型（MLLM），以及图像/视频生成模型，按照模型类型与开放程度进行分类，并提供权威链接。

1. 文本型 LLM（Text-only LLM）

1.1 开源模型

Meta LLaMA 3：包括 8B 与 70B 两种规模，训练数据包含多语种与代码，支持 128K context。
Mistral AI（Mixtral 8x7B、Mistral Small/Medium）：强大的 MoE 架构开源模型，推理效率优，开源社区活跃。
Falcon 180B：由 TII 发布的大规模 Transformer，表现优异。
DeepSeek-V2：来自清华背景团队的研究模型，强调推理能力与压缩效率。
DBRX (Databricks)：MoE 架构，性能优于 LLaMA 2。
Qwen 系列（Qwen 1.5/2.5/3）：阿里出品，支持中文、代码、多模态输入。
GPT-J / GPT-NeoX-20B：EleutherAI 社区实现的 GPT 替代品。

1.2 闭源模型

GPT-4 / GPT-4o (OpenAI)：支持文本、图像、音频的高级模型，推理能力极强。
Claude 3 (Anthropic)：支持 200K 上下文，逻辑、推理任务表现优秀。
Gemini 1.5/2.5 (Google DeepMind)：支持长上下文和多模态能力。
ERNIE 4.0/4.5 Turbo（百度）：大语言模型 + 知识增强的代表。

2. 多模态语言模型 MLLM

2.1 开源模型

InternVL3-78B：多模态对齐效果强，表现出色。
Aria (Shanghai AI Lab)：支持图文并茂的推理。
Qwen-VL / Qwen-Omni 系列：多模态理解与生成能力均衡，支持图像、音频、视频。
LLaVA-Next / LLaVA-1.5：与 LLaMA 相结合的多模态视觉问答模型。
VILA / VIM (Xverse)：全模态对齐能力强，支持 VQA、视频问答等任务。
VILA-1.5：通用型视觉语言基础模型。

2.2 闭源模型

GPT-4o (OpenAI)：OpenAI 全模态旗舰，支持实时语音、图像、文本混合输入。
Gemini 2.5 (Google)：支持文图音视频一体化处理。
Claude 3.5 Sonnet/Opus (Anthropic)：可用于视觉理解、表格推理等复杂任务。
ERNIE X1 / 4.5 Turbo（百度）：文图音视频一体支持，嵌入飞桨生态。

3. 图像/视频生成模型

3.1 开源模型

Stable Diffusion XL：最流行的开源文本生成图像模型之一。
SD Turbo：实时推理优化，适合部署与互动。
PixArt-α (2024)：基于 DiT 架构，生成质量接近 MidJourney。
Sora 风格开源模型（如 Moonshot-Vid / Open-Sora）：模仿 OpenAI Sora 的视频生成模型。
AnimateDiff：基于 StableDiffusion 动画生成器。
VideoCrafter2：文本生成视频的强大开源方案。
ModelScope T2V：阿里达摩院视频生成模型。

3.2 闭源模型

Sora (OpenAI)：文本到高清视频生成的强模型，闭源但展示能力惊人。
Pika Labs：实时视频生成功能，支持语义控制与风格迁移。
Runway Gen-2：视频编辑与生成工具，深受艺术家欢迎。
Google Lumiere：先进的视频生成模型，基于时空一致性优化。
Kling AI（字节跳动）：视频生成接近 Sora 的水准，尚处于灰度内测阶段。

4. 总结与建议

如果你追求 最强性能 + 最多模态能力，可选择 GPT-4o、Gemini、Claude 3.5。
偏好 可控性 + 自主训练部署，建议使用 Qwen、InternVL、Mistral、LLaVA 系列。
在图像/视频生成方面，Stable Diffusion XL + AnimateDiff + VideoCrafter2 是最佳开源路线，闭源方向可持续关注 Sora / Lumiere / Kling。
多模态时代已经来临，建议提前构建包括图像/文本/音频/视频的 统一推理链路，为构建 Agent 与 Embodied AI 做准备。

本报告持续更新，后续将纳入评测指标（MMMU、MMLU、MT-Bench 等）、推理速度、部署可行性、应用案例等方面。

联系与协作：欢迎通过 OpenAI API 或 Hugging Face 获取模型接口与文档。

分享

X Facebook LinkedIn Bluesky Reddit Douyin Weibo Pinterest Zhihu Email

留下评论

猜您还喜欢

深度学习研究全流程技能指南

July 1, 2025 少于 1 分钟阅读

研究生阅读深度学习学术文献的技巧与策略

July 1, 2025 少于 1 分钟阅读

Python 教程：快速入门

July 1, 2025 6 分钟阅读

机器学习概述

July 1, 2025 4 分钟阅读