Cao Jiahao

Ph.D. student in AI, focusing on computer vision and deep learning. Passionate about sharing knowledge and building open-source projects.

深度学习（计算机视觉）常用资源大全

July 1, 2025

本文件系统整理了计算机视觉领域中与深度学习相关的常用网站、文档、数据集、工具库及 GitHub 优秀项目，适用于学生、研究者和工程师进行深入学习与开发实践。

目录

目录
一、学习与文档资源
- 📘 官方文档（权威学习入口）
- 📚 系统课程与学习资料
二、常用数据集与平台
三、经典与前沿 GitHub 项目
四、工具与库
五、会议与论文检索
- 📚 论文平台
- 🏛️ 国际顶会网站
六、博客与论坛社区
- 🌐 技术博客
- 💬 社区与问答平台

一、学习与文档资源

📘 官方文档（权威学习入口）

PyTorch：Facebook 开源的深度学习框架，兼具灵活性与高效性。
TorchVision：PyTorch 生态中的计算机视觉扩展库，提供数据集、模型、预处理方法等。
OpenCV：开源计算机视觉库，提供图像处理与传统视觉算法接口。
MMEngine & OpenMMLab：国内主流视觉算法平台，涵盖检测、分割、姿态估计、视频理解等。
Hugging Face Transformers：多模态 transformer 模型及其文档（如 CLIP、BLIP 等）。
TensorFlow：Google 开源的深度学习框架，适合大规模部署。
Keras：高层次神经网络 API，支持 TensorFlow、Theano 等后端，易于上手。
Fastai：基于 PyTorch 的高层次深度学习库，

📚 系统课程与学习资料

CS231n：斯坦福大学计算机视觉课程，系统讲解 CNN 基础与视觉任务。
CS143: Vision Transformers：关注当前主流 ViT 系列模型的课程。
Fast.ai 深度学习速成：强调实践、适合有编程基础的学习者。
MIT 6.S191：MIT 深度学习公开课，涵盖 Transformer、强化学习等。
Deep Learning Book：Ian Goodfellow 编著的深度学习经典教材。

二、常用数据集与平台

为便于查找与应用，按任务类型进行分类。

2.1 图像分类

ImageNet：大规模图像分类数据集，常用于预训练与挑战赛。
CIFAR-10/CIFAR-100：小型分类数据集，适合模型验证与初学者入门。
Tiny ImageNet：“轻量版” ImageNet，适合资源受限的训练测试。

2.2 目标检测

COCO：包含图像分类、检测、分割和关键点标注，广泛用于检测算法评估。
Pascal VOC：较早的目标检测数据集，仍用于轻量算法验证。
Open Images：Google 提供的开放检测数据集，含有千万级标注。
LVIS：大规模视觉识别数据集，包含丰富的长尾类别标注。
Cityscapes：专注于城市街景的检测与分割任务，适用于自动驾驶场景。
ADE20K：包含丰富的场景理解标注，适用于检测与分割任务。

2.3 语义/实例分割

ADE20K：语义分割任务中常用，支持 150 类场景理解。
Cityscapes：专注于自动驾驶城市街景分割任务。
Mapillary Vistas：包含全球不同国家和环境中的街景图像。

2.4 深度估计与三维感知

KITTI：自动驾驶相关数据集，含深度、光流、立体视觉标注。
NYU Depth V2：室内 RGB-D 数据集，用于单目深度估计与场景理解。
Hypersim：Apple 提供的室内合成数据集，含 RGB、深度、法线等。
ScanNet：3D 重建与室内场景理解数据集。

2.5 多模态与跨模态

Visual Genome：视觉问答、图像标注与关系推理常用数据集。
Flickr30k/COCO Captions：图文对标注，适用于图像字幕与跨模态检索任务。
VQAv2：图像问答数据集，支持模型学习图文结合理解能力。

2.6 水下 / 遥感 / 医学等特定领域

UIEB：水下图像增强基准数据集。
RUIE：水下图像恢复综合评测数据集。
DRIVE：视网膜图像分割（医学图像）数据集。
DeepGlobe：遥感图像的分割、分类和道路提取。
SeaThru：真实世界水下图像数据集，含深度与颜色参考。

三、经典与前沿 GitHub 项目

🔍 图像分类与 Transformer 模型

timm：收录各类主流分类网络与预训练权重。
ConvNeXt：基于 ResNet 架构的 CNN 改进版，与 ViT 表现媲美。
DINOv2：自监督视觉表征预训练，兼顾分类与下游迁移。

🧠 检测与分割模型框架

MMDetection：OpenMMLab 出品的检测框架，模块化设计。
Detectron2：Facebook 开源的检测与分割框架。
YOLOv8：YOLO 系列最新实现，支持检测、分割与追踪。

🌐 多模态与生成模型

CLIP：OpenAI 提出的图文对比学习模型。
BLIP-2：多模态预训练视觉语言模型。
Latent Diffusion：生成式模型项目，图像生成与编辑。

四、工具与库

🧰 通用深度学习工具

NumPy：科学计算基础库。
Pandas：结构化数据处理。
Matplotlib / Seaborn：可视化绘图库。

📊 可视化与实验追踪

TensorBoard：TensorFlow 生态可视化工具，PyTorch 同样可用。
Weights & Biases：实验管理、超参追踪与结果可视化平台。

🛠️ 图像处理与标注工具

Albumentations：强大的数据增强库。
Labelme：图像手动标注工具，支持多种格式。
Roboflow：图像数据平台，支持标注、增强与导出格式转换。

五、会议与论文检索

📚 论文平台

arXiv (cs.CV)：最新视觉相关论文。
Papers With Code：结合论文与代码，追踪 SOTA。
Semantic Scholar:：AI 驱动的学术搜索引擎，提供论文摘要与引用。
Google Scholar:：广泛使用的学术搜索引擎，支持论文检索与引用分析。

🏛️ 国际顶会网站

CVPR：IEEE 主办，计算机视觉最顶级会议。
ICCV：计算机视觉双年顶会，与 CVPR 交替举办。
ECCV: 欧洲计算机视觉会议，每两年举办一次。
NeurIPS:神经信息处理系统会议，涵盖深度学习与计算机视觉。
ICLR:国际学习表征会议，专注于深度学习理论与方法。
AAAI:美国人工智能协会会议，涵盖 AI 各领域。

六、博客与论坛社区

🌐 技术博客

Distill.pub：以可视化方式解释复杂深度学习概念。
Lil’Log by Lilian Weng
Andrej Karpathy Blog
Towards Data Science

💬 社区与问答平台

GitHub Discussions:许多开源项目的讨论区，适合提问与交流。
Kaggle:数据科学竞赛平台，提供数据集、代码与社区讨论。
OpenAI Community:OpenAI 官方社区，讨论 AI 相关话题。
Hugging Face Forum:Hugging Face 社区，专注于 Transformers 与多模态模型。
Reddit r/MachineLearning: 机器学习与深度学习的活跃社区，讨论最新研究与技术。
Stack Overflow:计算机编程问答社区，适合解决具体技术问题。
知乎：深度学习话题: 深度学习相关问题与讨论，适合中文用户。

若有遗漏或更优资源，欢迎补充完善。

分享

X Facebook LinkedIn Bluesky Reddit Douyin Weibo Pinterest Zhihu Email

留下评论