本文件系统整理了计算机视觉领域中与深度学习相关的常用网站、文档、数据集、工具库及 GitHub 优秀项目,适用于学生、研究者和工程师进行深入学习与开发实践。


目录


一、学习与文档资源

📘 官方文档(权威学习入口)

  • PyTorch:Facebook 开源的深度学习框架,兼具灵活性与高效性。
  • TorchVision:PyTorch 生态中的计算机视觉扩展库,提供数据集、模型、预处理方法等。
  • OpenCV:开源计算机视觉库,提供图像处理与传统视觉算法接口。
  • MMEngine & OpenMMLab:国内主流视觉算法平台,涵盖检测、分割、姿态估计、视频理解等。
  • Hugging Face Transformers:多模态 transformer 模型及其文档(如 CLIP、BLIP 等)。
  • TensorFlow:Google 开源的深度学习框架,适合大规模部署。
  • Keras:高层次神经网络 API,支持 TensorFlow、Theano 等后端,易于上手。
  • Fastai:基于 PyTorch 的高层次深度学习库,

📚 系统课程与学习资料


二、常用数据集与平台

为便于查找与应用,按任务类型进行分类。

2.1 图像分类

  • ImageNet:大规模图像分类数据集,常用于预训练与挑战赛。
  • CIFAR-10/CIFAR-100:小型分类数据集,适合模型验证与初学者入门。
  • Tiny ImageNet:“轻量版” ImageNet,适合资源受限的训练测试。

2.2 目标检测

  • COCO:包含图像分类、检测、分割和关键点标注,广泛用于检测算法评估。
  • Pascal VOC:较早的目标检测数据集,仍用于轻量算法验证。
  • Open Images:Google 提供的开放检测数据集,含有千万级标注。
  • LVIS:大规模视觉识别数据集,包含丰富的长尾类别标注。
  • Cityscapes:专注于城市街景的检测与分割任务,适用于自动驾驶场景。
  • ADE20K:包含丰富的场景理解标注,适用于检测与分割任务。

2.3 语义/实例分割

  • ADE20K:语义分割任务中常用,支持 150 类场景理解。
  • Cityscapes:专注于自动驾驶城市街景分割任务。
  • Mapillary Vistas:包含全球不同国家和环境中的街景图像。

2.4 深度估计与三维感知

  • KITTI:自动驾驶相关数据集,含深度、光流、立体视觉标注。
  • NYU Depth V2:室内 RGB-D 数据集,用于单目深度估计与场景理解。
  • Hypersim:Apple 提供的室内合成数据集,含 RGB、深度、法线等。
  • ScanNet:3D 重建与室内场景理解数据集。

2.5 多模态与跨模态

  • Visual Genome:视觉问答、图像标注与关系推理常用数据集。
  • Flickr30k/COCO Captions:图文对标注,适用于图像字幕与跨模态检索任务。
  • VQAv2:图像问答数据集,支持模型学习图文结合理解能力。

2.6 水下 / 遥感 / 医学等特定领域

  • UIEB:水下图像增强基准数据集。
  • RUIE:水下图像恢复综合评测数据集。
  • DRIVE:视网膜图像分割(医学图像)数据集。
  • DeepGlobe:遥感图像的分割、分类和道路提取。
  • SeaThru:真实世界水下图像数据集,含深度与颜色参考。

三、经典与前沿 GitHub 项目

🔍 图像分类与 Transformer 模型

  • timm:收录各类主流分类网络与预训练权重。
  • ConvNeXt:基于 ResNet 架构的 CNN 改进版,与 ViT 表现媲美。
  • DINOv2:自监督视觉表征预训练,兼顾分类与下游迁移。

🧠 检测与分割模型框架

  • MMDetection:OpenMMLab 出品的检测框架,模块化设计。
  • Detectron2:Facebook 开源的检测与分割框架。
  • YOLOv8:YOLO 系列最新实现,支持检测、分割与追踪。

🌐 多模态与生成模型

  • CLIP:OpenAI 提出的图文对比学习模型。
  • BLIP-2:多模态预训练视觉语言模型。
  • Latent Diffusion:生成式模型项目,图像生成与编辑。

四、工具与库

🧰 通用深度学习工具

📊 可视化与实验追踪

  • TensorBoard:TensorFlow 生态可视化工具,PyTorch 同样可用。
  • Weights & Biases:实验管理、超参追踪与结果可视化平台。

🛠️ 图像处理与标注工具

  • Albumentations:强大的数据增强库。
  • Labelme:图像手动标注工具,支持多种格式。
  • Roboflow:图像数据平台,支持标注、增强与导出格式转换。

五、会议与论文检索

📚 论文平台

🏛️ 国际顶会网站

  • CVPR:IEEE 主办,计算机视觉最顶级会议。
  • ICCV:计算机视觉双年顶会,与 CVPR 交替举办。
  • ECCV: 欧洲计算机视觉会议,每两年举办一次。
  • NeurIPS:神经信息处理系统会议,涵盖深度学习与计算机视觉。
  • ICLR:国际学习表征会议,专注于深度学习理论与方法。
  • AAAI:美国人工智能协会会议,涵盖 AI 各领域。

六、博客与论坛社区

🌐 技术博客

💬 社区与问答平台


若有遗漏或更优资源,欢迎补充完善。

留下评论