深度学习(计算机视觉)常用资源大全
本文件系统整理了计算机视觉领域中与深度学习相关的常用网站、文档、数据集、工具库及 GitHub 优秀项目,适用于学生、研究者和工程师进行深入学习与开发实践。
目录
一、学习与文档资源
📘 官方文档(权威学习入口)
- PyTorch:Facebook 开源的深度学习框架,兼具灵活性与高效性。
- TorchVision:PyTorch 生态中的计算机视觉扩展库,提供数据集、模型、预处理方法等。
- OpenCV:开源计算机视觉库,提供图像处理与传统视觉算法接口。
- MMEngine & OpenMMLab:国内主流视觉算法平台,涵盖检测、分割、姿态估计、视频理解等。
- Hugging Face Transformers:多模态 transformer 模型及其文档(如 CLIP、BLIP 等)。
- TensorFlow:Google 开源的深度学习框架,适合大规模部署。
- Keras:高层次神经网络 API,支持 TensorFlow、Theano 等后端,易于上手。
- Fastai:基于 PyTorch 的高层次深度学习库,
📚 系统课程与学习资料
- CS231n:斯坦福大学计算机视觉课程,系统讲解 CNN 基础与视觉任务。
- CS143: Vision Transformers:关注当前主流 ViT 系列模型的课程。
- Fast.ai 深度学习速成:强调实践、适合有编程基础的学习者。
- MIT 6.S191:MIT 深度学习公开课,涵盖 Transformer、强化学习等。
- Deep Learning Book:Ian Goodfellow 编著的深度学习经典教材。
二、常用数据集与平台
为便于查找与应用,按任务类型进行分类。
2.1 图像分类
- ImageNet:大规模图像分类数据集,常用于预训练与挑战赛。
- CIFAR-10/CIFAR-100:小型分类数据集,适合模型验证与初学者入门。
- Tiny ImageNet:“轻量版” ImageNet,适合资源受限的训练测试。
2.2 目标检测
- COCO:包含图像分类、检测、分割和关键点标注,广泛用于检测算法评估。
- Pascal VOC:较早的目标检测数据集,仍用于轻量算法验证。
- Open Images:Google 提供的开放检测数据集,含有千万级标注。
- LVIS:大规模视觉识别数据集,包含丰富的长尾类别标注。
- Cityscapes:专注于城市街景的检测与分割任务,适用于自动驾驶场景。
- ADE20K:包含丰富的场景理解标注,适用于检测与分割任务。
2.3 语义/实例分割
- ADE20K:语义分割任务中常用,支持 150 类场景理解。
- Cityscapes:专注于自动驾驶城市街景分割任务。
- Mapillary Vistas:包含全球不同国家和环境中的街景图像。
2.4 深度估计与三维感知
- KITTI:自动驾驶相关数据集,含深度、光流、立体视觉标注。
- NYU Depth V2:室内 RGB-D 数据集,用于单目深度估计与场景理解。
- Hypersim:Apple 提供的室内合成数据集,含 RGB、深度、法线等。
- ScanNet:3D 重建与室内场景理解数据集。
2.5 多模态与跨模态
- Visual Genome:视觉问答、图像标注与关系推理常用数据集。
- Flickr30k/COCO Captions:图文对标注,适用于图像字幕与跨模态检索任务。
- VQAv2:图像问答数据集,支持模型学习图文结合理解能力。
2.6 水下 / 遥感 / 医学等特定领域
- UIEB:水下图像增强基准数据集。
- RUIE:水下图像恢复综合评测数据集。
- DRIVE:视网膜图像分割(医学图像)数据集。
- DeepGlobe:遥感图像的分割、分类和道路提取。
- SeaThru:真实世界水下图像数据集,含深度与颜色参考。
三、经典与前沿 GitHub 项目
🔍 图像分类与 Transformer 模型
🧠 检测与分割模型框架
- MMDetection:OpenMMLab 出品的检测框架,模块化设计。
- Detectron2:Facebook 开源的检测与分割框架。
- YOLOv8:YOLO 系列最新实现,支持检测、分割与追踪。
🌐 多模态与生成模型
- CLIP:OpenAI 提出的图文对比学习模型。
- BLIP-2:多模态预训练视觉语言模型。
- Latent Diffusion:生成式模型项目,图像生成与编辑。
四、工具与库
🧰 通用深度学习工具
- NumPy:科学计算基础库。
- Pandas:结构化数据处理。
- Matplotlib / Seaborn:可视化绘图库。
📊 可视化与实验追踪
- TensorBoard:TensorFlow 生态可视化工具,PyTorch 同样可用。
- Weights & Biases:实验管理、超参追踪与结果可视化平台。
🛠️ 图像处理与标注工具
- Albumentations:强大的数据增强库。
- Labelme:图像手动标注工具,支持多种格式。
- Roboflow:图像数据平台,支持标注、增强与导出格式转换。
五、会议与论文检索
📚 论文平台
- arXiv (cs.CV):最新视觉相关论文。
- Papers With Code:结合论文与代码,追踪 SOTA。
- Semantic Scholar::AI 驱动的学术搜索引擎,提供论文摘要与引用。
- Google Scholar::广泛使用的学术搜索引擎,支持论文检索与引用分析。
🏛️ 国际顶会网站
- CVPR:IEEE 主办,计算机视觉最顶级会议。
- ICCV:计算机视觉双年顶会,与 CVPR 交替举办。
- ECCV: 欧洲计算机视觉会议,每两年举办一次。
- NeurIPS:神经信息处理系统会议,涵盖深度学习与计算机视觉。
- ICLR:国际学习表征会议,专注于深度学习理论与方法。
- AAAI:美国人工智能协会会议,涵盖 AI 各领域。
六、博客与论坛社区
🌐 技术博客
- Distill.pub:以可视化方式解释复杂深度学习概念。
- Lil’Log by Lilian Weng
- Andrej Karpathy Blog
- Towards Data Science
💬 社区与问答平台
- GitHub Discussions:许多开源项目的讨论区,适合提问与交流。
- Kaggle:数据科学竞赛平台,提供数据集、代码与社区讨论。
- OpenAI Community:OpenAI 官方社区,讨论 AI 相关话题。
- Hugging Face Forum:Hugging Face 社区,专注于 Transformers 与多模态模型。
- Reddit r/MachineLearning: 机器学习与深度学习的活跃社区,讨论最新研究与技术。
- Stack Overflow:计算机编程问答社区,适合解决具体技术问题。
- 知乎:深度学习话题: 深度学习相关问题与讨论,适合中文用户。
若有遗漏或更优资源,欢迎补充完善。
留下评论