课程详细信息

深度学习实战：计算机视觉课程详细信息

课程号	04833680	学分	2
英文名称	Deep Learning in Action: Computer Vision
先修课程	本课程适合二年级及二年级以上的本科生。对先修知识有如下要求： 1. 具备程序设计能力，理解Python编程，建议课程04833490 计算机科学与编程入门 Introduction to Computer Science and Programming。 2. 具备基本的高等数学、线性代数基础； 3. 课程会介绍机器学习相关知识，特别是深度学习的相关概念。如有机器学习的基础，效果会更好。
中文简介	中文课程简介（为了便于学生选课，2000字以内）计算机视觉是深度学习最先取得突破并得到广泛应用的领域，本课程以让课程参与者具备计算机视觉相关深度学习算法的实际应用能力为目标，设计了大量实验，覆盖从基础理论、算法到实际应用的知识点，通过使用基于云端的深度学习一站式计算平台，在课堂上将上机实践与理论讲解无缝结合，以实践为目标牵引理论学习，最终使学生获得有理论指导的深度学习应用实践能力。为了让更多的学生能够获得深度学习应用能力，本课程从理论、实践环节通过云上计算平台，对深度学习所涉及复杂的异构硬件架构、系统实现等进行了透明化处理，在有限的课时中，教授应用深度学习到实际环境中最为核心的知识与技能。参加课程的学生即使无代码、系统基础，亦可理解深度学习，获得深度学习实践应用能力。课程设计既独立成章又层层递进，参与者通过本课程既能深入理解深度学习基本概念和理论、计算机视觉中的物体检测、分类和语义分割等主要问题及相应算法和深度学习项目完整工作流，又能实际动手将学到的理论、算法和工作流应用到主流竞赛（Kaggle和ImageNet等）和真实场景（包括智能交通、人脸识别和自动驾驶等）中的实际问题，通过实战熟悉计算机视觉的深度学习全流程，具备独立开展项目研究和应用开发的能力。
英文简介	Computer vision is one of the first area where deep learning has achieved breakthroughs and has been widely used. This course aims to give course participants the practical application capabilities of computer vision related deep learning algorithms. Based on the deep learning cloud platform, a large number of experiments were designed to cover knowledge points from basic theory and algorithms to practical applications, and a set of graphical operation interfaces were used to reduce the barriers to actual operations. The contents of the course are both independent and progressive. Participants can thoroughly understand the basic concepts and theories of deep learning, object detection, classification and semantic segmentation in computer vision and the workflow of the deep learning projects. Students can actually apply the learned theories, algorithms, and workflows to practical issues in mainstream competitions (Kaggle and ImageNet, etc.) and real-world scenarios (including intelligent transportation, face recognition, and automatic driving, etc.). After these practice, students will be familiar with the entire workflow of deep learning in computer vision and have the ability to independently conduct academic research and application development.
开课院系	信息科学技术学院
通选课领域
是否属于艺术与美育	否
平台课性质
平台课类型
授课语言	中文
教材	深度学习,Ian Goodfellow,Yoshua Bengio,,人民邮电出版社,2017；计算机视觉——一种现代方法（第二版）,David Forsyth,电子工业出版社,2017,图像处理、分析与机器视觉,Milan Sonka，Vaclav Hlavac，Roger Boyle,清华大学出版社,2016,数字图像处理（第三版）,Rafael C. Gonzalez, Richard E. Woods,电子工业出版社,2017,计算机视觉：算法与应用,Richard Szeliski,清华大学出版社,2012,Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems,Aurélien Géron,O'Reilly Media,2017,Deep Learning with Python,Fran？ois Chollet,Manning,2017,深度学习,Ian Goodfellow,Yoshua Bengio,,人民邮电出版社,2017,统计学习方法,李航,清华大学出版社,2012,Make Your Own Neural Network,Tariq Rashid,CreateSpace Independent Publishing Platform,2016,Neural Networks and Deep Learning,Michael A. Nielsen,Determination Press,2015,计算机视觉：模型、学习和推理,Simon J.D.Prince,机械工业出版社,2017,机器学习,周志华,清华大学出版社,2016,
参考书
教学大纲	课程分为4章共9个小节，既独立成章又层层递进，以让课程参与者具备计算机视觉相关深度学习算法的实际应用能力为目标。第1章覆盖深度学习基本概念和原理、计算机视觉常见问题和相应算法、训练的工作流和技巧、深度学习系统的使用等，完成学习后应对计算机视觉中的深度学习有全景认识；第2章在应用主流物体检测和分类的深度算法在Kaggle和ImageNet的真实公开数据上进行训练并评测的过程中，让学生了解典型物体检测和分类算法并初步具备模型训练能力；第3章通过对真实场景中遇到的车辆检测和识别、人脸检测和识别、交通场景语义分割等问题的解决，了解相关的自定义网络、人脸检测识别算法、语义分割算法等，并掌握从数据的标注、预处理到模型的分布式训练、评测和上线等实际落地能力；第4章结合真实系统，讲解深度学习项目全流程中涉及的工作流与基础设施，以及深度学习项目的组织和管理。具体章节如下： 1. 基本概念、理论、流程和系统 1.1. 计算机视觉与深度卷积神经网络结合具体代码示例理解计算机视觉常见问题、卷积神经网络基本结构及其中的卷积层、池化层、全连接层等，并简介典型卷积神经网络结构和算法，如LeNet、VGG、GoogLeNet、ResNet等。结合具体代码示例理解深度学习基本概念和原理，包括损失函数、优化、梯度下降、学习率、神经网络、激活函数等。 1.2. 从数据到模型：训练的工作流和技巧结合具体问题讲解的基本工作流，包括数据集准备、训练的基本流程、参数和超参数的概念、优化算法和激活函数、欠拟合与过拟合的概念、原因及深度学习中常用的解决办法，如数据增强、归一化、权重初始化、Batch Norm、Weight Decay、Dropout等。 1.3. 从算法到代码：深度学习系统的演进结合具体代码示例讲解深度学习系统的演进，并以Tensorflow和ETFlow为例，介绍深度学习系统涉及的概念、原理及实现，完成简单的深度学习算法的代码实现及训练。 2. 通过竞赛理解算法和训练 2.1. 从零开始训练自己的模型参加Kaggle比赛详细介绍典型物体分类网络，并使用真实的Kaggle比赛数据集，完成从零开始的物体分类网络训练，到达或接近Kaggle比赛Top排名的准确率。 2.2. 达到ImageNet比赛冠军的水平详细介绍典型物体检测网络，并使用真实的ImageNet公开数据集，完成Fine tune的物体分类网络训练，到达或接近ImageNet比赛冠军的准确率。 3. 将算法应用于真实场景 3.1. 智能交通中的车辆检测与结构化在之前的物体检测和识别网络基础上，使用真实的交通摄像头数据完成车辆检测、颜色与类型的识别网络的训练，包括真实数据的标注与增强，以及半自动化标注等真实场景落地的方法和技巧，实现在智能交通场景的初步落地。 3.2. 人脸识别中的人脸检测与比对理解人脸检测和比对网络，使用公开的人脸数据集完成人脸检测、1:1和1:N的比对网络的训练，包括数据选择和处理、基于Serving的云端部署等真实场景落地的方法和技巧，实现在人脸识别场景的初步落地。 3.3. 自动驾驶中的图像语义分割理解图像语义分割网络，使用公开自动驾驶数据集完成图像语义分割网络的训练，包括分布式训练方法的原理和训练实践，实现在自动驾驶场景的初步落地。 4. 深度学习项目 4.1. 成功的开展一个深度学习项目结合真实系统，讲解深度学习项目全流程中涉及的工作流与基础设施，以及深度学习项目的组织和管理，实现从零开始一个成功的深度学习项目。课堂讲授与上机实践并重，辅以文献阅读。考试分为文献阅读报告和项目，具体比例如下： 2次文献阅读报告 20%； 2次个人项目每次 20% 共40%； 1次团队项目(Team Presentation) 40%。
教学评估	代亚非：学年度学期：17-18-3，课程班：深度学习实战：计算机视觉1，课程推荐得分：4.29，教师推荐得分：4.46，课程得分分数段：85-90；