大模型:从基础到前沿课程详细信息

课程号 04835500 学分 2
英文名称 Large Models: From fundamental to frontier
先修课程 高等数学(或者数学分析)、线性代数(或高等代数)、计算概论。
中文简介 近年来,大模型的出现极大地促进了人工智能的发展,并把人工智能引入新的发展阶段,这其中人机对话系统ChatGPT是一个标志性事件。本课程涵盖了神经网络与深度学习基础、注意力机制与Transformer、语言大模型、视觉与多模态大模型、大模型微调技术、提示工程(Prompting)与上下文学习和课程项目实践等内容。在本课程中,学生将掌握最基本的基础理论知识,了解并接触最前沿的技术。通过课程内容讲授、课外作业和课程项目实践等多种教学方式相结合,学生能掌握设计和实现基于大模型的应用系统所必须的基本原理和技术,并对自己实现的系统有深入的理解,建立起对大模型全面而深入的认识。
英文简介 In recent years, Large Models have emerged and greatly promoted the development of Artificial Intelligence and bring Artificial Intelligence to a new stage, where ChatGPT is a milestone example. This course provides a thorough introduction to basic technologies and cutting-edge research in Large Models, including the fundamental of neural networks and deep learning, attention mechanism, Transformer, large language model, large vision and multimodal model, fine-tuning technology for Large Models, Prompting, In-Context Learning, and practice. Through lectures, assignments and a course project, students will develop systems based on Large Models and learn the necessary skills to design, implement, and understand their own models, and finally establish a comprehensive and in-depth understanding of large models.
开课院系 信息科学技术学院
成绩记载方式  
通识课所属系列  
授课语言 中文
教材
参考书
教学大纲 大模型是当前人工智能新兴的核心研究方向,推动人工智能进入新的发展阶段,被视为传统弱人工智能迈入通用人工智能的关键技术,成为引领未来的战略性技术,已经上升到提升国家核心竞争力的国家战略地位。本课程介绍大模型所涉及的基本概念、理论方法、关键技术、前沿进展、以及其发展过程中面临的挑战及发展趋势,引导学生理解和建立相关的系统性知识,了解和把握最新的研究和应用进展。课程通过课堂讲授、前沿论文研读和课程项目实践,重点培养同学运用理论方法和技术解决人工智能关键问题并形成创新解决方案的能力,以及把所学知识应用于自然语言处理、图像处理、计算机视觉、互联网、AI for Science(人工智能驱动的科学研究)等领域解决实际问题的能力。同时,培养学生良好的实验数据分析能力和严谨的辩证式科研思维习惯,为后续深入学习和研究打下扎实基础。
1、大模型发展史与神经网络基础:发展史介绍从神经网络到深度学习,再到大模型的发展史,重点讲解在发展过程中面临的主要挑战以及克服这些挑战所提出的关键创新技术。神经网络基础讲解神经网络概述、感知器模型、前馈神经网络模型、激活函数、矩阵求导、反向传播、梯度下降。3学时

2、深度学习:介绍卷积神经网络、循环神经网络、图神经网络的基本概念和基础架构,以及训练深度神经网络所用到的参数范式正则化、数据增强、Early Stopping、Dropout、残差连接、Batch Normalization、Layer Normalization等技术。3学时

3、注意力机制与Transformer:介绍深度学习引用注意力机制的意义、注意力机制的基本概念和通用的K-Q-V注意力框架、Transformer的编码器-解码器框架、位置编码、自注意力、多头自注意力、遮掩多头自注意力、Cross-attention、Transformer的学习与训练。 3学时

4、语言大模型:介绍语言模型基本概念、基于编码器的预训练语言模型(BERT)及其训练方法,基于编码-解码器的预训练语言模型(T5)及其训练方法,基于解码器的预训练语言模型(GPT系列)及其训练方法,以及语言大模型在自然语言处理中的应用。3学时

5、视觉与多模态大模型:介绍基于Transformer的视觉大模型ViT和Swin Transformer的基本框架和训练,以及基于Transformer的多模态大模型CLIP、DALL-E和Flamingo的基本框架和训练,以及上述大模型在跨媒体检索、跨媒体生成(文生图、图生文等)等方面的应用;介绍3学时

6、大模型微调技术:介绍指令微调,人类反馈强化学习(RLHF),参数高效微调(BitFit、Adapter Tuning、Prefix Tuning、LoRA、FacT等)的基本内容和相关算法,以及上述技术的应用。 3学时

7、提示工程(Prompting)与上下文学习(In-Context Learning):介绍提示工程的基本概念、上下文学习的基本概念、零样本学习(zero-shot learning)、少样本学习(few-shot learning)、思维链(CoT),以及上述技术的应用。3学时

8、论文研读报告:学生阅读前沿论文并做报告。9学时

9、课程项目汇报:分组报告课程项目并回答问题。4学时
本课程采用以理论教学和实践教学并重的理论与实践相辅相成的教学方式。理论教学注重基本概念、方法和技术的讲解,以问题为引导,以解决问题的模型为主干,详细阐述不同阶段的理论方法和技术,并通过简洁直观、生动活泼的课件予以展示,从而在理论层面上达到让学生既看到森林又看到树木的效果,增进同学对理论方法的理解和掌握。实践教学方面,结合当前国际最新的研究发展趋势,引导学生开展有探索性和创新性的课程项目,培养学生理论结合实践能力、动手能力和独立思考能力,以解决具体问题为驱动,学以致用,用以促学。
课时分配方面:教师讲授占60%左右,学生课程项目报告占40%左右。
课程成绩由课堂表现、论文阅读报告、课程项目等三部分组成。 其中,课堂表现占总成绩的10%;论文阅读报告占总成绩40%;课程项目占总成绩的50%。
教学评估