蛋白质设计中的人工智能方法课程详细信息

课程号 04835730 学分 1
英文名称 Artificial Intelligence for Protein Design
先修课程 无具体先修课程。学生应具备一定的计算机基础,会使用命令行工具,熟悉python相关依赖配置管理(conda、pypi等)。
中文简介 本课程旨在介绍蛋白质设计的基本概念及基于人工智能的蛋白质设计在工业领域的重要应用。课程将深入探讨人工智能在蛋白质设计中的前沿应用,包括蛋白质结构预测、基于结构的序列生成、蛋白质语言模型等。课程重点介绍AlphaFold、RFDiffusion、ESM等主流AI技术的原理及实践,帮助学生理解如何利用AI工具设计新型蛋白质。通过理论讲解与实践操作相结合的方式,本课程将培养学生在交叉学科领域的创新思维和应用能力。
英文简介 This course aims to introduce the fundamental concepts of protein design and its important applications in the industrial field. It will explore cutting-edge applications of artificial intelligence in protein design, including protein structure prediction, structure-based sequence generation, and protein language models. The course will focus on the principles and practical applications of mainstream AI technologies such as AlphaFold, RFDiffusion, and ESM, helping students understand how to utilize AI tools for designing novel proteins. Through a combination of theoretical instruction and hands-on practice, this course will foster students' innovative thinking and application skills in interdisciplinary fields.
开课院系 信息科学技术学院
成绩记载方式  
通识课所属系列  
授课语言 中文
教材
参考书
教学大纲 介绍蛋白质设计及相关前沿人工智能算法,了解机器学习方法如何在蛋白质设计的流程中发挥作用,并掌握使用前沿工具的技能。
本课程系统介绍人工智能在蛋白质设计领域的最新进展,涵盖从蛋白质结构预测到序列优化的多个关键环节。课程将围绕主流AI模型展开,包括AlphaFold、ESM、RFDiffusion、ProteinMPNN等,帮助学生掌握这些模型的基本原理、训练方法及应用场景。此外,还将介绍蛋白质设计的不同策略(如de novo设计和motif scaffolding)以及完整的设计流程。课程最后部分将展示当前蛋白质设计的前沿研究进展及其在生物医药领域的落地案例,如用于药物发现的蛋白质设计。

本课程采用理论讲解与实践操作相结合的教学方式。学生需在课下完成环境配置,并成功运行AlphaFold、ESM、RFDiffusion和ProteinMPNN的完整pipeline。课程要求提交一份实验报告,记录数据分析过程、结果以及对模型的理解和优化方案。通过本课程的学习,学生将掌握蛋白质设计相关AI模型的原理和应用,并具备在交叉学科领域进行创新研究的能力。

**学时分配**
1. 引言(2学时):介绍蛋白质设计的重要性,包括其在药物开发、材料科学和合成生物学中的应用。概述人工智能在蛋白质设计中的作用,介绍关键的AI技术,如预测模型、生成模型等。
2. AlphaFold - 蛋白质结构预测模型(2学时):详细解析AlphaFold的核心技术,包括深度学习在结构预测中的应用、多序列比对(MSA)的重要性,以及AlphaFold2的改进点。学生将学习如何使用AlphaFold预测蛋白质结构。
3. ESM - 蛋白质语言模型(2学时):介绍蛋白质语言模型(PLM)的基本概念,以及ESM的架构、训练方式和应用。讨论大语言模型(LLM)的背景知识,并分析ESM如何通过大规模蛋白质序列数据进行无监督学习。
4. RFDiffusion - 蛋白质骨架设计模型(2学时):介绍扩散模型(Diffusion Model)的基本原理,并探讨RFDiffusion在蛋白质骨架结构设计中的应用。学生将学习如何使用RFDiffusion生成新型蛋白质骨架。
5. ProteinMPNN - 基于骨架的蛋白质序列设计(2学时):介绍图神经网络(GNN)的基本概念,并深入分析ProteinMPNN如何利用GNN进行序列设计和优化。学生将学习如何在固定骨架的情况下生成优化的蛋白质序列。
6. 蛋白质设计的完整pipeline(2学时):介绍蛋白质设计的两种主要方法:de novo设计和motif scaffolding,并讲解完整的蛋白质设计流程,包括目标设定、结构生成、序列优化和验证步骤。
7. 前沿AI算法和训练(2学时):介绍蛋白质设计中的其他前沿AI模型,包括Chroma、Genie、Evo2、ESM等,分析它们的核心技术和应用场景。介绍蛋白质相关的数据集。
8. 落地案例分析(1学时):蛋白质设计的前沿应用:通过具体案例(如David Baker团队设计的芬太尼结合蛋白等)讲解蛋白质设计的实际应用。分析这些研究的科学背景、实验流程以及其对生物医药领域的影响。
教师授课 + 学生课后做项目 + 学生课堂展示。

学生需在课下完成以下任务:

1. 配置AlphaFold、ESM、RFDiffusion和ProteinMPNN的运行环境,并成功运行完整的pipeline。
2. 记录实验过程,包括数据输入、运行参数、结果分析等。
3. 在课程结束时提交一份实验报告,分析各模型的工作原理、性能比较以及改进思路。
课上presentation (50%) + 课程项目报告 (50%)
教学评估