生物医药领域发文难？(CADD、ROSETTA、多组学）一区SCI垫脚石已备好！

。_4485

2023年4月14日 09:50

生物医药领域发文难？(CADD、ROSETTA、多组学）一区SCI垫脚石已备好！的图1

2023·Biomedicine

生物医药专题

CADD、蛋白抗体设计、多组学

理解⼀种疾病的某种现象仅使用⼀种数据类型是远远不够的，随着高通量测序和多组学的快速发展，生物医学研究开始采取多组学技术结合的方法。机器学习作为从数据中进行学习的算法，可以对不同组学来源(如基因组学、转录组学、蛋白质组学、代谢组学)的数据进行综合分析，开发针对个体多样性的多因素预测模型，证明预测治疗可能存在的有效性。

天然蛋白质具有临界稳定性的特征，然而临界稳定性使得蛋白质遭受胁迫压力后极易发生错误折叠并失去功能。因此，优化蛋白质的稳定性是科学研究与工程应用领域亟待解决的关键问题。

Rosetta是一种生物物理建模工具，根据蛋白质的氨基酸序列有效预测蛋白质的结构，在此基础上可以从头设计各种类型的全新蛋白质。基于 Rosetta系列算法的蛋白设计在过去十年中在创新蛋白药物、抗体、疫苗、新型合成生物学元件及纳米药物等生物大分子研究领域中被广泛使用。

应新老客户的培训需求，特举办“机器学习集成多组学、Rosetta 蛋白抗体设计、计算机辅助药物设计”系列专题培训班，本次培训主办方为北京软研国际信息技术研究院，承办方为互动派(北京)教育科技有限公司，具体相关事宜通知如下：

生物医药领域发文难？(CADD、ROSETTA、多组学）一区SCI垫脚石已备好！的图2

课程目录

2023·Curriculum Catalogue

专题一 (线上直播)	多组学数据的机器学习在生物医学中的应用专题 2023年5月19日-5月21日 2023年5月26日-5月28日
专题二 (线下北京)	Rosetta从头蛋白抗体设计应用专题 2023年5月12日-5月14日（第1天报到，授课2天）
专题三 (线上直播)	计算机辅助药物设计专题 2023年5月19日-5月21日 2023年5月26日-5月28日

生物医药领域发文难？(CADD、ROSETTA、多组学）一区SCI垫脚石已备好！的图3

课程特色

2023·Course Features

1、本次系列课程共三个专题，专题一、三采用腾讯会议在线直播的形式，课后提供无限次回放视频。专题二采用北京线下授课的形式，面对面教学，与老师及时进行沟通。所有专题均建立永不解散的课程群，长期互动答疑，学员学完后可以继续与专业老师同学交流问题，巩固学习内容，从而更好地满足学员不同方面的论文及实际科研工作需求；

2、专题一课程通过基础入门+进阶实例演练的讲授思路，从初学及应用研究角度出发，带大家实战演练机器学习在多组学整合分析中的数据处理、预测模型以及生物学意义阐述等，助力大家掌握多种机器学习算法模型的构建以及在多组学联合分析在肿瘤及慢性病中的实际应用，并介绍当下深度学习算法高维组学数据处理，生物网络挖掘的前沿方法，最后以论文复现讲授单细胞组学论文的常用图表制作、细胞差异分析、细胞注释（自动与手动）、蛋白-蛋白相互作用网络构建与可视化，助力于研究创新机器学习算法解决生物学及临床疾病问题与需求。

3、专题二课程以Rosetta软件为基础，以实例讲授和练习为主。依次讲授Rosetta软件基础、蛋白质结构viewer、结构扰动与结构优化、蛋白质复合物预测、抗体抗原模型处理与对接、SSD和MSD设计、 CartisenDDG 突变扫描、RosettaScript开发流程、序列与结构设计、从头蛋白质设计等的操作等多个内容。

4、专题三课程带您一步步实操学习蛋白结构分析、同源建模、虚拟筛选、分子对接（半柔性、柔性对接、蛋白-蛋白、蛋白-多肽、酶蛋白-配体、核酸-小分子、共价对接）、药效团模型、定量构效关系、碎片化药物设计、Gromacs 分子动力学模拟与结果分析，并以实例讲解与练习为主，达到即学即用效果，帮助学员系统掌握计算机辅助药物设计技术，助力学术研究；

讲师简介

2023·Lecturer Introduction

多组学专题讲师：由教育部直属全国重点大学，国家"双一流"A类，"985", "211"重点建设高校医学院副教授，硕士生导师主讲。中科院院士团队骨干成员，美国Top50大学博士，博士后。近五年发表SCI论文10余篇。主持和参与国家级，省部级自然科学基金项目多项，拥有多年生物医学数据挖掘结合人工智能算法研究经验。主要擅长多组学联合分析在肿瘤等疾病的机制研究和生物多组学的算法开发。

Rosetta专题讲师：由国家双一流、985高校特聘研究员、博士生导师讲授。近五年发表SCI研究论文20余篇，获国际生物设计会议奖励(The International BioDesign Research Conference)。主持基金委蛋白质设计相关项目和科技部重点研发计划课题多项。主要擅长分子设计、分子模拟方法研究。

CADD专题讲师：由全国重点大学、国家“双一流”、“211工程”重点建设医药类高校副教授，硕士生导师讲授。发表SCI研究论文20余篇，主持和参与国家级、省部级自然科学基金项目多项。拥有多年新药分子设计和开发经验，主要擅长CADD、AIDD等药物设计方法研究。

增值服务

2023·Value-Added Service

1. 凡报名学员将获得所学专题的培训书本(或电子)教材以便提前预习及随堂电子资料；

2. 凡报名学员将获得课程相关Windows版本软件安装指导(一年有效期）；

3. 报名专题一课程赠送往期《代谢组学及网络药理学研究技术与实践》专题课程回放

4. 报名专题三赠送往期《GROMACS分子动力学蛋白模拟、药物开发溶剂筛选》专题课程回放

5. 线上课程：课后提供本次报名参加所学线上专题的无限次回放视频；

6. 价格优惠：（优惠活动最终解释权归主办方）

1) 早鸟优惠：所有专题课程2023年4月14日前报名缴费均立减200元

2) 同一人报名两个及以上专题课程可享受额外优惠（具体请咨询招生联系人）

7. 学员提出的各自遇到的问题在课程结束后可以长期得到老师的解答与指导；

8. 参加培训并通过考试的学员，可以获得：北京软研国际信息技术研究院培训中心颁发的《计算机辅助药物设计应用工程师》、《从头蛋白抗体设计及在药物研发中的应用工程师》《机器学习多组学与生物医学应用工程师》专业技能结业证书；

课程大纲

2023·Syllabus

专题一集成多组学的机器学习在

生物医学中的应用专题

基础教学大纲
机器学习及生物组学基础赠送预习视频	学习目标：对机器学习基本概念进行介绍，让大家对机器学习基本概念有大致了解。明确机器学习方法的适用性，优势，以及局限性等
	Ø 什么是机器学习 Ø 机器学习的应用实例 Ø 生物组学简介（基因组学，转录组学，蛋白组学，代谢组学） Ø 机器学习在在多组学数据分析的应用
python基础赠送预习视频	学习目标：机器学习主流实现是python语言。学习机器学习之前，有针对性的对python进行系统的学习，数据的基本处理,以方便将来开展机器学习的学习
	Ø python安装与开发环境的搭建 Ø 基本数据类型、组合数据类型 Ø 机器学习在在多组学数据分析的应用 Ø 函数、列表、元组、字典、集合 Ø 控制结构、循环结构 Ø Numpy模块——矩阵的科学计算 Ø Matplotlib模块——数据处理与绘图 Ø Pandas模块——csv数据处理与分析 Ø Sklearn模块——机器学习模型基础软件包调用案例实践教学一：利用Python pandas读取组学CSV数据并进行数据读取、转换、保存等
生物组学大数据预处理与探索分析	学习目标：对高维组学数据进行统计分析及机器学习建模前，需要对数据进行预处理，如缺失值填补、降维可视化等，大数据预处理与探索分析是检验数据质量与了解数据分布的必要过程。
	Ø 高维组学数据的预处理框架 Ø 常用数据预处理方法：缺失值填补，标准化，归一化，对数转化 Ø 常用的降维方法，PCA，tSNE等 Ø 数据探索分析（EDA）案例实践教学二：利用Python读取组学CSV数据并进行数据探索可视化分析（Exploratory data analysis,EDA）
经典机器学习模型及多组学应用	学习目标：对在多组学整合分析中最常使用的几种机器学习模型进行介绍，总结它们的优缺点及适用范围，通过动手实践快速掌握几种方法
	Ø 线性模型（线性回归、梯度下降、正则化、回归的评价指标） Ø 决策树（决策树原理、ID3算法、C4.5算法、CART算法） Ø 支持向量机（线性支持向量机、可分、不可分支持向量机） Ø 集成学习（AdaBoost和GBDT算法、XGBoost算法、LightGBM算法） Ø 模型选择与性能优化（数据清洗、特征工程、数据建模） Ø Scikit-learn机器学习库的使用案例实践教学三：基于转录组学数据进行端到端的机器学习项目泛癌预测（数据预处理，数据建模，模型评估）案例实践教学四：基于蛋白组学-代谢组学在COVID-19中生物标志物的发现
深度学习在组学数据的应用 (入门及实践)
进阶教学大纲
多组学联合分析，阐明疾病分子机制（入门及实战）	学习目标：从常见的多组学联合分析策略出发，如转录组+代谢组，蛋白组+代谢组等，对常用的数理统计分析方法进行介绍，之后学习如何利用数据库如KEGG等进行生物功能富集分析，结合机器学习方法进行生物标志物的挖掘，疾病预测以及生物分子作用机制等。
	Ø 常用生物组学实验与分析方法，如转录组学，代谢组学 Ø 常用组学数据库介绍，如TCGA,PathBank,HMDB,KEGG Ø Python批量处理组学数据-归一化处理，差异分析，相关性分析 Ø 生物功能分析：GO 功能分析、代谢通路富集、分子互作等 Ø 基于转录组学的差异基因筛选，疾病预测 Ø 基于差异基因，联合代谢组学分析疾病分子发生机制 Ø 组学数据可视化，如火山图，t-SNE降维，代谢通路网络分析 Ø 组学特征（基因，蛋白，代谢物）选择（随机森林分析） Ø 单细胞转录组学数据分析及可视化分析案例实践教学三：（包含以下内容）转录组+代谢组的多组学分析胃癌从海量的数据中筛选出关键基因、代谢物及代谢通路深度解析胃癌肿瘤标志物解释肿瘤发生发展的复杂性和整体性案例
深度学习神经网络进阶(入门及实践)	学习目标：学习前沿神经网络如卷积神经网络，循环神经网络，注意力机制，自编码器，图神经网络在生物组学及药物筛选的应用，迁移学习应用等。
	Ø 卷积神经网络基础及其应用（影像组学） Ø 循环神经网络基础及其应用（蛋白组学） Ø 注意力机制基础及其应用 Ø 自编码器基础及其应用（转录组学） Ø 图神经网络基础及其应用（代谢组学） Ø 迁移学习、深度学习框架——transformer的应用案例实践教学四：基于(变分)自编码器进行药物/代谢物分子生成
深度学习在组学数据药物发现的应用 (入门及实践)	学习目标：基于基因表达特征建立疾病与小分子药物之间的关联关系，运用转录组学，蛋白组学，机器学习算法进行药物重定位。
	Ø 基于生物组学的药物发现基础介绍 Ø 药物分子化学特征提取（分子指纹，描述符，分子图） Ø 图神经网络预测药物分子性质 Ø 基于胰腺癌差异表达基因进行药物重定位案例实践教学五：基于机器学习与图神经网络进行代谢物/药物分子的性质预测
AI+Science	学习目标：人工智能领域前沿内容，让大家了解最新的多组学与机器学习领域的研究动态，同时介绍几种更为先进的机器学习算法。
	Ø 集成学习在多组学数据联合分析中的应用 Ø 多组学数据库在生物信息网络的挖掘与应用 Ø 生成模型在多组学数据的应用与挑战 Ø 图神经网络进阶，链路预测在疾病-基因-蛋白-代谢物的关联网络应用案例实践教学六：基于生成模型进行单细胞转录组数据深度特征提取的研究
经典案例论文研究（论文图表复现）	学习目标：通过学习经典多组学研究的SCI论文研究思路，系统学习多组学研究的论文图表制作，以单细胞组学研究为例，进行论文思路研究，方法探讨，图表制作。
	论文复现一：单细胞组学论文的常用图表制作、细胞差异分析、细胞注释（自动与手动）论文复现二：蛋白-蛋白相互作用网络构建与可视化复现。

专题二 Rosetta从头蛋白抗体设计、结构优化及在药物研发中的应用

第一天
时间	课时内容
上午	教学目标：了解本方向内容、理论基础、研究意义。
	一、从蛋白质折叠到蛋白质设计 1.蛋白质折叠与结构预测简介 1.1 主链二面角与二级结构 1.2 侧链堆积与三级结构 2.蛋白质设计简介蛋白质设计的分类及应用
	教学目标：能够使用vim编辑器简单编辑文件，能够使用PyMOL或ChimeraX查看蛋白质结构。
	二、 Rosetta基础三、蛋白质结构viewer 、Linux和Python基础 3、Pose/mover/ scorefunction 4、LINUX 入门命令 4.1 用户属组及权限目录文件属性 4.2 LINUX基础命令环境变量 4.3 shell常用命令练习 4.4 conda介绍
下午	教学目标：了解Rosetta封装好的应用（以relax为例）和RosettaScript编写应用（以pack/min/pack为例）
	四、结构扰动与结构优化五、序列设计 PackRotamer和FastDesign 5、Minmover,MCMover, Fastrelax mover 5.1 Movemap 6、RosettaScript组成和要素 6.1 FilterResidueSelector TaskOperation 6.2 DSSP/DisulfidizeMover
第二天
上午	教学目标：了解基于序列和基于结构的蛋白质复合物预测手段。
	六、蛋白-蛋白对接基础 7、Translat和rotation mover 7.1 Low resolution的全局搜索 7.2 High resolution的精细调整 7.3 FoldTree
	教学目标：熟悉抗体模型预处理流程, 掌握RAbD常用命令
	七、抗体设计 8、抗体结构文件的处理 8.1 PyIgClassify 8.2 抗体抗原对接模型 8.3 CDR区优化 8.4 Framework区优化案例实践： SSD和MSD设计任务
下午	教学目标：熟悉RosettaScript开发流程，了解序列与结构设计原理，完成从头蛋白质设计的操作练习。
	八、CartisenDDG 突变扫描九、RosettaScript应用 9 序列与结构设计 9.1 Input和Output flags控制输入输出 9.2 CleanAtom结构预处理 9.3 ROSETTACLASH.LOG和RosettaCommons 9.4 ResFile等辅助文件 9.5 小改中改与大改 9.6 练习答疑案例实践： Ø FastDesign设计任务

部分案例图示：

向下滑动查看

生物医药领域发文难？(CADD、ROSETTA、多组学）一区SCI垫脚石已备好！的图11

生物医药领域发文难？(CADD、ROSETTA、多组学）一区SCI垫脚石已备好！的图12

生物医药领域发文难？(CADD、ROSETTA、多组学）一区SCI垫脚石已备好！的图13

生物医药领域发文难？(CADD、ROSETTA、多组学）一区SCI垫脚石已备好！的图14

生物医药领域发文难？(CADD、ROSETTA、多组学）一区SCI垫脚石已备好！的图15

生物医药领域发文难？(CADD、ROSETTA、多组学）一区SCI垫脚石已备好！的图16

生物医药领域发文难？(CADD、ROSETTA、多组学）一区SCI垫脚石已备好！的图17

生物医药领域发文难？(CADD、ROSETTA、多组学）一区SCI垫脚石已备好！的图18

专题三 CADD蛋白结构分析、虚拟筛选、分子对接

第一天上午
课程名称	课程内容
生物分子互作基础	1、生物分子相互作用研究方法 1.1蛋白-小分子、蛋白-蛋白相互作用原理 1.2 分子对接研究生物分子相互作用 1.3 蛋白蛋白对接研究分子相互作用
蛋白数据库	1、 PDB 数据库介绍 1.1 PDB蛋白数据库功能 1.2 PDB蛋白数据可获取资源 1.3 PDB蛋白数据库对药物研发的重要性 2、PDB 数据库的使用 2.1 靶点蛋白结构类型、数据解读及下载 2.2 靶点蛋白结构序列下载 2.3 靶点蛋白背景分析 2.4 相关数据资源获取途径 2.4 批量下载蛋白晶体结构
第一天下午
蛋白结构分析	1. Pymol 软件介绍 1.1 软件安装及初始设置 1.2 基本知识介绍（如氢键等） 2.Pymol 软件使用 2.1蛋白小分子相互作用图解 2.2 蛋白蛋白相互作用图解 2.3 蛋白及小分子表面图、静电势表示 2.4蛋白及小分子结构叠加及比对 2.5绘相互作用力 2.6 Pymol动画制作实例讲解与练习： (1) 尼洛替尼与靶点的相互作用，列出相互作用的氨基酸，并导出结合模式图 (2) 制作结合口袋表面图 (3) Bcr/Abl靶点的PDB结构叠合 (4) 制作蛋白相互作用动画 (5) 针对ACE2和新冠病毒Spike的蛋白晶体复合物，制作蛋白-蛋白相互作用
蛋白结构分析
第二天上午
同源建模	1. 同源建模原理介绍 1.1 同源建模的功能及使用场景 1.2 同源建模的方法 2. Swiss-Model 同源建模； 2.1 同源蛋白的搜索（blast等方法） 2.2 蛋白序列比对 2.3 蛋白模板选择 2.4 蛋白模型搭建 2.5 模型评价（蛋白拉曼图） 2.6 蛋白模型优化实例讲解与练习：用2019-nCoV spike蛋白序列建模，根据相应参数和方法评价模型
第二天下午
小分子构建	1、ChemDraw软件介绍 1.1小分子结构构建 1.2 小分子理化性质（如分子量、clogP等）计算实例讲解与练习：分别构建大环、氨基酸、DNA、RNA等分子
小分子化合物库	1. 小分子数据库 1.1 DrugBank、ZINC、ChEMBL等数据库介绍及使用 1.2 天然产物、中药成分数据库介绍及使用
第三天上午
生物分子相互作用Ⅰ	1、分子对接基础分子对接原理及对接软件介绍 2、分子对接软件（Autodock) 使用 2.1半柔性对接 2.1.1 小分子配体优化准备 2.1.2 蛋白受体优化及坐标文件准备 2.1.3 蛋白受体格点计算 2.1.4 半柔性对接计算 2.2对接结果评价 2.2.1 晶体结构构象进行对比 2.2.2 能量角度评价对接结果 2.2.3 聚类分析评价对接结果 2.2.4 最优结合构象的选择 2.2.5 已知活性化合物对接结果比较 PDB 1IEP 实例讲解与练习：激酶Bcr/Abl靶点抑制剂的半柔性对接
第三天下午
生物分子相互作用II	2.3柔性对接 2.3.1 小分子配体优化准备 2.3.2 蛋白受体优化及坐标文件准备 2.3.3 蛋白受体格点计算 2.3.4 柔性对接计算及结果评价 2.3.6 半柔性对接与柔性对接比较与选择实例讲解与练习：Bcr/Abl靶点抑制剂的柔性对接
虚拟筛选	3、分子对接用于虚拟筛选（Autodock） 3.1 虚拟筛选定义、流程构建及演示 3.2 靶点蛋白选择、化合物库获取 3.3虚拟筛选 3.4 结果分析（打分值、能量及相互作用分析）实例讲解与练习：Bcr/Abl靶点抑制剂的虚拟筛选
小分子格式转换	1、openbabel的介绍和使用 1.1 openbabel软件介绍 1.2 小分子结构类型 1.3 小分子结构类型转换
答疑	针对前三天学习问题的答疑
第四天上午
拓展对接使用场景（上）	1、蛋白-蛋白大分子对接 1.1 蛋白-蛋白对接的应用场景 1.2 相关程序的介绍 1.3 受体和配体蛋白前期优化准备 1.4 载入受体和配体分子 1.5 蛋白蛋白相互作用对接位点设定 1.6 蛋白蛋白对接结果分析与解读实例讲解与练习：新冠病毒Spike蛋白及宿主蛋白ACE2的对接 2、蛋白-多肽对接 2.1 蛋白-多肽相互作用简介 2.2 蛋白-多肽分子预处理 2.3 蛋白-多肽分子对接 2.4 对接结果展示与分析实例讲解与练习：新冠靶点3CL与多肽/类多肽抑制剂的对接 3、含金属离子的蛋白靶点与小分子对接 3.1 金属酶蛋白-配体的相互作用介绍 3.2 相关蛋白及配体分子的收集与预处理 3.3 金属离子的处理与准备 3.4 金属辅酶蛋白-配体的对接 3.5 对接结果展示与分析实例讲解与练习：基质金属蛋白酶MMP及其抑制剂对接
第四天下午
拓展对接使用场景（下）	4、小分子与小分子对接 4.1 小分子-小分子相互作用简介 4.2 小分子结构预处理 4.3 小分子-小分子对接 4.4 对接结果展示与分析实例讲解与练习：环糊精与药物小分子的对接 5、核酸-小分子对接 5.1核酸-小分子的应用场景 5.2核酸-小分子相互作用简介 5.3核酸-小分子的预处理 5.4核酸-小分子对接 5.5相关结果的展示与分析实例讲解与练习：DNA G-四链体和配体分子对接 6、共价对接 6.1共价对接的原理及应用场景 6.2蛋白和共价结合配体的预处理 6.3药物分子与靶蛋白的共价对接 6.4相关结果的展示与分析实例讲解与练习：激酶靶点EGFR抑制剂的共价对接
第五天上午
基于碎片药物设计	1、基于碎片药物设计 1.1 基于碎片的药物设计与发现 1.2 基于碎片化合物库构建 1.2.1 骨架替换 1.2.2 碎片连接 1.2.3 碎片生长 1.3 基于药效团的化合物库生成 1.4 基于蛋白结合口袋的化合物库生成 1.5 基于分子描述符的化合物库生成 1.6 基于BREED规则的化合物库构建 1.7 基于碎片的合物库筛选实例讲解与练习：基于片段的Bcr/Abl靶点抑制剂优化与改造
第五天下午
构效关系分析	1、3D-QSAR模型构建（Sybyl软件） 1.1 小分子构建 1.2 创建小分子数据库 1.3 小分子加电荷及能量优化 1.4 分子活性构象确定及叠合 1.5 创建3D-QSAR模型 1.6 CoMFA和CoMSIA模型构建 1.7 测试集验证模型 1.8 模型参数分析 1.9 模型等势图分析 1.10 3D-QSAR模型指导药物设计实例讲解与练习：激酶靶点Bcr/Abl抑制剂的构效关系模型构建与活性预测
第六天全天
分子动力学模拟	1、分子动力学简介（GROMACS软件） 1.1 分子动力学基本原理 1.2 Linux 系统介绍 1.3 分子动力学软件介绍（Gromacs） 2. Gromacs 进行分子动力学模拟 2.1 配体分子的处理 2.2 蛋白结构的处理 2.3 修改蛋白坐标文件 2.4修改拓扑文件 2.5构建盒子并放入溶剂 2.6平衡系统电荷 2.7能量最小化 2.8 NVT平衡 2.9 NPT平衡 2.10 产出动力学模拟 3. 分子动力学结果分析 3.1轨迹文件观察 3.2能量数据作图 3.3 轨迹修正处理 3.4 回旋半径分析 3.5 计算蛋白构象的RMSD 变化 3.6计算原子位置的RMSF变化 3.7 蛋白配体构象聚类 3.8蛋白配体相互作用氢键分析 3.9 蛋白配体相互作用能分析实例讲解与练习： (1)水中的溶菌酶纯蛋白模拟 (2)T4溶菌酶及配体复合物模拟
答疑	针对后三天学习问题的答疑