ProtSeed | 蛋白的序列结构的等变co-design

Paper: https://arxiv.org/abs/2210.08761

Code: https://github.com/shichence/ProtSeed

摘要

Purpose

优化设计protein的sequence和structure(可以是坐标,)

Limitation

新蛋白质设计被叫做de novo protein design,不过在设计新蛋白质时也碰到诸多问题,如“蛋白质的tremendous search space”、“仅对sequence设计”、“仅设计抗体的CDR的设计方法太过专一化”、“autoregression采样或annealed diffusion采样的高inference花费”、“方法可以应对各种拓扑类型的protein但是仅停留在sequence层面”等等(按时间顺序碰到的)。

Contribution

基于以上问题,提出了ProtSeed,其主要贡献有:

  1. 基于context features作为先验知识对蛋白质的sequence和structure进行co-design,其中context features就是生物学家希望蛋白质要具备的特征;
  2. 对sequence和structure的生成都是one-shot形式的。

 模型

本文把序列及结构的co-design问题建模为在序列-结构空间的equivariant translation问题。模型ProtSeed由两部分组成:

  1. Trigonometry-aware context encoder,结合context features推理几何constraints;
  2. Roto-translation equivariant decoder,基于更新的context features迭代地生成蛋白序列和结构。

ProtSeed是encoder-decoder架构的模型。在模型训练之前,蛋白质被表示为一个三元组,即residue的one-hot编码、α碳原子的3D坐标,以及frame orientation(就是局部坐标系),然后基于给定的context features,比如残基的一些特性,残基对之间的关系等等,就可以开始使用模型来处理这些信息,设计新的蛋白质。接下来就是本文的关键,本文提出名叫trigonometry-aware context encoder和joint sequence-structure decoder。

Trigonometry-aware context encoder,对于context features中的single features和pair features,作者用MHA(similar to Vaswani et al.)和outer-product projection(similar to Jumper et al.)分别更新:

然后作者说inspired by AlphaFold 2,使用trigonometry-aware operations来保持几何连续性:

Joint sequence-structure decoder,在encoder输出刚出炉的single features和pair features后,decoder紧接着采用优化后的Invariant Point Attention(IPA,取自Jumper et al.),叫做SeqIPA:

现在得到了single features和pair features的更新结果,接下来便可以开始预测structure。主要过程即预测局部坐标系上的坐标变化值,以及局部坐标的变化值:

 预测structure的同时,还预测sequence:


实验

这一块就简单说明一下,作者主要做了四个实验:

  1. Antibody CDR Co-Design,使用的数据集是SAbDab数据集,对比了三个baselines,依次是RosettaAntibodyDesign(RAbD)、GNN-based、Diffusion-based;
  2. Protein Sequence-Structure Co-Design
  3. Fixed Backbone Sequence Design
  4. De novo protein sequence design