Internal Research Note · 投研内部材料

ByteDance 在 AI for Science
三条 并行的线。

三条线分属不同组织、不同文化、不同产出形态——一条在开放平台(Protenix × PXDesign),一条在学术研究(Seed AI for Science),一条在独立 biotech 公司(Anew Therapeutics)。 本文把三条线的组织结构、研究方向和核心成果梳理清楚,方便快速建立整体认知。

A 线 开放平台
Protenix × PXDesign
ByteDance AML AI4Science(已并入 Seed)
AlphaFold 3 的开源对标 + 抗体 / binder 设计工作,Apache 2.0 许可。自建 webserver 与评测框架(PXMeter),有湿实验验证闭环。
Leaders
Wenzhi Xiao · Xinshi Chen · Jiaqi Guan
B 线 学术研究
Seed AI for Science
Quanquan Gu(UCLA 兼职)领衔
走顶会发表路线。SeedFold 用新架构在 FoldBench 上超过 AF3;DPLM / APM / SeedProteo 覆盖蛋白序列和全原子生成。湿实验缺位。
Leaders
Quanquan Gu · Zaixiang Zheng · Yi Zhou · Wei Qu
C 线 独立法人 · 半 stealth
Anew Therapeutics
独立实体 · Shanghai + SF + Singapore
承接字节 AIDD 的 biotech 出口。AnewOmni + AnewSampling + AnewSynth 三件套覆盖生成、动力学、合成。目前 4 条临床前管线,首个 IND 方向为 IL-17A 口服小分子。
核心人物
Kai Liu · Yuli She · Jianzhu Ma(清华 AIR)
报告覆盖
2024.10 – 2026.04 的公开/半公开信息
主要作品
Protenix v1/v2 · SeedFold · DPLM · APM · SeedProteo · PXDesign · AnewOmni · AnewSampling · AnewSynth
组织关键事件
2025 AI Lab 并入 Seed;Yonghui Wu 加入主管基础研究;Hang Li 转顾问
数据源
arXiv / bioRxiv 原论文 · seed.bytedance.com · anewbt.com · 公开 LinkedIn 与新闻稿
§1 · 组织结构

三条线的组织形态对照

下面逐行对比 A / B / C 三条线的归属、负责人、核心成员、地理分布、规模、节奏和产出形态。注意:所有人名按英文拼写保留(中文对应仅在有公开来源时给出)。

A · 平台
Protenix × PXDesign
B · 研究
Seed AI for Science
C · 管线
Anew Therapeutics
组织归属 ByteDance AML AI4Science
2025 年合并进入 Seed,保留独立产品品牌
ByteDance Seed AI4Science
Yonghui Wu 管辖范围(主业 LLM)
独立法人实体
字节 AI drug discovery 的公司化出口
核心 Leader
Wenzhi Xiao — 团队联系人 / PI
Xinshi Chen — 技术一把手(Georgia Tech PhD, Le Song 学派)
Yuxuan Zhang — 技术 co-lead
Quanquan Gu — UCLA Associate Professor,字节兼职研究员
身份双挂:UCLA 在职 + ByteDance Research Scientist
Kai Liu — 创始人级别;字节 AIDD 自 2020 年;AnewOmni 通讯作者
Jianzhu Ma — 清华 AIR,AnewOmni 通讯作者
CEO 未公开披露
核心成员 Jiaqi Guan(UIUC PhD,Seattle)
Chengyue Gong(UT Austin PhD)
Chan Lu(跨 A / B 的工程桥梁)
Shenghao Wu(CMU)· Wenzhi Ma · Kuangqi Zhou
Zaixiang Zheng(序列 / DPLM 主将)
Yi Zhou(SeedFold co-first)
Wei Qu(SeedProteo 一作)
Fei Ye · Dongyu Xue · Xinyou Wang(NJU)· Ruizhe Chen(Hunan U)
Yuli She — 第 6 位 founding 成员
William Hilbert · Richard Miller — 国际化信号
Chris Li · Xiangzhe Kong · Youjun Xu
Singapore 团队:Cheah Chen Seh · Shi Jie Teo
地理 Beijing + Seattle Beijing 为主;Gu 在 UCLA;实习生来自 PKU / NJU / Hunan U / ShanghaiTech Shanghai + San Jose + Singapore
规模(估计) ~20–30 名全职 ~10–15 名全职 + 大量实习生 官网列 31 名在职 + 5 名 SAB
节奏 每 2–4 个月一次外部发布;产品化节奏 半年到一年一次大发;学术周期 2026.01–03 连发 3 篇 + BIO 2026 参展;"走出 stealth" 节奏
开源策略 Apache 2.0 代码 + 权重 + PXMeter 评测框架 论文配套代码有开源,部分权重未公开 不开源;按药厂模式运作
湿实验 PXDesign 6 靶点 · Protenix-v2 VHH-Fc 与 GPCR 抗体设计(见 §4) 无团队自身的湿实验能力 4 条临床前管线;IL-17A 口服小分子候选
注:Chan Lu 同时出现在 Protenix、SeedFold、SeedProteo 三篇论文的作者列表——是 A/B 两条线的工程桥梁。Jianzhu Ma 是 Jiaqi Guan 在 UIUC 的共同导师之一,这条师徒关系是 A/C 之间的学术纽带。
§2 · 技术地图

三条线如何分工覆盖 AI 药研全栈

AI 驱动的药物发现可以拆成五层:底层物理 / 分子动力学 → 结构预测 → 分子生成与设计 → 湿实验验证 → 临床前管线。下图把每层 ByteDance 的产出按 A / B / C 标色归类,看三条线的覆盖范围和重叠情况。

药研栈层级 下游 / 靠近药物 上游 / 物理基础 A · 开放平台 B · 学术研究 C · 独立 biotech 5 临床前管线 IND 候选分子 抗体设计候选 PXDesign binder · v2 VHH-Fc / GPCR 抗体 (无) 4 条临床前管线(免疫 / PPI 方向) 首发:IL-17A 口服小分子抑制剂 4 湿实验验证 命中率 / 亲和力 BLI / 细胞 / CRO 合作 PXDesign 6 靶点 + v2 GPCR / VHH-Fc 评测全部依赖 in silico 内部 + 外部 CRO 具体数据未披露 3 分子生成 蛋白 · 抗体 · 小分子 PXDesign(diffusion + hallucination) Protenix-v2 内嵌抗体设计 PocketXMol(与 PKU 合作,小分子 pocket) Cell 2026 发表 两条技术路径并行 语言派:DPLM → 2 → 2.1 全原子派:APM → SeedProteo LM-Design(ICML 2023 Oral) AnewOmni + AnewSynth AnewOmni:全原子几何 latent diffusion,5M 复合物训练 — 统一建模多肽 / 抗体 / 小分子 AnewSynth:反应模板合成规划 2 结构预测 AF3 同类任务 Protenix v1 / v2 AF3 开源复现路线,Apache 2.0 SeedFold · SeedFold-Linear 架构重写(width + linear triangular) 使用 A / B 的公开模型作为上游 不自建结构预测基座 1b 结构生物学 实验数据重建 (无) cryoSTAR Cryo-EM 异质性重建(Nature Methods) (无) 1a 物理基础 力场 · 分子动力学 (无) ByteFF · ByteFF-Pol · BAMBOO ML 力场;小分子、极化模型 AnewSampling 全原子 MD 再现的生成框架(替代传统 MD 仿真)
A 线:开放平台与抗体设计
B 线:从物理 / 结构 / 生成全栈的研究覆盖
C 线:面向管线的全原子生成 + 动力学 + 合成
A 的覆盖
聚焦结构预测和抗体 / binder 设计两层,拿湿实验闭环做验证。不做底层力场、不做小分子生成基础模型。
B 的覆盖
唯一一条横跨物理基础层到生成层的研究线。特点是"全栈但以论文为产出",缺失湿实验闭环。
C 的覆盖
不自建结构预测基座,而是在生成 / 动力学 / 合成三层做全原子统一建模,直接对接管线。
§3 · 结构预测深入

Protenix 和 SeedFold 是不是同一个东西?

外部经常把这两个模型混为一谈,因为它们都由 ByteDance 发布、都声称超过了 AlphaFold 3。实际上它们是两个不同团队、用两种不同方式解同一个任务,存在明显分工差异。

A 线
Protenix
AML AI4Science,2025.01 首发 → v1 (2026.02) → v2 (2026.04)
定位

把 AlphaFold 3 做成开源、可部署、可微调的实用工具。核心贡献:严格复现 AF3 的训练配方,开源权重和推理代码(Apache 2.0),再逐步叠加下游能力(如 v2 内置抗体设计)。

架构取向

保留 AF3 主体架构(Pairformer + diffusion head)。关注点在工程化:推理加速、模型小型化(Protenix-Mini)、以及如何把结构预测能力迁移到抗体设计任务。

主要产出
  • · Protenix v1:首个达到 AF3 同等精度的开源模型
  • · Protenix v2:在 v1 基础上加入抗体设计能力,带湿实验结果
  • · PXMeter:一套社区可用的评测工具
  • · protenix-server.com:公开 webserver
B 线
SeedFold · SeedFold-Linear
Seed AI for Science,2025.12 发布(arXiv 2512.24354)
定位

新架构在同一类任务上把 AF3 做得更好。不追求复现、不做产品化,走学术路径验证架构想法并在基准上取得领先。

架构取向

两项关键改动:(1) 把 Pairformer 的 scaling 策略从加深改为加宽;(2) 提出线性三角注意力(Linear Triangular Attention),缓解 AF3 架构的二次方开销。同时提供 Linear 版本(更便宜)和完整版(更准)。

主要产出
  • · SeedFold:在 FoldBench 全面超过 AF3
  • · SeedFold-Linear:效率优化版
  • · FoldBench:团队自建的评测集,作为论文的基准
两者的关系
共同点
  • · 解决同一个任务:生物大分子复合物结构预测(蛋白单体、蛋白-蛋白、抗体-抗原、蛋白-配体)
  • · 输入 / 输出格式相同:序列 → 3D 原子坐标
  • · 都基于 AF3 开启的 Pairformer + diffusion 思路
  • · 都在自家评测里报告超过 AF3
差异
  • · A 选择忠实复现 AF3;B 选择替换架构
  • · A 开源(Apache 2.0 含权重);B 论文为主,权重未开放
  • · A 有下游应用(抗体设计、湿实验);B 停在结构预测基准
  • · A 每季度一跳的产品节奏;B 半年到一年的学术节奏
团队之间
  • · 两队目前都在 Seed 旗下,但保留独立产品线
  • · Chan Lu 同时出现在 Protenix 和 SeedFold 作者列表,是工程桥梁
  • · SeedFold 论文只对比 Protenix-0.5(中间版本),未与 v1(同期发布)对比——两队存在一定的独立性
一个简化的类比:如果 AlphaFold 3 是"参考实现",那么 Protenix 是"工业级开源 fork",SeedFold 是"架构研究分支"。两者互相不替代:真正做应用的人今天用 Protenix(有权重);推架构前沿的人引用 SeedFold。
§4 · 基准

"超过 AlphaFold 3"到底指什么

这一节拆开几个关键问题:AF3 是同一个任务吗?评测指标怎么读?Protenix-v2 在抗体设计上的湿实验数字是什么意思?

评测是一回事吗?
是的——同一个任务

AlphaFold 3、Protenix、SeedFold、Boltz-1、Chai-1 都在做同一件事:给定一个生物大分子复合物的组分(氨基酸序列、核酸序列、配体 SMILES),预测其三维结构。 输入输出规格完全一致,可以在相同测试集上跑完整评测。

但评测集不同

AF3 原论文用的是 PDB 时间戳切分的测试集。SeedFold 团队提出了新的评测集 FoldBench,并在其上对比 AF3、Boltz、Chai、Protenix、SeedFold。 用自家设计的评测集跑出领先是合理的,但需要留意"benchmark 由其中一方提出"这一 caveat。

四个指标怎么读
Monomer lDDT
单链蛋白的局部结构准确度,0–1,越高越好
P-P DockQ
蛋白-蛋白界面质量,0–100,越高越好
Ab-Ag DockQ
抗体-抗原界面质量,公认更难
P-Lig SR
蛋白-配体 docking 成功率(RMSD ≤ 2Å 比例)
FoldBench 原始数字(来源:SeedFold arXiv 2512.24354)
ModelMono lDDTP-P DockQAb-Ag DockQP-Lig SR
AlphaFold 30.8872.9347.9064.90
Boltz-10.8768.2533.5455.04
Chai-10.8768.5323.6451.23
Protenix-0.5 (A)0.877371.5041.0062.30
SeedFold (B)0.888974.0353.2163.12
SeedFold-Linear (B)0.886174.1446.9166.48
读法:SeedFold 在 4 个指标里全面超过 AF3 的 baseline。Protenix-0.5 是一个中间版本;SeedFold 论文未对 Protenix-v1(同期发布)给出数字,意味着跨团队对比并不完整。
抗体 / Binder 设计的湿实验命中率
工作靶点范围命中率
DeepMind AlphaProteo6 靶点论文自报多数 nM 级
Chai Discovery 零样本抗体多靶点16–20%
PXDesign (A)6 靶点5 / 6 靶点 20–73% nM 级
Protenix-v2 VHH-Fc (A)AMBP 等可溶靶点全部靶点至少 1 个 hit;单靶点命中率 2–48%
Protenix-v2 GPCR (A)GPCR 靶点16–88%
命中率 = 合成并做湿实验的候选分子中,达到目标亲和力标准的比例。GPCR 靶点历来被认为"极难",88% 是一个显著的数字。这里数据来源为 bioRxiv(2026.04),尚未经同行评议,也未由独立实验室复现。
展开:SeedProteo binder 设计 in silico 数字
这是 B 线在 binder 设计任务上的 in silico 结果。数值为"通过虚拟筛选的候选分子数量"(越大越好),虚拟筛选用的是团队自家的 SeedFold 模型——这构成 circular validation,数字本身不能直接跟 A 线的湿实验命中率比较。
TargetBoltzGenRFDiffusion3SeedProteo-RSeedProteo-D
BHRF16279296139
SC2RBD009280
IL-7RA10010052
PD-L1171380265
TrkA210232143
Insulin990303181
VEGF-A1012745
IL-17A504717
§5 · Anew Therapeutics

第三条线:独立 biotech 的半 stealth 状态

Anew Therapeutics 是 ByteDance AI drug discovery 的公司化出口,作为独立法人运作,早期几乎不做外部宣传。2026.01–03 集中发布 3 篇 bioRxiv 论文并确认参加 BIO 2026 展台——属于从 stealth 走向有限公开的阶段。

组织状态
独立法人
三地办公:Shanghai + San Jose + Singapore;共 31 名在职员工 + 5 名 SAB。
管线
4 条临床前
聚焦抗体已验证的 PPI 靶点,开发口服小分子。首发方向:IL-17A 口服抑制剂(免疫疾病)。
公开节奏
2026.03 集中披露
3 篇 bioRxiv 论文(AnewSynth · AnewSampling · AnewOmni)+ 官网 team 页启用 + BIO Convention 2026 展台。
核心团队(按加入时间,来源:anewbt.com/team)
#1
Kai Liu — 创始人级别
ByteDance AIDD Shanghai(自 2020)+ Anew Singapore;AnewOmni 一作兼通讯作者
#2–5
Qiaojing Huang · Cheng Chen · Weiyang Dai · Haoyu Yu
#6
Yuli She — 早期 founding 成员
官网列在第 6 位,具体分工未披露。根据时间和背景,推测在 BD / biology / regulatory 方向——即用户提到的"和管线、产业、药政相关"的那条线。
#7–8
Wentao Li · William Hilbert(非华人,国际化信号)
#9+
Chris Li(Shijie Li)· Xiangzhe Kong · Youjun Xu · Singapore 本地团队(Cheah Chen Seh · Shi Jie Teo 等)
外部学术枢纽
Jianzhu Ma(清华 AIR) — AnewOmni 通讯作者。 Ma 也是 A 线 Jiaqi Guan 在 UIUC PhD 阶段的共同导师之一,这条师徒关系把 A 和 C 两条线在学术层面连上。
Yang Liu(清华) — AnewOmni 通讯作者
Scientific Advisory Board
Yongjun Liu · Wei Zhu · Ji Ma · Richard Miller · Hua Zou
三驾马车 · 技术平台
AnewSynth2026.01
反应模板集成的合成规划。解决 AI 生成分子"能不能实际合成出来"的问题。
AnewSamplingbioRxiv 2026.03.10
全原子生成框架,目标是在速度更快的前提下再现传统分子动力学模拟的分布。对评估"药物与靶点的结合稳定性"很重要。
AnewOmnibioRxiv 2026.03.12
全原子几何 latent diffusion,在 5M+ 生物分子复合物上训练,统一建模多肽、抗体、小分子,通过图结构做条件生成。
三件套合起来
生成(AnewOmni)+ 动力学验证(AnewSampling)+ 合成可行性(AnewSynth) = 一条完整的 AI 驱动临床前分子设计流水线。相对于 Protenix / SeedFold 这类"单点工具",Anew 的定位是"完整 pre-clinical 栈"。
需要留意的几个点
  • · 管线的实验数据尚未公开,所有进展均来自公司自述
  • · 不公开 CEO 与 C-suite 结构
  • · IL-17A 赛道已有 Cosentyx、Taltz、Bimzelx 等获批药物,差异化点(口服、选择性)还需看到分子数据
  • · 三篇论文均为 bioRxiv 预印,未经同行评议
数据源

论文:SeedFold (arXiv 2512.24354) · Protenix v2 (bioRxiv 2026.04) · PXDesign (bioRxiv 2025.08) · AnewOmni (bioRxiv 2026.03.12) · AnewSampling (bioRxiv 2026.03.10) · AnewSynth (2026.01) · SeedProteo (arXiv 2512.24192) · DPLM-2.1 (ICML 2025 Spotlight) · APM (arXiv 2504.13075) · PocketXMol (Cell 2026)

官方:seed.bytedance.com/en/direction/ai_for_science · seed.bytedance.com/en/protenix_pxdesign · anewbt.com

组织信息:Hang Li 离任、AI Lab 并入 Seed、Yonghui Wu 加入字节主管基础研究(新闻源:aibase · pandaily · pingwest)

研究范围:2024.10 – 2026.04 间 ByteDance AI for Science 公开与半公开信息。部分数据(Protenix-v2 湿实验 / Anew 管线 / FoldBench 指标)未经第三方复现,读到时请注意 caveat。
仅用于内部讨论,不构成投资建议。