摘要:还在看孤立的富集通路?clusterProfiler 4.19.4 再进化!引入 Knowledge-Guided Interpretation,整合 PPI 网络、Hub Gene 识别、Fold Change 表达量以及多源知识库(如 ChEA TF)推理。让 LLM 从“看名单”进化到“看网络”,自动构建 Regulator Target Function 的因果调控模型!


封面图:AI 知识引导网络推理

🕸️ 通路富集只是开始,不是终点

做完富集分析,我们往往得到的是一张**“碎片化”的清单**:

  • Top 1: Cell Cycle
  • Top 2: DNA Replication
  • Top 3: P53 Signaling

这时候你可能会问:

“到底是谁驱动了 Cell Cycle?是 E2F1 还是 MYC?” “这些通路之间有什么联系?是孤立的还是协同的?” “这个细胞亚群到底是‘增殖’还是‘应激’?”

以前,这些问题需要你手动去查 STRING、查 TF 数据库、画网络图…… 现在,clusterProfiler 4.19.4 让 AI 帮你把这些碎片“连点成线”!


🚀 重磅更新:Knowledge Integration (知识整合)

我们在 interpret() 函数中引入了多维度的知识注入机制,让 AI 的推理能力指数级跃升。

1. 🔗 PPI 网络与 Hub Gene 识别 (add_ppi = TRUE)

AI 不再只看“基因名字”,它现在能看到“朋友圈”! 当你开启 add_ppi = TRUE,clusterProfiler 会自动:

  1. 提取富集通路中的核心基因。
  2. 查询 STRING 数据库,获取真实的物理/功能互作网络。
  3. 计算 Degree Centrality,识别 Hub Genes(关键枢纽)。
  4. 完整的网络拓扑结构喂给 LLM。

AI 的推理瞬间变得有理有据:

“我发现了 CD3D-CD3E-LCK-ZAP70 这个紧密的互作模块,这不仅仅是几个 T 细胞基因,这是一个完整的 TCR Signaling Complex。这证实了该细胞处于抗原识别状态。“

2. 📊 表达量趋势感知 (gene_fold_change)

富集分析通常只看“谁在名单里”,忽略了“谁高谁低”。 现在你可以把 logFC 向量传给 interpret()

AI 能够推断通路的“活性方向”:

虽然 Apoptosis 通路富集,但关键促凋亡基因 BAX 下调,而抗凋亡基因 BCL2 上调。因此,这个细胞实际上是在抵抗凋亡,而不是正在凋亡。

3. 🧠 多源知识库推理 (Multi-Source Reasoning)

这是最酷的一点!你可以把 KEGG 通路结果和 ChEA 转录因子结果混合在一起喂给 AI。 我们升级了 Prompt 逻辑,让 AI 学会了 “Source Deconvolution”(来源解构):

  • 它能识别出 E2F1 是“司机”(Regulator)。
  • 它能识别出 Cell Cycle 是“车”(Process)。
  • 它能自动写出:“E2F1 驱动了 Cell Cycle” 的因果结论。

📝 代码实战:构建你的调控全景图

假设你有一个 T 细胞的富集结果 ego,以及对应的差异表达基因列表 gene_list

library(clusterProfiler)
 
# 1. 准备你的 Fold Change 数据 (Named Vector)
# gene_list <- c("CD8A" = 2.5, "PDCD1" = 1.8, "GZMB" = 3.2, ...)
 
# 2. 开启“全知全能”模式
res <- interpret(ego, 
                 task = "cell_type",
                 add_ppi = TRUE,                # 自动查 STRING 网络
                 gene_fold_change = gene_list   # 注入表达量信息
)
 
# 3. 打印结果
print(res)

你将看到前所未有的结构化输出:

## Cell Type Annotation
**Cell Type:** Cytotoxic CD8+ T Cells (Activated)
 
### 2. Regulatory Drivers (TFs/Hubs)
- STAT1 (Hub Gene)
- IRF1 (Inferred Driver)
 
### 6. Refined Regulatory Network
Key Interactions:
  CD8A -- CD8B (Complex) - Co-receptor formation
  GZMB -- PRF1 (Co-expression) - Cytotoxicity module
  IFNG -- JAK1 (Activation) - Cytokine signaling
 
**Network Evidence:**
The strong interaction between GZMB and PRF1, coupled with their high expression (FC > 3), defines the cytotoxic functional module of this cluster.

💡 为什么这很重要?

1. 拒绝“幻觉” (Grounding) 以前 AI 可能会瞎编一个机制。现在,它必须引用 PPI 网络中的边Fold Change 数据 作为证据。

2. 发现“隐形”的调控者 有时候关键 TF 本身表达量变化不大(靠核转位调节),但在 PPI 网络中它处于中心位置。新的 interpret() 能敏锐地捕捉到这些 Hidden Hubs

3. 直接生成“机理图” 输出的 refined_network 是经过 AI 剪枝的核心骨架网络,你可以直接拿去画出漂亮的机制图,而不是面对一团乱麻的原始网络。

赶紧升级 clusterProfiler,体验 AI 带来的“上帝视角”吧! 🌟

remotes::install_github("YuLab-SMU/clusterProfiler")

思考题: 如果把药物靶点的富集分析结果(或者把药物靶点数据当上下文)也加进去,AI 能不能帮我们解读药物作用机制?乃至帮我们找老药新用的机场?🤔 欢迎在评论区开脑洞!