新闻聚焦
News

学术聚焦| 如何借助三维基因组图谱和机器学习技术识别胰腺疾病的驱动增强子

发布时间:2025-12-17

学术聚焦| 如何借助三维基因组图谱和机器学习技术识别胰腺疾病的驱动增强子

胰腺疾病(糖尿病、胰腺炎和胰腺癌)影响全球超过10%的人口,造成巨大的健康和经济负担。胰腺由外分泌(腺泡和导管细胞)和内分泌(αβδ细胞)两个功能区组成,这些细胞在发育过程中源自共同祖细胞,但具有高度特化的功能。增强子作为非编码调控元件,在建立和维持细胞身份中发挥关键作用。然而,GWAS研究发现超过90%的疾病相关SNP位于非编码区,其中80%以上位于增强子区域,我们不清楚这些非编码变异影响哪些增强子、这些增强子调控哪些靶基因、以及这种调控在哪种细胞类型中发挥作用。

尽管已有研究借助开放染色质分析和表观遗传标记,在人类胰腺中识别出候选增强子区域,但目前仍缺乏大规模、具备细胞类型特异性的增强子 - 启动子 3D 互作图谱。现有的少量 3D 染色质研究,要么仅局限于整体胰岛分析,缺乏细胞类型分辨率,要么样本数量过少。

此外,在像胰腺这类固体器官中开展细胞类型特异性的增强子功能验证极具挑战性。因此,迫切需要一套系统的方案,用以绘制增强子互作图谱、预测增强子功能的重要性,并在原代组织中实现单细胞水平的实验验证,从而为解析胰腺疾病的遗传学基础提供工具和资源。

 

41a0b372-ea7e-424d-9415-201e4631b691.png  

 

DOI10.1016/j.xgen.2025.101040

 

20251016日,美国NIH国家癌症研究所H. Efsun Arda课题组在《Cell Genomics》发表题为Predictive prioritization of enhancers associated with pancreatic disease risk的研究论文。该研究通过整合多组学技术(包括ATAC-seqHiChIP),测绘了五种人类胰腺细胞类型(αβδ、腺泡和导管细胞)的增强子-启动子三维互作图谱,并创新性地开发了机器学习算法EPIC,以预测和优先排序增强子对细胞特异性基因表达的功能影响。通过在原代细胞中进行CRISPR功能验证,该框架成功将与糖尿病、胰腺癌等疾病相关的遗传风险位点与特定的细胞类型、候选增强子及其靶基因相连接,其中一项关键发现是,胰腺癌的遗传风险与腺泡细胞的调控元件表现出比导管细胞更强的关联性,为理解疾病机制提供了新的视角。

6621750a-5904-4c5c-8871-a83f2de30a37.png 

 

 

研究思路/技术路线

 

0c53ad68-e729-4002-99df-18c4ae193497.png 

 

关键研究结果

 

绘制胰腺细胞特异性的三维基因组互作图谱

42ca0200-3102-43ff-b707-7db7643ea399.png 

该研究率先构建了高分辨率、细胞类型特异性的染色质互作图谱。研究人员从28位器官捐赠者的胰腺组织中,借助荧光激活细胞分选技术(FACS)分离出五种高纯度的细胞群体,分别为α-细胞、β-细胞、δ-细胞、腺泡细胞和导管细胞。

随后,他们对这些细胞同步开展了染色质可及性测序(ATAC-seq)和组蛋白H327位赖氨酸乙酰化的高通量染色体构象捕获技术(H3K27ac HiChIP)测序分析。HiChIP结果识别出349,749个染色质互作,这些互作关联到80,947个增强子和35,802个启动子,覆盖116,935个开放染色质区域。

不同细胞类型呈现出高度特异的互作模式。内分泌细胞(α、β、δ)之间的互作模式相似度较高,而外分泌细胞(腺泡和导管)则呈现出截然不同的调控网络。其中73%的增强子会跳过最近的基因进行远程调控,互作中位距离达到125 kb,这表明简单的“最近基因”注释策略会引发大量误判。

通过ATAC-seq分析结果可知,启动子的染色质互作连接性远高于增强子。90%的启动子参与多个互作(中位数为7个连接),而仅有34%的增强子参与多个互作。

 

构建增强子-启动子树模型以解析基因调控网络

为了系统性地解析复杂的染色质互作数据,研究人员引入了基于图论的增强子-启动子树模型。在该模型中,每个基因的启动子被定义为树根,所有与之发生染色质互作的增强子则构成树枝上的节点,而互作本身则为连接节点的。这种建模方式使得对基因调控的复杂性和层次性进行定量分析成为可能。

 

b537a84b-71ee-4e91-95b6-585278688b86.png 

分析这些模型揭示了几个关键的调控规律。首先,绝大多数增强子通过直接的染色质环与启动子相连(E1增强子),并且这些直接互作的增强子往往比间接互作的增强子(E2)更能跨越更长的线性基因组距离。

 

ebec86ef-2669-4cb3-8170-2758831c2cfa.png 

其次,超过80%的增强子会跳过其线性距离上最近的基因,而去调控一个更远端的基因;这些被远端调控的基因,其表达水平和细胞类型特异性通常显著高于被跳过的基因。此外,一个基因所连接的增强子数量(tree size)与其表达丰度和特异性呈正相关。

 

开发EPIC机器学习模型以预测关键增强子

在树模型的基础上,研发出一种名为 EPICEnhancer Prioritizer using Integrated Chromatin data的机器学习算法,其核心目标在于预测并对那些对基因表达贡献最大的增强子进行排序。该算法运用 k - 近邻(k - NN分类器,将来自树模型的多种染色质特征(例如增强子的 ATAC - seq 信号强度、HiChIP 互作频率等)整合为输入变量,以此来预测一个基因是否具备细胞类型特异性表达。

 

6c7daa36-48b4-42ba-88c8-f6acf519bc51.png 

EPIC算法最具创新性的一点在于其评估增强子功能重要性的方法。通过在模型中以迭代的方式模拟删除每一个增强子节点,并计算该删除操作对模型预测准确性造成的影响,算法能够为每个增强子赋予一个量化的效应值

 

f891b2c1-11cd-47db-b4c5-77b216ba81d5.png 

效应值越高的增强子,意味着其对维持靶基因的特异性表达贡献越大。为了验证EPIC的预测能力,研究人员在原代胰腺细胞中利用CRISPRa技术激活EPIC预测出的高效应值增强子,并通过RNA-FISH单细胞成像技术观察到靶基因(PCSK1PCSK2)表达的显著上调,实验结果与模型的预测高度吻合。

 

链接胰腺疾病遗传风险位点与候选功能元件

最后,该研究将建立的分析框架应用于解析胰腺相关疾病的遗传基础。通过将GWAS发现的疾病风险SNPs与细胞特异性的增强子图谱进行整合分析。结果发现,2型糖尿病(T2D)的风险SNPs如预期般在胰岛细胞(尤其是β-细胞)的增强子中显著富集

 

5acc85df-d172-4d43-80df-978d92a46e42.png 

重点是,与胰腺导管腺癌(PDAC)相关的遗传风险变异,在腺泡细胞增强子中的富集程度显著高于传统的嫌疑细胞——导管细胞

 

402e9347-4ec8-47e6-b7d1-6e85d5f3e224.png 

为验证这一关联,研究团队锁定了一个处于XBP1基因座的腺泡细胞特异性增强子。此增强子富含PDAC风险SNPs,且经EPIC预测具有高效应值。借助CRISPRi技术抑制该增强子的活性后,他们成功在原代腺泡细胞中观测到XBP1基因转录水平显著降低,进而证实了该风险位点与靶基因之间的功能联系

这一系列结果表明,该研究构建的技术路线能够有效将GWAS发现的抽象风险位点转化为具体的细胞类型、功能元件和靶基因,为深入探究疾病的发病机制提供了关键线索。

*转载自锐竞平台