清華新聞網(wǎng)3月26日電 近日,清華大學(xué)自動(dòng)化系江瑞教授團(tuán)隊(duì)2025年9月發(fā)表于《自然·方法》(Nature Methods)的表觀(guān)基因組研究成果“單細(xì)胞表觀(guān)基因組基礎(chǔ)模型——EpiAgent”(EpiAgent—foundationmodel for single-cell epigenomics),經(jīng)過(guò)《基因組蛋白質(zhì)組與生物信息學(xué)報(bào)》(Genomics, Proteomics & Bioinformatics, GPB)評(píng)審,入選2025年度“中國(guó)生物信息學(xué)十大進(jìn)展”。
表觀(guān)基因組是連接DNA序列與人體表型、解析致病機(jī)制的關(guān)鍵橋梁。江瑞團(tuán)隊(duì)建立了國(guó)際上首個(gè)單細(xì)胞表觀(guān)基因組基礎(chǔ)模型EpiAgent,原創(chuàng)性地將單個(gè)細(xì)胞的百萬(wàn)調(diào)控元件壓縮為“細(xì)胞語(yǔ)句”,構(gòu)建14億參數(shù)的大模型統(tǒng)一解析復(fù)雜的基因調(diào)控規(guī)律。該模型通過(guò)獨(dú)創(chuàng)的預(yù)訓(xùn)練任務(wù),在涵蓋500萬(wàn)細(xì)胞、350億調(diào)控元件的自建超大規(guī)模人類(lèi)染色質(zhì)開(kāi)放性圖譜(Human-scATAC-Corpus)上完成訓(xùn)練。EpiAgent不僅使大規(guī)模表觀(guān)基因組數(shù)據(jù)整合分析成為可能,更在腫瘤細(xì)胞中實(shí)現(xiàn)了內(nèi)外源擾動(dòng)響應(yīng)與調(diào)控元件虛擬敲除的精準(zhǔn)推演,從而全面開(kāi)啟了表觀(guān)基因組虛擬細(xì)胞研究與應(yīng)用的新范式。

EpiAgent預(yù)訓(xùn)練數(shù)據(jù)、詞元化過(guò)程、模型架構(gòu)及預(yù)訓(xùn)練任務(wù)
論文鏈接:
https://www.nature.com/articles/s41592-025-02822-z
供稿:自動(dòng)化系
編輯:劉芳芳
審核:郭玲