RNA修飾對(duì)RNA剪接加工、出核轉(zhuǎn)運(yùn),以及RNA穩(wěn)定性和翻譯效率具有重要調(diào)控作用。然而,現(xiàn)有研究大多局限于單一修飾類型,依賴免疫沉淀、化學(xué)轉(zhuǎn)換等檢測(cè)方法,難以實(shí)現(xiàn)多種RNA修飾的同時(shí)檢測(cè)。因此,如何在同一轉(zhuǎn)錄本上系統(tǒng)解析不同修飾的分布模式,探究修飾間的協(xié)同或競爭關(guān)系,并闡明它們?nèi)绾喂餐{(diào)控RNA剪接加工等關(guān)鍵生物學(xué)過程,是該領(lǐng)域面臨的重要挑戰(zhàn)。
近期,中國科學(xué)院動(dòng)物研究所研究團(tuán)隊(duì),提出了基于納米孔R(shí)NA直接測(cè)序技術(shù)與深度學(xué)習(xí)策略的RNA修飾圖譜解析算法ORCA。該算法通過對(duì)RNA修飾位點(diǎn)的整體識(shí)別及基于RNA修飾位點(diǎn)數(shù)據(jù)庫的遷移學(xué)習(xí)注釋,實(shí)現(xiàn)了多種RNA修飾類型的系統(tǒng)鑒定,且該算法利用納米孔測(cè)序的單分子關(guān)聯(lián)信息,精準(zhǔn)解析了RNA中臨近修飾位點(diǎn)間的復(fù)雜互作關(guān)系,提示了RNA修飾與剪接加工過程之間的潛在協(xié)同調(diào)控模式。
研究團(tuán)隊(duì)通過信號(hào)多態(tài)性特征提取與域?qū)箤W(xué)習(xí)策略,克服了RNA修飾檢測(cè)對(duì)特定修飾類型訓(xùn)練集的依賴問題。同時(shí),算法ORCA利用RNA修飾在轉(zhuǎn)錄本上的“不完全性”,提取了修飾與未修飾RNA分子在同個(gè)堿基上產(chǎn)生的信號(hào)多態(tài)性特征,并結(jié)合域?qū)箤W(xué)習(xí)策略,使模型能夠選擇性學(xué)習(xí)不同修飾類型間的共性特征?;谠摬呗?,該算法僅需使用6種體外轉(zhuǎn)錄合成的RNA修飾數(shù)據(jù)集進(jìn)行訓(xùn)練,即可在mRNA和核糖體RNA中,對(duì)超15種修飾類型進(jìn)行系統(tǒng)識(shí)別與化學(xué)計(jì)量比預(yù)測(cè),拓展了現(xiàn)有DRS數(shù)據(jù)中可解析的RNA修飾類型范圍。
在此基礎(chǔ)上,研究團(tuán)隊(duì)建立了基于遷移學(xué)習(xí)的RNA修飾類型注釋方法。該方法綜合利用同類修飾位點(diǎn)間的電信號(hào)擾動(dòng)相似性與序列基序偏好性,并結(jié)合大量RNA修飾數(shù)據(jù)資源,對(duì)識(shí)別到的修飾位點(diǎn)進(jìn)行系統(tǒng)注釋及標(biāo)簽遷移訓(xùn)練,從而實(shí)現(xiàn)多種已知RNA修飾類型的可靠注釋。同時(shí),研究團(tuán)隊(duì)將背景修飾位點(diǎn)的隨機(jī)采樣作為負(fù)樣本訓(xùn)練,有效避免了對(duì)未知新型修飾類型的錯(cuò)誤分類。在保證結(jié)果可靠性的同時(shí),明顯擴(kuò)充了已知RNA修飾位點(diǎn)的數(shù)量。
研究團(tuán)隊(duì)進(jìn)一步利用SGNex項(xiàng)目中多個(gè)人類細(xì)胞系的RNA直接測(cè)序數(shù)據(jù),構(gòu)建了跨細(xì)胞類型的RNA修飾全景圖譜,發(fā)現(xiàn)了RNA修飾位點(diǎn)在轉(zhuǎn)錄本上呈現(xiàn)系統(tǒng)的成簇分布。同時(shí),研究團(tuán)隊(duì)基于納米孔測(cè)序獨(dú)特的單分子支持信息,建立了可在單分子水平上,對(duì)鄰近修飾位點(diǎn)間的協(xié)同或互斥進(jìn)行系統(tǒng)鑒定的修飾簇互作識(shí)別模型。該模型發(fā)現(xiàn),在轉(zhuǎn)錄本異構(gòu)體特異的修飾位點(diǎn)附近,剪接調(diào)控因子及修飾相關(guān)RNA結(jié)合蛋白的結(jié)合位點(diǎn)顯著富集。這一結(jié)果表明,RNA修飾與剪接加工過程之間存在系統(tǒng)性的功能關(guān)聯(lián),為深入研究轉(zhuǎn)錄組表觀修飾多樣性及其復(fù)雜的調(diào)控機(jī)制提供了研究思路。
該研究通過納米孔R(shí)NA直接測(cè)序技術(shù)與人工智能算法深度融合,實(shí)現(xiàn)了RNA修飾檢測(cè)種類與數(shù)量的明顯提升,揭示了RNA修飾位點(diǎn)的系統(tǒng)性鄰近分布及其協(xié)同調(diào)控模式,為解碼RNA修飾的動(dòng)態(tài)互作及其在不同生物學(xué)背景下的調(diào)控機(jī)制提供了計(jì)算生物學(xué)工具。
相關(guān)研究成果發(fā)表在《自然-通訊》(Nature Communications)上。研究工作得到國家自然科學(xué)基金委員會(huì)、科學(xué)技術(shù)部、浙江省等的支持。

基于深度學(xué)習(xí)的RNA修飾系統(tǒng)識(shí)別與注釋模型
