科學家找到深度學習基因組學應用的一頂“黑帽子”  
 

科學家找到深度學習基因組學應用的一頂“黑帽

DARTS 的基本框架

研究人員首次將深度學習與貝葉斯假設檢驗結合,利用深度學習強化RNA可變剪接分析的準確性。

■本報記者 趙廣立

在生命科研領域,常有人說深度學習的基因組學應用好比是“一個盲人在一間黑暗的房子里尋找一頂并不存在的黑色帽子”。言下之意,是遺憾深度學習的基因組學應用并沒有給人們帶來太多驚喜。不過,近日賓夕法尼亞大學和費城兒童醫院教授邢毅團隊的一項研究,找到了這樣一頂“黑帽子”。

這項發表在《自然—方法》上的論文成果,提出了一種新的計算框架——DARTS(“利用深度學習強化對RNA-seq的可變剪接分析”英文的首字母縮寫)。該計算框架首次將深度學習與貝葉斯假設檢驗結合,用于RNA可變剪接分析。這種結合使得它即使對于測序深度不那么高的樣品,也能有效提高RNA-seq定量差異剪接的準確度。

清華大學生命科學學院教授張強鋒點評道:“DARTS綜合了深度學習和貝葉斯假設檢驗統計模型的優點,為那些低測序深度的數據提供了更好的做可變剪接分析的手段,拓展了傳統RNA-seq可變剪接分析的敏感度和準確度。”

計算基因組學中

一個廣受關注的問題

邢毅等人在上述論文中指出,目前,RNA-seq技術是研究RNA剪接最常用的實驗手段。然而,RNA-seq技術雖然能較好地定量基因表達的結果,但對于差異剪接分析來說,它依賴于更高的測序深度。而且即便如此,現有的計算方法還不能較準確地定量低表達基因的剪接變化。因此,為了提高剪接定量的準確性,急需引入新的計算分析方法。

“可變剪接現象從20世紀70年代被發現后,其基本的科學問題聚焦為可變剪接位點發現、差異分析、調控元件和網絡的發現和構建。RNA-seq 技術的發明,使得系統、定量的可變剪接差異分析成為可能。”張強鋒介紹說,大量測序數據的可變剪接差異分析需要優秀的統計模型和計算工具,因此一直是一個需要高度技巧的生物信息學研究課題。

據張強鋒介紹,邢毅研究組在針對大量測序數據的可變剪接差異分析的計算分析領域深耕多年,已經貢獻了多個有影響力的算法和計算工具。該團隊針對高通量RNA-seq數據開發出的用于差異剪接分析的rMATS等軟件,對于測序較深、質量較好的數據集都能取得不錯的結果,已在全世界范圍內被廣泛下載使用。

然而,由于成本等原因,大量RNA-seq 測序實驗設計的測序深度較淺。對于這些數據集,能利用來做差異分析的可變剪接事件非常有限。

美國卡耐基梅隆大學計算機學院教授馬堅也表示,在基因組學中,確實有很多類似的問題——如何在現有數據上對特定的基因組標注(譬如染色質結構、轉錄因子結合)訓練一個機器學習模型并在全新的細胞系中有效預測,已經成為一個計算基因組學中廣泛關注的問題。“DARTS嶄新的整體設計理念值得很多其他類似的問題借鑒。”

DARTS計算框架

給出問題答案

據邢毅研究組這篇發表在《自然—方法》上的論文介紹,DARTS由兩部分構成:深度神經網絡模塊(DNN)和貝葉斯推斷模塊(BHT)。其中,DNN基于順式序列特征和樣品特異的RNA結合蛋白表達水平特征來預測差異剪接的結果;而BHT則通過整合實驗樣品測序數據本身和基于深度神經網絡的先驗概率來推斷差異剪接的結果。

研究者在論文中強調稱,與其他計算方法不同的是,在DARTS計算框架下,DNN不僅通過順式序列特征來預測可變剪接的結果,而且還將樣品中RNA結合蛋白的表達水平整合進了RNA可變剪接結果的預測中,增加了預測參數的維度。

DARTS的邏輯是,通過DNN對ENCODE和Roadmap數據庫中大量RNA-seq結果的深度學習,能夠獲得高精度的預測值作為BHT中的貝葉斯先驗概率,進而結合具體實驗中RNA-seq的結果,來獲得更為準確的差異剪接推斷。

在研究實踐中,邢毅研究組發現,在低通量RNA-seq文庫中,通過使用DNN預測值進行強化分析后,能夠達到比使用傳統方法分析更高的準確度,并且這種提升在越低通量的文庫中越明顯;即使在高通量的RNA-seq文庫中,使用DNN預測仍能發現在低表達基因中的可變剪接變化。而在過去,這些低表達基因的可變剪接變化在傳統分析方法中往往會被忽略。

也就是說,研究結果證明了DARTS不僅提升了基于RNA-seq方法研究可變剪接的準確性,同時也提供了在低表達基因中研究可變剪接的研究手段。

解析DARTS:

海量數據訓練和新樣本特征的綜合