首頁 > 易卦

基於 Cell ID 的單細胞基因特徵提取和細胞身份識別新方法

作者:由 鹼基礦工 發表于 易卦日期:2023-01-15

定性變數是什麼意思

基於 Cell ID 的單細胞基因特徵提取和細胞身份識別新方法

全文4,893字,9圖,閱讀15分鐘。封面圖源:pexels。com

-------/ START /-------

我想給大家分享一篇今年四月份發表在 《Nature biotechnology》 上的文章,題目是 “Gene signature extraction and cell identity recognition at the single-cell level with Cell-ID”,翻譯出來是 “基於Cell ID的單細胞水平基因指紋特徵提取和細胞身份識別方法”。

基於 Cell ID 的單細胞基因特徵提取和細胞身份識別新方法

我們知道單細胞RNA測序技術(scRNA-seq)的應用已經越來越廣泛。在研究人類器官組織和細胞的型別上,scRNA-seq 是一個很好的技術解決方案。目前比較有代表性的研究專案包括:人類細胞圖譜專案、美國國立衛生研究院(NIH)主導的人類生物分子圖譜計劃和 LifeTime 專案等。

單細胞研究的一個重要目的是揭示細胞之間複雜且豐富的異質性特徵。但這個領域一直以來都有一個挑戰,那就是

scRNA-seq 資料的維度和噪聲都比較高,這導致對細胞異質性的研究變得十分複雜,這個問題在很大程度上也制約了細胞多樣性的研究

一般來說降低資料維度可以提高信噪比,也就是用少量但是顯著的特徵描述細胞。目前在這方面用得最廣的是PCA、ICA、tSNE和UMAP。但這些方法本質上都是基於聚類來實現的,它們在計算細胞特徵的過程中尋找的是細胞之間的共性差異,

因此這些方法所揭示的異質性實際上停留在細胞亞群這個較粗的顆粒度上,而不是精確到單個細胞的水平

但對於細胞轉錄異質性的詳盡研究實際上需要我們對每一個細胞的基因表達特徵都進行可靠的統計和分析。所以,

如何能夠可靠地表徵每一個細胞的基因特徵就成為了單細胞轉錄組學研究中一個尚未被完整解決的科學問題

這也是 NBT 這篇文章所要解決的問題。這篇文章的作者來自法國巴黎大學,

他們提出了一個稱為 Cell-ID 的無聚類多元統計方法

。這個方法可以從單細胞測序資料中將每個細胞的基因特徵有效地提取出來,並且還能夠橫跨不同的資料集對不同的細胞型別進行註釋和匹配,發現未知或罕見的細胞型別和細胞狀態。

從原理來說,Cell-ID 背後所依據的方法是統計學中的

多重對應分析法(Multiple correspondence analysis, 簡稱 MCA)

,這是一種變數統計分析方法,它可以用來分析多個高緯度變數(比如基因表達量)之間的關聯以及和多個低緯度觀察值(比如細胞)之間的對應關係。

MCA方法經常被應用到社會科學領域的研究之中,用來調查測試物件對不同問題的態度一致性,法國和日本對這個方法的使用尤為普遍,可能也是這個原因法國巴黎大學的研究人員率先將這個方法移植到了單細胞基因指紋特徵的提取上。

MCA 本質上也是一個針對多個分類變數的降維方法,就如同針對定量變數的主成分分析法一樣,最終目的是讓同個類別的物件將緊靠在一起,而不同類別的物件遠遠分開(但不同之處在於MCA除了降維之外,還可以檢測多變數之間的關聯關係)。

但要注意 MCA 僅適用於從定性變數(也就是“分類變數”)中得出統計結論,

所以在應用 MCA 之前需要先將定量變數轉化為分類變數

,例如將連續型變數標準化之後取它們的統計分位數來作為分類變數。當資料集完全表示為分類變數之後,就可以構建相關的資料矩陣進行 MCA 分析了。

文章這裡是透過線性變換的方式將各個細胞的基因表達量轉化到0和1的範圍之內,這樣就可以在 MCA 的數學框架之下對細胞的特徵進行定量分析了,這一點也是這篇文章中一個較為巧妙的處理方法,下面的圖1是 Cell-ID 的原理概述。

基於 Cell ID 的單細胞基因特徵提取和細胞身份識別新方法

圖1。 Cell-ID 原理概述

從圖1。a可以看出,Cell-ID 透過 MCA 實現了基因表達矩陣的降維,圖中細胞(黃色圈圈)和基因(黑色“+”)都投影到一個共同的正交空間中,這個圖也叫做 MCA 雙標圖(MCA biplot)。

在這樣的正交空間中,基因離細胞越近,那麼就代表它對某個細胞的特異性越高

。因此,可以在 MCA 空間中,將細胞上的基因與該細胞的距離作排序,

排序靠前的基因就可以作為這個細胞的基因特徵

,或者稱作該細胞的基因指紋,看作是這個細胞的一個獨特身份證。同時,每個細胞的基因特徵本身也是一個很有價值的資料,所以還可以單獨將它們提取出來構成一個單細胞基因特徵資料集用於進行下游分析,比如圖1b中的功能研究等。

那麼關於 Cell-ID 的原理概述就到此為止了,當然具體的數學細節我在這裡無法展開,因為該部分的細節對我來說也還有不清楚的地方,還需要做更多的數學演繹才行,當然這其中最重要的就是 MCA 的原理(在很多多元統計學的書本中有該原理的數學描述)。

評估 Cell-ID 的有效性

接下來要對 Cell-ID 方法的有效性進行綜合評估,

這個評估的方法和結果貫穿全文也是文章的一個重點

研究人員首先模擬生成了 100 個 scRNA-seq 資料,然後在這個資料集上分析基於MCA 降維的細胞和基因表達的一致性。

這個一致性評估從三個層面來進行:

透過計算 Spearman 相關性係數的方法,分別評估 MCA 方法和常用的 PCA 方法降維之後前10個主成分的結果相關性(如 Supplementary Fig 1,如下),可以看到各個PC之間的相關性都很高,接近於 1;

基於 Cell ID 的單細胞基因特徵提取和細胞身份識別新方法

透過近鄰法進行對比。具體來說是對由 MCA 方法所獲得的每個細胞中的基因排列和 MCA 空間中相鄰的另外50個細胞進行對比。主要是比較他們的基因表達量是否一致,對比的結果也在 Supplymentary Fig1a。b 中展示出來了,可以看出一致性情況也是很好的,

也就是說彼此相鄰的細胞,它們的基因特徵也相似

進一步驗證發現基於 MCA 得到的細胞基因特徵資訊即使是在發生高dropout現象的 scRNA-seq 資料集裡也依然有很好的魯棒性。

這裡我補充解釋一下什麼是“Dropout現象”:Dropout 現象是 scRNA-seq 中常發生的一個事件,意思是基因表達資訊漏測。原因是很多在表達的基因,由於每個細胞中 mRNA 序列起始量較低或者測序技術的原因而沒有被檢測到,這部分基因的表達資訊就被漏掉了。dropout 現象所導致的資料丟失,會影響下游的資料分析,如何解決這個問題也是單細胞組學所面臨的一個挑戰。參考:https://www。linkresearcher。com/theses/b57bbc38-da8c-463b-8c91-4d56c3101ac4

除了使用模擬資料之外,研究人員接下來使用兩組獨立的人血單核細胞對 Cell-ID 的有效性做更進一步的評估,這兩組細胞分別是:(1)基於 CITE-seq 方案得到的臍血單核細胞(CBMCs)和(2)透過 REAP-seq 方案得到的外周血單核細胞,這兩個方案都是透過檢測單個細胞的蛋白標記物水平對單個細胞的特徵進行了註釋。

這相當於是透過實驗檢測的方法,得到了一個單細胞型別特徵的參考資料。

透過對比分析之後,可以發現 Cell-ID 的基因指紋特徵在對應型別細胞的基因上都有顯著的富集情況(圖 2。a),這個富集可以說明 Cell-ID 得到的細胞基因特徵和真實結果是具有高度一致性。

基於 Cell ID 的單細胞基因特徵提取和細胞身份識別新方法

圖2。 Cell-ID透過預先建立的標記列表識別人類CBMCs細胞型別

從具體數字上來說,這兩個資料集中 Cell-ID 的識別精確度(Precision)分別達到了 87% 和 90%,召回率(Recall)達到了 84% 和 73%。這個結果想要告訴我們的是,文章所提出的

Cell-ID 能夠很好地提取每個細胞的基因指紋並用來識別不同的細胞型別

除此之外,Cell-ID 甚至還能識別正在分化的細胞亞型,例如文章圖 2c,d 所示的那樣,Cell-ID 捕獲到了造血幹細胞的分化亞型,而且即使是罕見的細胞狀態也可以被 Cell-ID 識別出來。

同類細胞的可重複性識別評估

緊接著,研究人員進一步評估了 Cell-ID 對同一組織不同批次 scRNA-seq 資料集中識別相同細胞型別的能力。如文章圖3所示(如下),主要分析了來自多個不同供體、不同測序平臺所產生的人類胰島和人類以及小鼠氣道上皮細胞的資料集。結果發現,Cell-ID 的整體效能和有效性與已經發表的方法相當。精確度和召回率都很高,其中精確度大於 92%,召回率也高於 75%。

基於 Cell ID 的單細胞基因特徵提取和細胞身份識別新方法

圖3。 Cell-ID對同一或不同來源組織、種內和種間的scRNA-seq資料集的細胞匹配表現

跨組織的細胞型別識別能力評估

然後,評估 Cell-ID 在不同組織來源的 scRNA-seq 資料中識別同一種細胞型別的能力。

文章還是用氣道上皮細胞作為例子(圖3 展示了這個過程)。基於在氣道上皮細胞中獲得的無偏基因指紋特徵,Cell-ID 識別出了腸上皮中的刷狀/族狀細胞、內分泌細胞和杯狀細胞,而且精度高達90%、召回率達到73%。對比之後發現,這個精度已經優於已經發表過的方法(圖3c、d可以檢視更加具體的對比結果)。

另外,他們還使用 Cell-ID 對兩個獨立的嗅上皮細胞資料集做細胞型別的掃描和識別,同時對比了來自氣道和腸道上皮的族狀細胞特徵,

結果還識別出了推測中罕見的、未分類的SCCs細胞,即孤立化學感覺細胞

(如圖3e、f所示)。

跨測序平臺的評估

這是對 Cell-ID 的最後一項評估,評測了它在不同的單細胞組學平臺上的表現,同時驗證它在基因指紋特徵識別上的可重複性(文章圖4展示了這個具體的過程)。這個評估所用到的資料主要來自於雄性小鼠細胞圖譜中的 scRNA-seq 資料和小鼠 ATAC 圖譜中單細胞 ATAC-seq 資料。分析結果也顯示,

Cell-ID 對來源於 scRNA-seq 和 ATAC-seq 的資料得出的細胞型別匹配度都很好,F1 分值也都比較高,並且要優於當前已發表的其他方法

基於 Cell ID 的單細胞基因特徵提取和細胞身份識別新方法

圖4。 Cell-ID對來源於不同單細胞組學技術的獨立資料集上細胞間匹配能力的評估

所以,綜合來說,這篇文章所提出的

Cell-ID 可以非常量化地提取並註釋細胞的基因特徵用於表徵不同的細胞型別,並且能夠在不同的供體、器官組織、物種和單細胞測序平臺中得到有效的重複和驗證

。這樣的一個方法可以改善我們在單細胞水平的生物學方面的研究和解釋力,可以更好地發現以前未被表徵出來的罕見細胞型別或者細胞狀態,而且這個方法還為跨組織、跨生物體的細胞型別研究以及系統多組學研究奠定基礎,意義非凡。

啟發

讀了這一篇文章之後,我想最後再談一點它帶給我的一個啟示。

實際上,這篇文章所用到的統計學方法並不算很新穎,它只是將一個在其他學科中用得比較廣的方法複用到單細胞組學中來,並沒有創造一種全新的統計學演算法,但是卻在單細胞組學領域取得了很好的效果,

可見微創新同樣是獲得重要科研成果的有效手段,甚至還是一個高效的手段,未必都得好高騖遠,還是要因時制宜

,當然他們的先發優勢也是這裡面一個重要的加分項。

文章提出的 Cell-ID 從原理上來說,我覺得還可以應用到腸道菌群基因組的研究之中,可以用類似於 Cell-ID 的思路設計一個 Meta-ID 來對不同的腸道菌群進行特徵表達和識別,這樣一來應該也能夠進一步提升當前的腸道菌群多組學研究。

參考文獻

1。 Cortal A, Martignetti L, Six E, Rausell A。 Gene signature extraction and cell identity recognition at the single-cell level with Cell-ID [published online ahead of print, 2021 Apr 29]。Nat Biotechnol。2021;10。1038/s41587-021-00896-6。

What I cannot create, I do not understand。

- Richard P。Feynman(理查德。菲利普斯。費曼)

基於 Cell ID 的單細胞基因特徵提取和細胞身份識別新方法

-------/ END /-------

※ ※ ※

你還可以讀

基因組學中的深度學習

科普 | 古DNA研究如何揭示中國人的起源?

如何理解GWAS中Manhattan plot和QQ plot所傳遞的資訊