T H HUNG. HENRY

BLOG

  • About
  • Publications
    • Database
  • Gallery
  • Blog
  • Music
  • Contact

4/15/2020

從《物種起源》(1859) 到「新冠病毒起源」(2019) ——演化樹初探

0 Comments

Read Now
 
「系統發生樹」,英文 phylogenetic tree,是一個如何翻譯都翻譯不好的專業詞彙。Phylo- 是指「種族」、genetic 是「基因」、「起源」。我姑且用「演化樹」(evolutionary tree)代替之。演化樹的用處,是以樹狀圖表來表達不同生物(或基因、羣體、個體)的演化關係。大家最有印象的演化樹代表,可能是達爾文於 1859 年《物種起源》所繪的「生命之樹」(tree of life)。
Picture
(圖一) 左圖為查爾斯.達爾文(1809 - 1882),英國生物學家,被譽為「演化學之父」。最著名的著作為《物種起源》(1859),全書只有第四章末一幅插圖,用於解釋物種如何分化。

​時至今日,演化樹仍然在科學界無處不在,更因近期新冠病毒肆略全球,我們或多或少都在新聞報章看見這類演化樹。我在大學教的科目恰恰是「系統發生學」,近日因英國停擺而賦閒在家,我決定將教學筆記集結成文,粗淺地介紹「演化樹」如何與我們悉悉相關。我們如何理解演化樹?演化樹如何判斷生物起源?演化樹在對抗今次疫情起了甚麼作用?
​
Picture
(圖二) 已知最全面的新冠病毒演化樹(4月10日)(來源:http://nextstrain.org)
​


「​我們從猩猩演化而來」是錯誤的

這句話常被濫用來解釋演化論,可惜是錯誤的。現代演化學家並不認為演化是線性的,我們並非猩猩的後代,沒有一隻遠古猩猩誕下了人類。正確的描述,是猩猩與我們「同源」或「有共同祖先」(share a common ancestor)。這「祖先」在學術上稱為「黑猩猩—人類最後共同祖先」(Chimpanzee-human last common ancestor, CHLCA),它既非猩猩、亦非人類。演化論是如此解釋的:隨著時間流動,生物個體將會不斷自然變異。即使本來同種的生物,有一部分的群體變得與其他羣體非常不同,以至兩個群體間再無交配的可能,則區分為兩個物種。

​在演化樹上,人類和黑猩猩稱為「旁枝」(sister branch),旁枝為建構演化樹的基礎,類比於樹的分枝。而共同祖先則稱為「根」(root),根是所有旁支的起源。

​
尋找物種起源,就等於尋找物種在演化樹的根。
Picture
(圖三) 左圖的「線性」演化不被演化學家接受,我們並非遠古猩猩的後代。如果我們真的是黑猩猩的後代,那麼黑猩猩應該已滅絕,與事實不符。我們與黑猩猩的關係與右圖一樣,我們「同源」,有一個共同祖先。
​

尋找物種起源

要尋找物種起源,我們要向自然學家學習,觀察物種的特徵。以下圖的簡化版「脊椎動物」演化為例,只有靈長類動物和鼠及兔類有「乳腺」,因此它們是演化過程上最相近的,在演化樹上屬於「旁枝」。然後,爬行類和恐龍及鳥類均有「羊膜」但無乳腺,因此它們也是旁枝。兩棲類比起兩組均不相近,所以自己獨自一枝。最後,魚類與其他脊椎動物均不同,因此又是自己獨自一枝。

我們現在只知道這些脊椎動物的演化關係,等於知道這棵「演化樹」是如何分枝,但我們仍然未找出這棵演化樹的「根」。我們無從知道哪一種動物最古老、最接近脊椎動物的起源。
Picture
(圖四) 簡化版的「脊椎動物」演化樹,靈長類和鼠及兔類為一組,爬行類和恐龍及鳥類為另一組,兩棲類自己一組,魚類自己一組。注意分枝的顏色與特徵相似對應。
​
我們只要找到一個比起這些脊椎動物更古老、更不像的生物,例如海星這一類非脊椎動物,把它放置於演化樹上,就可以找到脊椎動物的根。在這個例子裡,海星稱為「外群」(outgroup),它被用來為內群(ingroup)定根。於是,我們便推測得出魚類最為古老、最接近脊椎動物的起源。
Picture
(圖五) 以海星(無脊椎動物)作為外群,為「脊椎動物」內群定根。魚類最接近「脊椎動物」起源。紅色標示代表共同特徵。

​
尋找新冠病毒起源

觀察病毒比起觀察動物艱難得多,畢竟病毒太相似,大部分特徵都要在極高倍數的顯微鏡下才可看見,我們無法有效地比較它們的演化關係。如果是同一種病毒(例如新冠病毒),它們在顯微鏡下其實也不會有甚麼分別。我們只可以從它們的「基因」入手。

由一月起,科學家便日以繼夜地為每株病毒定序(sequencing),判定它們的基因
序列。你可能知道人類有 23 對染色體(遺傳分子),病毒則簡單得多,只有 1 條遺傳分子(DNA 或 RNA)。這條 DNA(或 RNA)是由一串核鹼基(nucleobase)組成,DNA 的核鹼基有四種:A、T、C 及 G(RNA 的核鹼基以 U 取代 T)。

新冠病毒(SARS-CoV-2)的遺傳分子長度約為 30,000
鹼基,這是其中一個樣本(MN908947)序列的首 1000 位:

「
ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAACTAATTACTGTCGTTGACAGGACACGAGTAACTCGTCTATCTTCTGCAGGCTGCTTACGGTTTCGTCCGTGTTGCAGCCGATCATCAGCACATCTAGGTTTCGTCCGGGTGTGACCGAAAGGTAAGATGGAGAGCCTTGTCCCTGGTTTCAACGAGAAAACACACGTCCAACTCAGTTTGCCTGTTTTACAGGTTCGCGACGTGCTCGTACGTGGCTTTGGAGACTCCGTGGAGGAGGTCTTATCAGAGGCACGTCAACATCTTAAAGATGGCACTTGTGGCTTAGTAGAAGTTGAAAAAGGCGTTTTGCCTCAACTTGAACAGCCCTATGTGTTCATCAAACGTTCGGATGCTCGAACTGCACCTCATGGTCATGTTATGGTTGAGCTGGTAGCAGAACTCGAAGGCATTCAGTACGGTCGTAGTGGTGAGACACTTGGTGTCCTTGTCCCTCATGTGGGCGAAATACCAGTGGCTTACCGCAAGGTTCTTCTTCGTAAGAACGGTAATAAAGGAGCTGGTGGCCATAGTTACGGCGCCGATCTAAAGTCATTTGACTTAGGCGACGAGCTTGGCACTGATCCTTATGAAGATTTTCAAGAAAACTGGAACACTAAACATAGCAGTGGTGTTACCCGTGAACTCATGCGTGAGCTTAACGGAGGGGCATACACTCGCTATGTCGATAACAACTTCTGTGGCCCTGATGGCTACCCTCTTGAGTGCATTAAAGACCTTCTAGCACGTGCTGGTAAAGCTTCATGCACTTTGTCCGAACAACTGGACTTTATTGACACTAAGAGGGGTGTATACTGCTGCCGTGAACATGAGCATGAAATTGCTTGGTACACGGAACGTTCT…」(尚餘 28,901 位)。

這些基因密碼就如「脊椎動物」的特徵一樣,帶有演化的資訊。以下是簡化了的病毒演化樹例子,病毒 E、F 有著相同的基因序列,因此它們一組;病毒 C、D 有著相同的基因序列,因此它們一組;病毒 C-D 組和 E-F 組相近(在序列第三位一樣是 A),因此 (C—D)—(E—F):病毒 B 自己一組;病毒 A 自己一組:

Picture
(圖六) 簡化版的「新冠病毒」演化樹,以基因序列取代「脊椎動物」例子的特徵。
​
同樣地,我們仍未找到這棵演化樹的根,未能確定新冠病毒的起源。你可能會問,可以找一種與新冠病毒相近的病毒來作為「外群」定根嗎?

現在已知最接近的病毒為以中菊頭蝠(Rhinolophus affinis)作宿主的冠狀病毒 RaTG13(基因序列相似度為 96.3%)。如果我們粗略按照比例來繪畫這棵演化樹,分枝越長代表越多基因變異的話,演化樹會變成這個樣子:
Picture
(圖七) 以蝙蝠冠狀病毒 RaTG13 作為外群,為「新冠病毒」內群定根,紅色標示代表「感染人類的能力」。枝的長度代表基因變異。如果按照實際比例來畫的說,長枝會更長超出這個網頁畫面。
​
…… 好像有點奇怪。

事實上,當長枝發生於外群時(亦即外群與內群太不相似),外群的演化距離與內群的演化距離太不合比例,內群的基因變異變得不顯著,在運算過程中內群的分枝會出現更多的隨機錯誤,這個現象稱為「長枝吸引效應」(long branch attraction)。這是一個不符合理論的比喻,但最「人性化」容易理解:如果我請你把一堆蘋果分類好,你會認真的看牌子、看標籤;但如果我請你把一堆水果分類的話,你只會想到要把蘋果、香蕉、奇異果等分開,你不會太注意到要把蘋果再細分。

日前劍橋大學發表的論文正正犯了這個錯誤。在這個錯誤下,任何病毒株都有可能錯被放置於上圖病毒 A 的位置,錯被當作最接近病毒起源。
​
造成長枝效應的原因,不外乎是缺少中間的分枝:當中間分枝越多,長枝效應將越弱,外群定根越準確。這些中間分枝是未知的新冠病毒,很有可能寄生在蝙蝠至人類之間未知的中間宿主上,在其中一個中間宿主內,病毒演變至可感染人類。
Picture
(圖八) 長枝效應可能源於寄生於未知宿主的未知新冠病毒,未知中間宿主可能不止一個。
​
但無論如何,以我們現今的數據,我們無法用外群來為新冠病毒定根,這是否意味著我們對新冠病毒的起源仍無頭緒?

不,我們還有另外一種尋找物種起源的方法。

​​
基因變異是一個時鐘

基因變異速度是有辦法估算出來的,尤其當環境沒有太大的變化,自然選擇(natural selection)不強的時候,基因變異的速度是穩定的。如果我們知道每株病毒的取樣日期,我們可用現在的時間校準這棵演化樹(tip calibration)。請想像有一個時鐘指向現在,這個時鐘名為分子時鐘(molecular clock)。

新冠病毒大約以幾何級數繁殖,在一個已校准時間的演化樹模型上,看來會像這樣:


在這個模型裡,枝的長度由短慢慢增長,代表基因變異越來越快,病毒增長的速度也在加快。同時,當所有病毒都有一個穩定的分子時鐘,亦即在相同的時間裡,基因變異量相等,根—端的距離亦相等。

那麼理論上,我們把時鐘往回撥,將會有一過去的時間點,枝的長度變為 0(根—端距離也會變為 0),這就是根的位置。

因此,分子時鐘校準了的演化樹都是已定根的。

這個模型可以推測出哪株病毒最接近根,亦即最接近病毒起源。因為有了時間這個維度,這個模型也會預測出病毒起源的時間。


更重要的是,因為有時間、病毒增長速度等變量,演化模型將可以預測未來病毒數量的趨勢。

​
Picture
(圖九) 幾何增長演化模型,留意隨著時間(左至右),枝的長度增加,代表基因變異加快,病毒數量增長量加快。
​
新冠病毒的起源和演化路徑

Nextstrain(https://nextstrain.org,附有中文及英文版)是一個實時病毒演化監察平台,搜集了全球科學界所發現的病毒基因序列。Nextstrain 每星期發表研究報告更新現時科學界對新冠病毒的認知,根據美國華盛頓大學流行病學副教授特雷弗.貝德福德(Trevor Bedford)領導發表的最新報告(4月10),團隊共分析了當時已有的 3,160 個基因圖譜,加上分子時鐘(molecular clock),結論出「所有流行中的新冠病毒分株的共同祖先最有可能出現於十一月下旬至十二月上旬的中國武漢。這項發現與中國與亞洲新冠病毒大流行第一個月的情況吻合。」

武漢搜集到的病毒基因變異不多,加上我們已知的其他傳染病學資訊(例如傳播鏈追蹤),科學家認為武漢的病毒樣本最接近演化樹的根,亦即病毒起源。

報告亦提出新冠病毒於全球演化及傳播的路徑:隨著新冠病毒於亞洲爆發,病毒由一至二月開始散播至北美、歐洲及大洋洲,但並未引起大流行及注意,二月至三月於北美及歐洲的病毒開始大量傳播,並於全球大流行,於最近開始傳播回亞洲。

報告(
https://nextstrain.org/narratives/ncov/sit-rep/zh/2020-04-10)有最詳盡的演化樹,閱畢《演化樹初探》,你應該可以理解報告中新冠病毒的演化路徑。
​

Share

0 Comments

4/11/2020

劍橋大學「新冠病毒分為ABC株」理論,被基因學家批評「錯漏百出」

2 Comments

Read Now
 
此文章亦刊登於《立場新聞》(2020/04/15)。

相關文章:
從《物種起源》(1859) 到「新冠病毒起源」(2019) ——演化樹初探

劍橋大學彼得.福斯特(Peter Forster)所領導的研究團隊日前(4月10日)於《美國國家科學院院報》(PNAS)發表題為《SARS-CoV-2基因圖譜之系統發生網絡分析》的研究論文,重塑新冠病毒(SARS-CoV-2)之早期演化路徑,「有助了解新冠病毒傳播起源」。

研究團隊於全球共享流感數據倡議組織(GISAID)下載 160 個完整新冠病毒基因圖譜,使用系統發生網絡分析(phylogenetic network analysis),分類出三種新冠病毒「變種」,研究團隊將其名為 A、B及C。A株最接近野生動物界的病毒宿主(蝙蝠冠狀病毒 RaTG13),被認為最有可能是新冠病毒起源。原始A株主要發現於武漢病人身上,而 A 株的變種則被發現於居於武漢的美國人、美國及澳洲病人;B 株則遍佈東亞;而 C 株主要散播於歐洲區域,亦見於新加坡、香港及南韓。研究團隊認為:「(這項研究)有助辨別新冠病毒(在不同區域)的源頭,可以對之隔離以阻止病毒進一步散播。」
Picture
(圖一) 彼得.福斯特團隊以 160 個新冠病毒基因圖譜重構演化關係,A 株原種於武漢病人身上發現、A 株變種於居於武漢的美國人、美國、澳洲病人身上發現、B 株於東亞廣泛傳播、C 株主要於歐洲。
​
彼得.福斯特團隊的論文引起極大回響,不少媒體甚至錯誤理解論文指出美國有可能為病毒起源,又或者 ABC 三株針對不同人種和群體。隨著時間推進,病毒本來就會因為自然基因變異,演化出不同亞種,但現今科學界仍未發現新冠病毒演化出任何趨勢針對某特定人種。

更重要的是,論文面世僅僅兩日已引起多位流行病學家及基因學家的批評。
 

原始數據已過時

第一,原始論文只於 3 月 4 日分析了 GISAID 當中的 160 個新冠病毒基因圖譜,並未提出論據為何不使用當時已存在的其餘約 100 個基因圖譜。截至今日(4月12日),GISAID 已發表了超過 6,000 個基因圖譜。GISAID 是一個學術界共享數據的平台,科學家透過共同分析數據並發表文章,互相尊重學者對數據的貢獻。這份論文已經不符合現時新冠病毒的最新發展。
 
​
不恰當的假設

第二,原始論文使用了不合適的研究方法和假設,得出無效的結論。GISAID 科學顧問委員會成員、愛丁堡大學分子演化學教授安德魯.蘭博(Andrew Rambaut)批評:「(彼物.福斯特團隊)使用蝙蝠冠狀病毒RaTG13作為外群(outgroup)來判斷新冠病毒起源是錯誤的。」
 
科學界判斷一組物種的起源有幾種方法,其一是使用外群來定根(outgroup-based rooting)。以圖二為例,內群是一組相似的物種,隨時間演進衍生出物種A 至 D,而物種 A 最接近內群的根(共同祖先)。以新冠病毒情況,如果外群與一組 A 區的病毒株相鄰,則可被判斷為 A 區最有可能為病毒起源。
Picture
(圖二) 「外群定根法」例子,內群中的 A 最接近外群和內群的根(黃點),因此最有可能是內群中最原始的分支。

​安德魯.蘭博以原始論文所使用的外群(蝙蝠冠狀病毒RaTG13),模擬出外群與所有已知新冠病毒的演化關係(圖三)。
Picture
(圖三) ​安德魯.蘭博以彼得.福斯特團隊所使用的外群(蝙蝠冠狀病毒RaTG13),以最大似然估計(maximum likelihood) JC69 模型,模擬新冠病毒與外群的演化關係,紅點為外群。
​

​由圖三可見,蝙蝠冠狀病毒 RaTG13 與其餘所有新冠病毒距離極遠,衍生出長枝吸引效應(long branch attraction),在此效應下,即使兩枝病毒株極不相似,仍會被錯誤歸類相近,而由於所有新冠病毒株互相更為接近,「RaTG13可被置於幾乎任何新冠病毒的鄰枝」,亦即任何地方的新冠病毒株均有可能被錯誤當作起源。因此,研究團隊並不應使用 RaTG13 作外群定根,而應考慮利用分子時鐘模型及其他假設來判斷病毒起源。


論文發表過程成疑

第三,論文的發表過程被質疑。論文其中一位共同作者為考古學家科林·倫福儒(Colin Renfrew),他亦為美國國家科學院的外籍成員。根據《院報》論文發表指引,學院成員有權每年兩次透過「貢獻提呈」(contributed submission)來發表自己的論文,自行選擇論文評審。兩位評審 Toomas Kivisild 以及 Carol Stocking 均並非流行病基因學家,引起其他學者質疑其評審能力。

 
「錯漏百出,令人沮喪」
 
安德魯.蘭博於其推特批評:「(彼物.福斯特團隊的論文)錯漏百出,令人沮喪。他們使用其他學者未公開發表的研究數據(GISAID),以及錯誤的研究假設得出錯誤的結論,竟然被頂尖期刊所接受……(他們)無視了大批學者於基因圖譜上及起源分析上的努力及貢獻。」多位新冠病毒基因專家對此表示同意,並批評《院報》的審稿水準,當中包括英國伯明翰大學微生物基因及生物信息學教授尼克.勒曼(Nick Loman)。


新冠病毒的起源及傳播
 
Nextstrain(https://nextstrain.org)是一個建基於 GISAID 的實時病毒演化監察平台,每星期發表研究報告更新現時科學界對新冠病毒的認知,根據由特雷弗.貝德福德領導於 4月10 日發表的最新報告,分析 3,160 個基因圖譜,加上分子時鐘(molecular clock),結論「所有流行中的新冠病毒分株的共同祖先最有可能出現於十一月下旬至十二月上旬的中國武漢。這項發現與中國與亞洲新冠病毒大流行第一個月的情況吻合。」


報告亦提出新冠病毒於全球演化及傳播的路徑:隨著新冠病毒於亞洲爆發,病毒由一至二月開始散播至北美、歐洲及大洋洲,但並未引起大流行及注意,二月至三月於北美及歐洲的病毒開始大量傳播,並於全球大流行,於最近開始傳播回亞洲。

科學家強烈呼籲大眾要小心應對新冠病毒大流行,應時刻保持社交距離及良好個人衛生,如無必要外出應留在家中,減慢病毒於社區傳播。

Picture
(圖四) Nextstrain 團隊最新報告(4月10日),以 3,160 個新冠病毒基因圖譜,加上分子時鐘模型,推斷出新冠病毒演化及傳播路徑,及起源最有可能為十一月下旬至十二月上旬的中國武漢。




資料來源:
​
  1. Forster, P., Forster, L., Renfrew, C. & Forster. M. (2020) Phylogenetic network analysis of SARS-CoV-2 genomes. PNAS, 202004999 (early).
  2. University of Cambridge. COVID-19: genetic network analysis provides ‘snapshot’ of pandemic origins.
  3. Rambaut, A. "There are many things that are terribly wrong about this paper. Both in its content, findings and route to publication." Twitter
  4. Bedford, T. et al. (2020) Genomic analysis of COVID-19 spread. Situation report 2020-04-10. Nextstrain.
  5. Tang, X. et al. (2020) On the origin and continuing evolution of SARS-CoV-2. National Science Review, nwaa036.
  6. Hadfield et al. (2018) Nextstrain: real-time tracking of pathogen evolution. Bioinformatics.

​

Share

2 Comments
Details

    Author

    T. H. (Henry) Hung
    Radcliffe Scholar in Interdisciplinary Bioscience, University of Oxford
    Events Committe, British Ecological Society
    Fellow, Zoological Society of London

    hung.studio
    ​

    Archives

    April 2020
    July 2019
    February 2019
    January 2019
    May 2018
    March 2018
    February 2018
    January 2018
    October 2017

    Categories

    All
    Book Reviews
    News
    Opinions
    Publications
    Stories

    RSS Feed

We live in a world where there are enough reasons to separate us. Yet I choose to connect to people with music and science.
© T H Hung. 2020.
Photo Courtesy. Matthew Smith, from Unsplash.​
___
PAGES

Home
About
Publications
Gallery
​Blog
Music
Contact
___
EXTERNAL LINKS

University of Oxford
University College, Oxford
Department of Plant Sciences, Oxford
Oxford Interdisciplinary Bioscience DTP
British Ecological Society
OxHKScholars Association
  • About
  • Publications
    • Database
  • Gallery
  • Blog
  • Music
  • Contact