今年三月份,針對(duì)生物科學(xué)DNA領(lǐng)域,世界搜索巨頭Google公司終于推出它的第一款產(chǎn)品Google Genomics(谷歌基因組)。
相較于Google研究的高大上的月球探測(cè)器項(xiàng)目,Google Genomics可能對(duì)人類有更重大的意義。從現(xiàn)在的配對(duì)數(shù)千組基因組,隨著技術(shù)的發(fā)展未來能做到配對(duì)數(shù)百萬對(duì),Google Genomics計(jì)劃無疑能推動(dòng)下一個(gè)十年內(nèi)醫(yī)學(xué)的發(fā)展。但是我們的問題又來了,亞馬遜、Google、IBM、微軟,巨頭們開始爭(zhēng)論,究竟誰有資格保管這些重要的基因信息?
其實(shí)早在18個(gè)月前,Google已經(jīng)著手在準(zhǔn)備基因組計(jì)劃,搭建了應(yīng)用程序接口API,邀請(qǐng)領(lǐng)域內(nèi)的科學(xué)家們將DNA數(shù)據(jù)轉(zhuǎn)移到Google的服務(wù)器,使用相同的數(shù)據(jù)庫技術(shù)索引備份人類的基因數(shù)據(jù)。
Google Genomics的軟件工程師和前任Google+的平臺(tái)工程師David Glazer說,“那些杰出的生物學(xué)家們借助Google的這項(xiàng)技術(shù),從先前只能做到一次研究一對(duì)基因組,到現(xiàn)在可以使用海量的數(shù)據(jù)庫資源,是數(shù)據(jù)庫技術(shù)的突破創(chuàng)新讓人類的生物研究邁出了堅(jiān)實(shí)的一步?!?/p>
雖然說有部分科學(xué)家們?nèi)栽谫|(zhì)疑,Google是否有足夠的能力來正確處理復(fù)雜的基因數(shù)據(jù)。但是許多人已經(jīng)看到了進(jìn)步和變革。斯坦福大學(xué)生物信息學(xué)專家Atul Butte,在得知Google Genomics計(jì)劃之后,他這樣表示,“我終于能切實(shí)體會(huì),當(dāng)年旅行社看到Expedia橫空出世時(shí)的感受了?!保‥xpedia是全球最大的在線旅游公司)
當(dāng)生物實(shí)驗(yàn)室采取新的更快的實(shí)驗(yàn)設(shè)備來解碼DNA信息,就會(huì)出現(xiàn)信息存儲(chǔ)空間不足、信息爆炸的情況。舉個(gè)例子說明,美國馬薩諸塞州Broad Institute研究所表示,一組人類基因組信息翻譯出來的數(shù)據(jù)大小有200TB,而他們實(shí)驗(yàn)室在10月份的工作量相當(dāng)于每32分鐘就會(huì)處理出一組基因組數(shù)據(jù),所以需要的數(shù)據(jù)容量存儲(chǔ)空間對(duì)于一家研究所來說,將是個(gè)天文數(shù)字。
雖然說如此海量的信息,一家實(shí)驗(yàn)室可能hold不住。但是這對(duì)于互聯(lián)網(wǎng)巨頭公司來說還算是九牛一毛。實(shí)際上Broad Institute每兩個(gè)月產(chǎn)生的基因信息總量相當(dāng)于YouTube的全體用戶的一天上傳總量。所以說出于生物科學(xué)的需求,需要有公司站出來擔(dān)當(dāng)基因信息數(shù)據(jù)存儲(chǔ)讀取的中心節(jié)點(diǎn),而這通常都是一家商業(yè)網(wǎng)站。美國國家癌癥中心上周發(fā)表聲明說,將會(huì)斥資1900萬美元將容量大小為2.6PB(1PB=1024^3MB)的癌癥基因組圖譜上傳到云端。這些資料來自于數(shù)千名癌癥患者,數(shù)據(jù)將會(huì)備份在Google Genomics和亞馬遜數(shù)據(jù)中心。
西雅圖系統(tǒng)生物學(xué)研究室的科學(xué)家Sheila Reynolds表示,“在之前,沒有人有能力處理1PB那么多的海量信息,更不用說實(shí)驗(yàn)運(yùn)算了”。項(xiàng)目的初衷是為了建造“癌癥基因組云數(shù)據(jù)庫”,讓全世界的科學(xué)家們能夠像使用搜索引擎那樣,方便快捷的共享基因信息,進(jìn)行虛擬的生物實(shí)驗(yàn)。
Google和亞馬遜兩個(gè)巨頭公司耗費(fèi)了一年的時(shí)間,爭(zhēng)奪云端的基因資源。Google表示他們收取的價(jià)格更為低廉,只需要花費(fèi)25美元/年,就可以存儲(chǔ)一個(gè)獨(dú)立自然人的原始基因組信息,大約為100GB大小。但是經(jīng)過計(jì)算處理后的基因序列更加迷你,將會(huì)少于1GB,上傳存儲(chǔ)到云端的費(fèi)用也更少,僅僅只需要0.25美分/年。
基因的云存儲(chǔ)也滋生了一些新生代公司,例如Tute Genomics,,Seven Bridges和NextCode Health,他們的主要工作是為醫(yī)院和科學(xué)家門搭建搜索基因數(shù)據(jù)的瀏覽器。Seven Bridges公司在亞馬遜云存儲(chǔ)中上傳了1600名研究人員的基因信息,CEO Deniz Kural表示,“Google和亞馬遜都是強(qiáng)大的后端,他們經(jīng)常會(huì)說,‘來我們的云上建一個(gè)基因公司吧’?!?/p>
更為重要的一點(diǎn)意義是,這項(xiàng)技術(shù)的進(jìn)步能夠逐漸搭建起全球DNA互聯(lián)網(wǎng)。Deniz Kural補(bǔ)充說明道,“在未來比如說有位肺癌病人,醫(yī)生會(huì)將他的健康細(xì)胞和腫瘤細(xì)胞的基因組信息分別排序,在DNA互聯(lián)網(wǎng)中檢索其他幾千萬的基因信息。接著醫(yī)生會(huì)告訴病人,‘通過檢索配對(duì)得出,這款藥物對(duì)你的癌癥很有療效’?!边@對(duì)于治愈癌癥是有著重大的意義的。
因?yàn)榛蛘趶男∫?guī)模朝著“批量生產(chǎn)”的工廠化的方向轉(zhuǎn)變。David Glazer說自己通過閱讀遺傳學(xué)相關(guān)書籍,參加由Broad Institute的領(lǐng)導(dǎo)人Eric Lander教授的網(wǎng)絡(luò)課程Introduction to Biology,來學(xué)習(xí)豐富該領(lǐng)域內(nèi)的知識(shí)。此外值得一提的是,Glazer也把自己的基因組信息上傳到了云端。
Glazer雖然沒有說明Google Genomics現(xiàn)在的具體規(guī)模和擁有的用戶數(shù)量,但是至少能肯定的是,Google云端現(xiàn)在存儲(chǔ)著來自公共項(xiàng)目的3500個(gè)基因組信息。并且Google Genomics與Google自家的健康領(lǐng)域公司,比如說今年開辦的研究延長人類壽命的Calico公司,兩者并沒有太大的聯(lián)系和利益關(guān)系。
斯坦福大學(xué)最大的遺傳學(xué)計(jì)算機(jī)組的負(fù)責(zé)人Somalee Datta說,現(xiàn)在在云端存儲(chǔ)基因的成本降低了,亞馬遜和Google的價(jià)格差不多是相同的,“我們認(rèn)為價(jià)格還會(huì)持續(xù)走低,最后將會(huì)趨于平民化,讓所有人都能接受?!?/p>
Datta同樣表示,斯坦福大學(xué)的一些科學(xué)家們正在使用Google的一款數(shù)據(jù)庫,BigQuery。它的最初用途是為了追蹤用戶的瀏覽行為,現(xiàn)在研究者正在努力改進(jìn),讓數(shù)據(jù)庫能夠迅速處理大量的實(shí)驗(yàn)數(shù)據(jù),在短時(shí)間內(nèi)配對(duì)成百上千的基因組。Datta說,“有時(shí)候人們喜歡去做些超前的事情,但是需要強(qiáng)大的數(shù)據(jù)庫的支撐。Google基因庫為研究者們帶來了海量的基因信息,所以這是解決新問題的最佳手段?!?/p>