requestId:69543e16a98a26.82914939.
中國網/中國發展門戶網訊 2007年,圖靈獎得主吉姆·格雷(Jim Gray)提出了科學研討的四類范式,這些范式基礎上被科學界廣泛認可。第一范式是實驗(經驗)科學,重要通過實驗或經驗來描寫天然現象并總結規律;第二范式是理論科學,科學家通過數學模子進行歸納總結構成科學理論;第三范式是計算科學,應用計算機對科學實驗進行模擬仿真;第四范式是數據科學,應用儀器搜集或仿真計算產生的大批數據進行剖析與知識提取。科學研討的范式變革體現了人類瑜伽場地對宇宙摸索的深度、廣度、方法和效力的演進。
性命科學的發展經歷了多個階段,其研討范式的演進也有其獨特的學科屬性。在性命科學晚期教學場地發展階段,生物學家重要通過觀察分歧生物體的形態和行為形式來摸索生物存在的普通情勢和演變的配合規律,這一階段的代表是達爾文,通過全球考核積累了大批物種的表象描寫資料,并以此提出了進化論。從20世紀中葉開始,以DNA雙螺旋結構的提醒為標志,性命科學研討進進了分子生物學時代,生物學家開始在更深層次程度研討性命的基礎組成和運作規律。在這一階段,生物學家仍重要通過對生物現象的觀察和實驗來總結規律與知識。隨著性命科學的進一個步驟發展和新型生物技術的疾速涌現,科學家可以對性命科學在分歧層級和分歧辨別率下進行更為廣泛的摸索,這也使得性命科學領域的數據呈現爆發性增長。通過高通量、多維度組學數據剖析與實驗科學結合的方法對生物過程進行加倍精細的描寫息爭析,成為現代性命科學研討的常態。
但是,性命系統具有多層面的復雜性,涵蓋了從分子、細胞到個體分歧層次,以及個體間的種群關系、機體與環境的互作關系,展現出多層級、高維度、高度互聯、動態調控的特點。現有的實驗科學研討范式在面對這般復雜的性命系統時,往往只能從特定標準對無限數量的樣本進行觀察描寫和研討,難瑜伽教室以周全懂得生物網絡的運作機制;并且高度依賴人的經驗和先驗知識對特定生物關系進行摸索,難以從年夜規模、多樣性、高維度數據中高效提取隱匿的關聯和機制。面對性命現象中復雜的非線性關系和難以預測的特征,人工智能(AI)技術展現出強年夜的才能,并且已經在卵白質結構預測、基因調控網絡模擬解析方面表現出顛覆性的應用潛力,將性命科學研討由實驗科學為主的第一范式推向以人工智能驅動的性命科學研討新范式——第五范式(圖1)。

本文將從AI驅動的性命科學研討典範范例、性命科學研討新范式的內涵和關鍵要素、新范式賦能的性命科學研討前沿及我國面臨的挑戰3個方面進行系統論述。
人工智能驅動的性命科學研討典範范例
性命是一個多層次、多標準、動態互聯、彼此影響的復雜系統。在面對性命現象的極端復雜性、多標準跨越和時空動態變化時,傳統的性命科學研討范式往往只能從部分進手,通過實驗驗證或無限層次的組學數據剖析樹立無限生物分子和表型的關聯關系。但是,即便花費宏大本錢,也凡是只能發現特定情境下的單一線性關聯機制,與性命活動的非線性屬性在復雜度上存在顯著差異,難以周全懂得整個網絡的運作機制。
AI技術,尤其是深度學習和預訓練年夜模子等技術,以其優越的形式識別和特征提取才能,能夠在龐年夜的參數堆疊情況下超出人類感性推理才能,從數據中更好地輿解復雜生物系統中的規律。現代生物技術的不斷發展,使性命科學領域的數據呈現跨越式增長,在過往全球范圍性命科學研討中,人類已經積累了大批基于實驗描寫和驗證的數據,為AI破解性命科學底層規律創造了基礎]。當擁有充分且高質量的數據和適配于性命科學的算法時,AI模子就能夠在多層次的海量數據中以“低維”數據預測“高維”信息及規律,實現從基因序列和表達等低維數據到細胞、機體等高維復雜生物過程規律提醒的跨越,解析復雜的非線性關系,如生物年夜分子結構天生規律、基因表達調控機制,甚至個體發育、朽邁等多原因穿插的復雜生物系統中的底層規律。在此發展趨勢下,近年來性命科學領域涌現出了卵白質結構解析、基因調控規律解析等一批AI驅動性命科學研討發展的典範范例。
卵白質結構解析范例
卵白質作為生物體內關鍵效能的執行者,其結構直接影響運輸、催化、結合和免疫效能等主要的生物過程。雖然測序技術可以提醒卵白質所包括的氨基酸序列,但任何一個已知氨基酸序列的卵白質鏈有能夠折疊成地理數字中的任何一種能夠構象,這使得準確解析卵白質結構成為長期以來的挑戰。應用傳統技術如核磁共振、X射線晶體剖析、冷凍電子顯微鏡等解析已知序列的卵白質結構方式,需求數年時間才幹描繪出單個卵白質的形狀,昂貴耗時且不克不及保證勝利解析其結構。是以,捕獲卵白質折疊的底層規律從而實現對卵白質結構的精準預測,一向是結構生物學領域最主要的挑戰之一。
AlphaFold 2應用基于留意力機制的深度學習算法,對大批卵白質序列和結構數據進行訓練,并結合物理學、化學和生物學的先驗知識,構建了包括特征提取、編碼、解碼模塊的卵白質結構解析模子。在2020年國際卵白質結構預瑜伽場地測競賽(CASP14)中,AlphaFold 2獲得了矚目標成績,其卵白質三維結構預測準確性甚至可與實驗解析的結果相媲美。這一衝破為性命科學領域帶來了全新的視角和史無前例的機遇,重要體現在3點。
對藥物發現領域產生了直接影響。年夜多數藥物通交流過與體內卵白質特別結構域的結合而引發卵白質效能的變化,AlphaFold 2能夠疾速計算出海量目標卵白質的結構,從而有針對性地設計藥物以有用地與這些卵白質結合。
對卵白質的感性設計供給了新的能夠性。一旦AI對卵白質折疊的底層規律有了深入懂得,就可以應用這一知識設計出折疊成所需結構的卵白質序列。這使得生物學家可以根據需求不受拘束設計和改革卵白質或酶的結構,如設計更高活性的基因編輯酶,甚至是天然界中不存在的卵白質結構教學場地。同時也推動了人們對基因編碼信息在卵白質層面結構投射規律的懂得,并將年夜幅進步人類對性命的改革才能。
AlphaFold 2徹底改變卵白質結構解析領域的研討范式。從只能通過費時費力的傳統實驗技術解析卵白質結構轉變為低門檻、高精度、高通量地預測卵白質三維結構的新范式,證明通過將卵白質知識和AI技術相結合,可以提取和學習到高維、復雜的知識,促進對卵白質物理結構和效能的更深刻私密空間懂得。
基因調控規律解析范例
人類基因組計劃被譽為20世紀人類三年夜科學計劃之一,揭開了性命奧秘的尾聲。盡管編碼性命個體的遺傳信息存儲在DNA序列中,但每個細胞的命運和表型卻因其獨特的時空佈景而千差萬別。這種復雜的性命過程由精細的基因表達調控系統所把持,而摸索性命廣泛存在的基因調控機制是繼人類基因組計劃之后最為主要的性命科學問題之一。分歧細胞的基因表達譜是懂得生物系統內基因調控活動的幻想窗口。但是,僅通過生物學實驗周全解讀基因調控機制,需求捕獲分歧生物個體的分歧細胞類型在分歧環境佈景下的對照試驗來觀察。傳統生物信息剖析方式只能處理大批數據,對年夜規模、高維度且缺少準確標注的生物組年夜數據難以捕獲數據中復雜的非線性關系。
近年來,天然語言處理技術的不斷衝破,特別是年夜語言模子的迅猛發展,能夠通過訓練語料數據使家教模子具有懂得人類語言描寫知識的才能,為解決這一領域問題帶來了新思緒。國際多個研討團隊借鑒年夜語言模子的訓練思緒,相繼基于數以千萬計的人類單細胞轉錄組譜數據和龐年夜的算力資源,應用Transformer等先進算法和多種生物學知識,構建了多個具有懂得基因動態關系才能的性命基礎年夜模子,如GeneCompass、scGPT、Geneformer和scFoundation等。這些性命基礎年夜模子以基因表達等底層性命活動信息為訓練基礎,應用機器來學習懂得這些“低維”的性命科學數據與復雜“高維”的基因表達調控網絡、細胞命運轉變等底層性命機制之間的關聯性和對應規律,實現以低維數據對高維信息的有用模擬和預測。這種個人空間對基因表達調控網絡的模擬可以在廣泛的下流任務中表現出出色機能,為深刻懂得基因調控規律供給了全新的途徑。
現有的AI驅動性命科學研討的勝利案例向我們證明,面對更深刻、更系統的性命科學問題,AI無望衝破傳統研討方式難以解決的窘境、構建從基礎生物層次到整個性命系統的投射理論體系,并進一個步驟推動性命科學向更高階段發展,開啟性命科學研討的新范式。
性命科學教學研討新范式的內涵和關鍵要素
隨著生物技術的不斷進步、性命科學數據的疾速增長、AI技術的飛速發展及其與性命領域的深度穿插融會,AI展現出了對性命科學知識的深刻懂得和泛化才能,不僅進步了性命科學的研討高度和廣度,也促使性命科學研討由實驗科學為主的第一范式,跨越進進AI驅動的性命科學研討新范式(第五范式,以下簡稱“新范式”)。
通過深刻分析AI驅動性命科學研討的典範范例,筆者認為,性命科學研討的新范式正如一臺智能化的新動力汽車,對標新動力汽車的電池系統、電控系統、電機系統、輔助駕駛系統、底盤系統等焦點技術,新范式應具備性命科學年夜數據、智能算法妻子點點頭,跟著他回到了房間。服完他,穿好衣服,換好衣服後,夫妻倆一起到娘房,請娘去正房接兒媳茶。模子、算力平臺、專家先驗知識和穿插研討團隊五年夜關鍵要素(圖2)。猶如電池系統為車輛供給能量,性命科學年夜數據為科學研討供給基礎資源;算法模子則像智能電控系統,賦能深刻懂得生物系統的運行機制;算力平臺可比方為電機系統,負責處理海量的科學數據和復雜的計算任務;專家先驗知識則像輔助駕駛系統,為科學家供給標的目的引領和實施經驗;穿插研討團隊類似于底盤系統,負責整合分歧領域的知識和技巧,通過跨學科一起配合進步研討效力,推動性命科學的發展。

關鍵要素一:性命科學年夜數據
性命科學年夜數據是新范式“汽車”的“電池”系統。隨著新型生物技術的發展,具有多模態、多維度、分布疏散私密空間、關聯隱匿、多層次交匯等特點的性命科學年夜數據逐漸構成;只要對性命科學年夜數據進行有用整合并應用創新AI技術充足發掘數據,才幹夠打破人類科學家的認知局限、促進新發現的產生并拓展性命科學的摸索范圍。例如醫療視覺年夜模子,通過整合多來源、多模態、多任務的醫療圖像數據,實現了在少樣,她唯一的兒子。希望漸漸遠離她,直到再也看不到她,她閉上眼睛,全身頓時被黑暗所吞沒。本和零樣本條件下的多種應用;跨物種性命基礎年夜模子GeneCompass,通過有用整合全球開源的單細胞數據,在超過1.2億個單細胞的訓練數據集上實現了對基因表達教學調控規律的全景式學習懂得等多個性命科學“小姐好可憐。”問題的剖析。
關鍵化就目前的情況——”教學場地要素二:智能算法模子
智能算法模子是新范式“汽車”的“電控”系統。從浩如煙海的性命科學年夜數據中涌現性命的個人空間新規律和新知識,需求創新AI算法和模子;若何研發應用性命科學適配的AI算法、提取有用的生物特征、構建年夜規模生物過程動態模子,是當前新范式的中間問題。例如,Gerstein團隊應用貝葉斯網絡算法預測卵白質彼此感化的結果發表于Science,為經典機器學習在生物信“沒有彩環的月薪,他們一家的日子真的會變得艱難嗎?”藍玉華出聲問道。息領域發展奠基了基礎;圖卷積神經網絡算法被用于剖析卵白質—卵白質彼此感化網絡和基因調控網絡等生物分子網絡,拓展了性命科學領域的研討標的目的;AlphaFold 2應用Transformer模子,能夠在高準確度的基礎上疾速計算出大批卵白質的結構,都展現出了AI算法模子在性命科學研討新范式中的主要性。
關鍵要素三:算力平臺
算力平臺是新范式“汽車”的“電機”系統。算力是實現AI運行的基礎,深度學習、年夜模子技術等適用于性命科學研討新范式的AI算法模子的不斷發展,使AI模子訓練需求更強年夜、更高效的算力平臺支撐。面向新范式,未來應構建能夠支撐AI賦能性命科學研討的硬件才能平臺,包含建設高速年夜容量存儲系統、構建高機能高吞吐量超級計算機、研發專門用于處理性命科學數據的芯片、設計用于加快生物模子推理和訓練的專用處理器等,為性命科學研討供給高效、靠得住的計算和處理才能,以應對性命科學領域產生的海量數據、滿足性命科學領域復雜模子構建的計算需求,保證AI在性命科學領域的應用和創新。
專家先驗知識是新范式“汽車”的“輔助駕駛”系統。新范式下,已有的性命科學知識將為AI算法模子供給寶貴的訓練約束條件、主要的佈景和特征關系,幫助解釋和懂得性命科學數據的復雜性、驗證和優化AI在性命科學領域的應用;能夠在AI算法設計和模子構建時發揮主要的指導感化,促進加倍準確、高效地解決性命科學問題,推動性命科學研討向更深刻、周全的標的目的發展。例如,通過嵌進性命科學專家先驗知識和人類注釋信息編碼,新型基因表達預訓練年夜模子進步了對生物數據間復雜特征關聯關系的解釋,展現出更為優異的模子表現。
關鍵要素五:穿插研討團隊
穿插研討團隊是新范式“汽車”的教學場地“底盤”系統。新范式下,一支由AI專家瑜伽教室、數據科學家、生物學家和醫學家等組成的多學科穿插研討團隊對于實現跨越共享空間式的性命科學發現至關主要。多元佈景緊密協作的穿插研討團隊能夠整合AI、生物學、醫學等領域的專業知識,供給多元化的視角和方式,為周全懂得息爭決性命科學中的復雜機制問題供給堅固基礎,為創新性解決計劃供給更多能夠性,從而推動性命科學領域的衝破性發現和進展。
新范式賦能的性命科學研討前沿及我國面臨的挑戰
傳統的研討范式對性命的摸索好像管中窺豹,生物學家在性命科學的分歧細分領域各自奮戰。隨著新范式的不斷發展,性命科學研討將迎來以AI預測、指導、提出假說、驗證假設為特點的新型研討模態,迸發出一批疾速發展的小樹屋性命科學新范式前沿研討標的目的,并展現出新范式變革帶來的發展增益。但是,在當前條件下加快推進我國性命科學研討新范式的樹立和推廣,仍面臨一系列宏大的挑戰。
新范式賦能的性命科學研討前沿
結構生物學。今朝在結構生物學領域,以AlphaFold為代表的AI應用技術仍逗留在“從序列到結構”的卵白質結構預測和設計階段,還無法實現復雜心理條件下卵白質結構和效能的模擬與預測。更高質量、更年夜規模的卵白質數據和新型算法的出現,將無望對分歧心理狀態和時空條件下的生物年夜分子結構和效能進行系統解析,并實現卵白質“從序列到效能”舞蹈場地甚至“從序列到多標準彼此感化”的智能化結構解析與精細設計。
系統生物學。當前的組學數據剖析仍局限于較低維度的生物組學觀測程度,還未構成從基因程度到細胞程度甚至生物個體甚至群體組學程度的全維度觀測。新范式將融通多維度、多模態的生物年夜數據和專家先驗知識,提取生物表型的關鍵特征,構建多標準生物過程解析模子,還原復雜生物系統運行的底層規律,構成基礎而廣泛適用的系統生物學研討新體系。
遺傳 TC:9spacepos273