首頁 > 成語

機器學習步入“深水區”,如何解鎖科學發現的“第五正規化”?

作者:由 ChinaIT在前沿看世界 發表于 成語日期:2022-09-25

並存不悖後半句是什麼

(本文閱讀時間:9分鐘)

(ChinaIT。com訊)未來十年,深度學習註定將會給自然科學帶來變革性的影響。其結果具有潛在的深遠意義,可能會極大地提高我們在差異巨大的空間和時間尺度上對自然現象進行建模和預測的能力。這種能力是否代表著科學發現新正規化的曙光?

機器學習步入“深水區”,如何解鎖科學發現的“第五正規化”?

▲ Chris Bishop,微軟技術院士、微軟研究院科學智慧中心負責人

圖靈獎獲得者、前微軟技術院士 Jim Gary 用“四種正規化”[1]描述了科學發現的歷史演變。

第一正規化

的起源可以追溯到幾千年前,它純粹是經驗性的,基於對自然現象的直接觀察。雖然在這些觀察中,有許多規律是顯而易見的,但沒有系統性的方法來捕獲或表達這些規律。

第二正規化

以自然理論模型為特徵,例如17世紀的牛頓運動定律,或19世紀的麥克斯韋電動力學方程。這些方程由經驗觀察,歸納推導得出,可以推廣到比直接觀察更為廣泛的情形。

雖然這些方程可以在簡單場景下解析求解,但直到20世紀有了電子計算機的發展,它們才得以在更廣泛的情形下求解,從而產生了基於數值計算的

第三正規化

。21世紀初,計算再次改變了科學,這一次則是透過收集、儲存和處理大量資料的能力,催生了資料密集型科學發現的第四正規化。

機器學習是

第四正規化

中日益重要的組成部分,它能夠對大規模實驗科學資料進行建模和分析。這四種正規化是相輔相成,並存不悖的。

量子物理學的先驅 Paul Dirac(保羅·狄拉克)在1929年說過:“大部分物理學以及整個化學所需的數學理論的基本定律已完全為人們所知,而困難在於這些定律的精確應用會導致方程太過複雜而無法求解。”

例如,薛定諤方程在亞原子水平上以極高的精度描述了分子和物質的行為,但高精度的數值解只有在由少量原子組成的非常小的系統中才能得到。如果擴充套件到更大的系統,則意味著越來越模糊的近似性,這導致人們必須在規模和準確性之間作出權衡。即便如此,量子化學計算已經具有很高的實用價值,成了超級計算機的最主要工作負荷之一。

然而,在過去的一兩年裡,我們看到了深度學習的一個新用途——

兼顧科學發現的速度與準確性的強大工具

。這種使用機器學習的新方式與第四正規化資料建模截然不同,因為用於訓練神經網路的資料來自科學基本方程的數值解,而非經驗觀察。我們可以將科學方程的數值解看作自然界的模擬器,以較高的計算成本,對眾多我們感興趣的應用進行計算——例如預測天氣、模擬星系碰撞、最佳化聚變反應堆設計,或計算候選藥物分子與目標蛋白的結合自由能。

然而,從機器學習的角度來看,模擬過程的中間細節可以被視為訓練資料,能夠用於深度學習模擬器的訓練。此類資料是完全標註的,資料的數量僅取決於計算開銷。一旦完成訓練,模擬器就可以高效執行新的計算,並大大提升計算速度,有時甚至能夠達到幾個數量級。

科學發現的

“第五正規化”

代表了機器學習和自然科學領域最激動人心的前沿方向之一。雖然這些模擬器要變得足夠快、魯棒、通用併成為業界主流,還有很長的路要走,但它們對現實世界的潛在影響是顯而易見的。例如,僅小分子候選藥物的數量估計就多達10^60種,而穩定材料的總數則約為10^180種(大約是已知宇宙中原子數量的平方)。

找到更有效的方法來探索這些廣闊的空間,將增強我們發現新物質的能力——例如更好的治療疾病的藥物、更好的捕獲大氣二氧化碳的基質、更好的電池材料、能夠為氫經濟提供動力的新型燃料電池電極,以及無數的其他應用。

AI4Science 是一次深植於微軟使命的嘗試,這將充分利用我們的人工智慧能力來開發新的科學發現工具,從而讓我們和科學界的其他同仁能夠應對人類面臨的最重要的一些挑戰。微軟研究院成立30多年來,始終保持著好奇和探索的傳統。我相信,跨越地理和科學領域的 AI4Science 團隊,將為這一傳統做出非凡的貢獻。

Kevin Scott

微軟執行副總裁兼首席技術官

今天,我很高興地宣佈,我將領導微軟研究院的一個新的全球團隊,其成員來自英國、中國、荷蘭等多個國家,專注於將第五正規化變為現實。我們的科學智慧(AI4Science)[2]團隊由機器學習、計算物理、計算化學、分子生物學、軟體工程和其他學科領域的世界級專家組成,他們共同致力於解決該領域中一些最緊迫的挑戰。

以 Graphormer [3]模型為例,它是由我的同事,我們中國團隊的負責人、微軟傑出首席科學家劉鐵巖[4]博士領導建立的。這是一個通用的分子建模模型,對分子有強大的表徵能力,對新材料設計與藥物發現將有很大幫助。最近,

Graphormer 在 Open Catalyst Challenge(公開催化劑挑戰賽)

中奪冠,這是一項旨在透過 AI 模擬催化劑-吸附物反應體系的分子動力學競賽,透過密度泛函理論(DFT)軟體模擬了超過66萬個催化劑-吸附物反應系統(1。44億個結構-能量框架)。

機器學習步入“深水區”,如何解鎖科學發現的“第五正規化”?

另一個專案,是劍橋的團隊與諾華[5]合作的生成化學(Generative Chemistry)[6],我們攜手利用 AI 為科學家賦能,加快突破性藥物的發現和研發。正如諾華人工智慧創新實驗室全球負責人 Iya Khalil [7]最近所指出的,這項工作不再是科學幻想,而是科學現實:

人工智慧不僅可以從我們過去的實驗中學習,而且隨著實驗室中設計和測試的每一次新迭代,機器學習演算法可以識別新的模式,併為早期藥物發現和開發過程提供指導。希望透過這樣的方式,我們可以增強人類科學家的專業知識,從而更快地設計出更好的分子。

該團隊利用這一平臺已經生成了多個非常有前景的早期分子,這些分子已被合成,用於進一步的探索。

除了中國和英國的團隊外,我們位於荷蘭的團隊也在不斷髮展壯大,全球知名機器學習專家 Max Welling [8]也加盟其中。今天,我同樣高興地宣佈,我們在阿姆斯特丹的全新實驗室將落戶正在建設中的阿姆斯特丹科學園 Matrix One[9]。這個專門建造的辦公空間緊鄰阿姆斯特丹大學和阿姆斯特丹自由大學,我們將透過聯合培養博士生等計劃,與這兩所大學保持緊密合作。

機器學習步入“深水區”,如何解鎖科學發現的“第五正規化”?

▲阿姆斯特丹科學園 Matrix One

我們懷著自豪和興奮的心情匯聚成一個跨地域的團隊,追隨先驅者的腳步,為科學發現的下一個正規化做出自己的貢獻,並在此過程中給諸多重要的社會挑戰帶來有益的影響。如果你也和我們有著同樣的激情和抱負,希望加入我們的團隊,歡迎點選閱讀原文檢視我們的開放職位[10],也歡迎你與我們的團隊成員取得聯絡。

本文作者:Chris Bishop,微軟技術院士、微軟研究院科學智慧中心負責人

[1] https://www。microsoft。com/en-us/research/uploads/prod/2009/10/Fourth_Paradigm。pdf

[2] https://www。microsoft。com/en-us/research/lab/microsoft-research-ai4science/

[3] https://www。microsoft。com/en-us/research/project/graphormer/

[4] https://www。msra。cn/zh-cn/people/tie-yan-liu

[5] https://news。microsoft。com/transform/novartis-empowers-scientists-ai-speed-discovery-development-breakthrough-medicines/

[6] https://www。microsoft。com/en-us/research/project/generative-chemistry/

[7] https://www。linkedin。com/in/iya-khalil-2898663/

[8] https://www。microsoft。com/en-us/research/people/maxwelling/

[9] https://www。amsterdamsciencepark。nl/news/matrix-one-a-catalyst-for-science-based-business/

[10] https://www。microsoft。com/en-us/research/lab/microsoft-research-ai4science/opportunities/?