一邊是產學研屢屢傳出新進展的計算生物。"地球上幾乎所有已知蛋白質,均能被AlphaFold預測。"
另一邊是投融資矚目,但質疑聲不斷的AI制藥賽道。"國外一筆331億元訂單頂傳統藥企一整年收入;國內市場規模保守估計2040億。"
前者首要的落地場景,非AI制藥莫屬。而后者所面臨的數據瓶頸、效率迭代等質疑,是否能通過計算生物來解決?兩者究竟應該如何結合?
AlphaFold2傳出新進展之后,能否對蛋白質類藥物設計會帶來革命性影響?
Q1:大家都會只要一提到計算生物學,然后都會覺得無論是時間還是重要性來看,首要的落地場景應該是在 AI 制藥。您同意嗎?
A2:我非常同意。因為生物學最主要的落地場景就是制藥。同樣的類比,計算生物學的最主要的落地場景就是用計算來做藥物。
從更寬廣的一點的視角來說,計算生物學是以計算為主要手段來研究生物學。那么對于生物學這項科學的探索,最終基本歸為兩種,一種是理解生物學的基本過程,另一種就是開發手段想辦法去調控這些生物學的基本過程。如果開發出來的手段如果能夠滿足比如說安全性、遞送載體等要求,那這自然而然地就是一個藥物,在最廣泛的定義上的一個藥物。
Q2:計算生物學對于 AI 制藥來說,它會更多的集中在哪個部分,最大的意義會是什么呢?
A2:現在比較常見的應該是三個場景。最主要的一個是分子設計,不管是小分子還是大分子,比如說抗體或者是ADC等等。
用 AI 計算的手段來做理性的分子設計,某種程度上其實就是預測特定分子作用于特定靶點的效果,然后用實驗來驗證并進一步預測怎么對分子做修改能夠達到更好的效果。除了對于靶點的效果,也可能是對于分子本身性質的修改,比如說修改蛋白,讓它的穩定性更高,或者讓它的免疫原性更低;對小分子的修改讓他在體內能夠待的更長的時間,讓它的吸收和代謝性質變得更好。
這是在我看來,目前這個階段計算生物學對于 AI 制藥最大的貢獻和最重要的一個落地場景,也有巨大的潛力。雖然在藥物發現的整個pipeline上,后端的臨床實驗有大量的金錢、人力、物力和時間的投入,但是臨床階段的成功與否某種程度上完全取決于在臨床前研究的分子性質如何。真正好的分子能夠給臨床方案的設計和開展提供足夠的空間,也會減少制劑、生產等環節的復雜性。那么如果有更準確的分子性質預測和profiling,藥物發現的成功率就取決于靶點本身或者對生物學過程理解的深刻程度。
這就會提到計算生物學對 AI 制藥的另一個意義或者說另一個應用場景,實際上就是對于靶點的發現和理解。其實也不限于此,高水平的組學或者說計算生物學,能夠在非常復雜的數據中看到更多的事情,不僅僅是特定蛋白、特定基因和一個疾病的相關性,而是能夠真正幫助人們,輔以一些實驗,來理解特定的生物學過程。我覺得對于靶點和疾病之間關系的理解,是計算生物學非常非常重要的一點。這一點也是在整個藥物發現流程里最前面的一個,就是靶點的確認。
最后一個我認為現在大家做的很多的場景,也是技術比較成熟并值得去做的是藥物重定向。我想在 AI 的幫助下,在計算的幫助下,大家可以把重定向做的更加精細,對于特定的疾病去做細分。也就是說我們的目標不是去開發一個新的小分子藥物,而是找到小分子最能有效調控的特定生物學過程,甚至在特定人群中的生物學過程。這里可以分為幾部分,一部分是說特定的小分子藥物,在之前做的臨床可能不是一個正確的適應癥,或者說不是在對一個正確的人群做臨床,那么它可能不成功;或者哪怕它臨床成功,可能可以更適用于另外一個疾病或者另外一個人群。另一部分還有組合用藥,這也是我想許多做計算生物學的人都想要的,如何去預測組合用藥,甚至可以擴展到個性化用藥,背后一定是大量的計算生物學作為支持。
Q3: 您剛剛提到了個性化制藥,您能在技術上介紹一下他的技術流程和數據需求嗎?因為其實現在盡管大家都有這樣一個設想,但似乎并沒有看到特別多的實踐。
A3: 對,某種程度上同時需要技術進步和數據積累這兩點。我們需要有很多高質量的數據??梢韵胂?,我們拿到大量的藥物分子,不管是在細胞層面或是說在動物層面,對各種基因表達的調控情況,然后利用這些數據建立計算模型,預測什么是最好的調控方法。這是一個很框架性的東西,概念非常簡單,之所以現在很難看到真正落地的原因,是因為如同我們之前講過的一樣,要讓這個流程成功,需要確保數據的質量,必須通過很多細微的技術改進和進步。很多人正在做這件事情,我相信在很短的將來,會有一系列重要的工作出來。這樣的話產業界進來,他們的工程能力和資源調度能力也會更強。
Q4:那我們說回制藥領域的計算手段?,F在的AIDD之前還有一個CADD。那從這個 CADD 走到今天,用 AI 來做這個計算后最大的提升會在哪里?會不會有計算重點的轉移?
A4:會的。之前所說的 CADD ,在各種不同的應用場景里面都有比較典型的、特制的計算工具。這些工具的預測準確性是不高的,就是說在每一個環節其實你都能找到工具,但是它的準確性都不高。比如說預測一個分子的logP,它可以很容易做,但是準確率不高。然后預測一個分子和靶點的結合能,比如說最常見的 docking (分子對接),準確性是不高的。某種程度上,分子對接只是用來產生猜想的工具。
從 CADD 到 AIDD 我覺得是有兩個變化,一個變化是在一些關鍵的環節上面,我們真的有可能大幅度地提升預測的準確性,從而使得計算可以被信賴。另一點是 AI 制藥可以提供一些理論或計算方法上的框架,使得我們可以綜合地來考慮不同的事情,就是說我們可以把之前分散在藥物設計不同階段或者不同地方做的計算,統一在一個大的框架下面,然后實現一定程度上的端對端的預測。
Q5:您覺得計算生物有沒有可能在制藥領域開辟一塊新的思路,或者說帶來一些新的完全不同的藥物呢?
A5:這方面,我沒有看到這一點,我看到的是很多 AI 制藥的公司在努力去跟隨傳統制藥公司的思路。
回到蛋白藥物上面來說, AlphaFold 確實帶來了巨大的進步,但是它離蛋白質藥物設計其實還是有一定距離的。它只是給蛋白質藥物設計打開了新的大門,門后可能還有或長或短的路要走。真要做蛋白質設計的話,會有很多除了產生特定結構的序列之外需要考慮的事情,這是 AlphaFold 現在并不提供的。某種程度上說在蛋白質設計或者蛋白質藥物設計這個行業之前是有絕對的壟斷現象存在的,David Baker基本上是這個領域的寡頭。Alphafold的推出使得全世界做蛋白質藥物設計的人們某種程度上重新站在了同一個起跑線上,對行業來說應該是巨大的改變。但是具體的蛋白質設計概念其實之前已經由Baker、甚至更早的DeGrado他們建立好了。
在我看來,目前的 AI 不管是對于蛋白藥物還是小分子藥物,都還沒有任何一個東西像AlphaFold 這么好。但是如我剛剛所說的,即使AlphaFold在我看來也不是說全新的東西。大家在沒有AlphaFold之前,大家就知道我們可以怎樣來設計全新的蛋白,新的技術進來讓大家能夠更有效率、更好的來做這件事情。
Q6:盡管大家會說這個計算生物它最重要的一個應用是 AI 制藥。但其實他們又會說,對于 AI 制藥來說,計算生物也只是其中的一個模塊而已。那如果我們就只從技術的角度來說,除了計算生物學,AI制藥還會它會包括需要哪些其他技術的一個配合呢?
A6:我從另一個角度來回答這一點,就是在 AI 制藥的這個大的范圍內,除了計算生物學的部分,還有哪一些?我想當然還有計算化學的部分。這里舉個最簡單的例子,藥物的制劑是非常重要的東西,我們會看到AI非常強大的應用,怎么去預測,給定一個分子,什么是最好的輔料,什么是最好的配方。這是AI大有可為的一個地方,但更多地是一個基于化學的計算。當然也基于一定的生物學,因為制劑的目的是為了讓分子在體內的吸收,然后它的分配、代謝達到一個最優的狀態。所以這里面也有一些通常來說并不被認為是計算生物學的內容,但這是一個 AI 能起到非常重要作用的場景,是 AI 制藥的一部分。
Q7:無論是計算生物還是計算化學,甚至包括有一些材料的設計,就是它底層可能都是跟一些物理模型有關,比如說包括結構,然后包括能量,底層都是同樣的東西,然后可能再進一步在生物里面體現為這個分子動力學等等,您對這個觀點會就是怎么看?
A7:對于這個觀點我既贊同也不贊同。我贊同的是對于分子設計來說,不管是電池里面的一個高分子或者是一個多肽分子,他們都是有機分子,由碳氮氧氫這些構成。在這個層面上來考慮問題的話,當然他們需要共同的描述方法和動力學預測方法,可以整合在一個統一的計算框架下面來考慮問題。我自己做很多蛋白質的計算模型,在小分子層面,小分子和蛋白相互作用、蛋白之間相互作用在我們看來都是同樣的事情。在這一點上,我的看法是它們可以用一致的模型描述,歸根結底都是能量相互作用,然后面臨的問題很有可能都是采樣,在相空間中怎么去采樣,然后怎么去算對自由能。
但是如果在一個更廣闊的考慮來看,就是說計算生物學還包括更多更宏觀的部分。那么比如說在基因水平上面,在轉錄組上面,這些層面上發生的事情在某種程度上是離原子分子的描述是很遠的,我們還沒有任何真正有效的計算手段能夠在這里從上到下用所謂的多尺度來勾連在一起。在這個意義上說我不贊同,在基因水平上面的計算是自成體系的,即使也會使用能量或者熵這樣的名詞,但和分子體系里的概念是不相關的。當然他們也是非常重要的,有一整套理論和計算手段。
Q8:盡管 AI 制藥這個概念現在其實還蠻火的,但其實現在比較明顯的成果還是比較少的。您覺得是現在技術原因的限制,還是說有其他原因?
A8:坦白地說,我認為技術上面還是有比較多的缺陷。像很多 AI 制藥的一些技術手段還沒有被證明完全或者系統性地以可靠的方式比CADD 的手段更好,當然這一點是很多人在努力的方向。
某種程度上,我想這也說明,在技術上面還有很大的提升空間。我們能看到 AI 制藥的潛力,是因為我們確實能看到一些特定的例子,可以利用 AI 達到之前從來不能達到的效果。但是要把它變成一個行業里面的標準方法,那需要它能夠穩定可靠或者說持續性地達到很好的效果才行,我認為這需要一定的時間。
然后另外一方面,對于藥物設計來說,我必須指出,我認為應該有很多的 AI 制藥結果,是沒有被外人所知道的。邏輯非常簡單,如果一個制藥公司掌握了非常非常好的 AI 制藥技術和方法,它就慢慢地做新藥好了,不需要去宣傳自己是個 AI 制藥公司或者去做一個 CRO 的服務。它就按照傳統的流程去做藥,然后借助AI保持比別人更高的效率,它作為制藥公司成功就可以了。
這也是我之前回答那個問題,就說我認為 AI 制藥的未來是什么?就是所有的制藥公司都變成了,或者所有的成功制藥公司都變成了現代意義上的 AI 制藥公司。因為這變成了一個標準的手段,也不需要去宣傳說這個靶點是 AI 或者計算找出來的。未來可能所有的靶點選擇都包含很多的計算成分,所有的分子設計都是計算驅動。
Q9:AI 制藥它有兩個比較大的市面上的疑問。一個是關于數據方面的,就是大家會覺得數據好像基本上有價值的數據可能都在傳統的制藥廠里面,然后導致這個 AI 制藥公司就不得不去依賴于和大廠合作 pipeline 的方式來發展自己。然后另一個方面也是大家會覺得制藥行業它其實是一個比較漫長的結果導向的。但是 AI 模型它是需要非??焖俚厝ゲ粩嗟刈龅鷣砀P偷?。所以數據缺乏和那個模型迭代算是大家可能對 AI 制藥比較大的兩個質疑點。就如果從技術來說,您對這兩個問題覺得現在有比較好的解決方法了嗎?
A9:對于數據缺乏的問題,我可能跟這個行業里面的大部分人有不同的觀點。我不認為數據缺乏是一個很重要的事情,我也不認為所謂的數據都掌握在大藥廠手里是一個很嚴重的事情。
大藥廠確實掌握很多不對外公開發布的數據。但是這些數據都是在沒有 AI 制藥、沒有深度學習這些概念之前產生的,這些數據到底有多好用?讓他們能夠適用于AI是需要巨大的努力,而不是拿來就能用的,需要做大量的清洗和處理。據我的理解,即使是一個大的制藥公司,他們已有的數據也沒有那么好用,這是第一點。
第二點是大的制藥公司在數據上的優勢是他們有非常完整的實驗平臺,可以在高標準下產生更多的數據。按照我的理解,他們也確實是在不停地出產新的數據來做 AI 制藥。就是說沉淀的數據本身并不是那么重要,沉淀的產生數據的能力是重要的。
所以說如果給予新的制藥公司和biotech很大的幫助。讓他們也獲得這些產生數據的能力,也可以產生足夠多的內部數據,尤其是針對特定的管線或者特定的項目。也可以用新的技術手段,因為現在產生數據的技術手段也不一樣了。就比如說以前獲得一個小分子的親和力數據,你要去做 ITC,滴定比較慢、化合物用量也高,而現在有更多高通量的方法大規模來做。
某種程度上我不認為大藥廠在這上面有技術壁壘,但是投入是重要的,所有人都需要投入在數據的產出,而且是讓數據能夠有效地以被 AI 計算模型可應用的方法來產出。在這個意義上,我想講的第三點,是說這里面確實需要一個快速的迭代和更新的能力。這一點本身是可以被建立起來的,是可以以更先進的手段建立起來的。有很多人在嘗試更加自動化的實驗手段,在某種程度上可編程的實驗室,我認為將是 AI 制藥的一個巨大的幫助和補充。
Q10:比如說最早的從微陣列這樣的一個高通量的數據收集手段來看的話,您會覺得比如說計算生物學這一整條技術鏈上面都需要什么樣的技術要素去做些配合呢?或者我們換一個說法,就是說計算生物學這一門學科,它都需要怎樣的一些技術手段來共同促進這個學科的發展呢?
A10:我覺得本質上來說可能還是落實在計算本身。我自己的感覺,我認為這個領域里面很多人對于計算本身的理解和關注還是不夠。我想所有的人都會同意,就是說用一個已有的,比如說在CV或者NLP 里面已經成熟的一個方法,把它轉移到一個特定的生物學問題上面,把它應用在一個生物學場景。對于學術界來說,你可以發很好的 fancy 的論文;但是對于真正落地,肯定需要對于計算的部分有更多的創新,至少是更精細的調整和適應。
這一點可能是在我看來,目前AI制藥落地里面最需要做的事情。我們也看到這個行業里做地比較好的公司,不管是晶泰還是深勢,他們都在計算上面,在作為工程的計算上面投入巨大的人力和物力。
Q11:除了 AI 制藥之外,您覺得計算生物學未來還會有哪些比較好的落地場景?或者甚至說在您的設想或者理論上來說的話,還會有哪些場景呢?
A11:因為我自己還是比較關注科學發現本身的問題。我一直非常期待,就是說計算生物學能夠真正的產出hypothesis。在通常意義下,生物學的研究是hypothesis-driven,科學家想出一個假說,然后去設計各種各樣的實驗來證明這一點。我一直希望有一個AI 生物學發現的技術,就是說從數據出發,對于計算生物學來就是說由一個計算模型來提出假說,更重要的是提出驗證這個hypothesis應該做哪幾個實驗分別是什么樣的實驗,實驗結果是怎么樣就證明了,是怎么樣就證偽了。這是我一直期待的。
Q12:最后想問一下,比如說您和您的課題組現在的研究方向可能會集中在哪些方面?
A12:謝謝,我介紹一下我的工作,主要是分成三個方向。一個方向是計算模型。我們想把計算模型,尤其是蛋白質的計算模型做準。所謂計算模型,你可以想象就是說一個蛋白要真正能夠被計算機來理解運算,它需要轉變成一系列參數、一系列代碼、一系列編碼的方式。那么我們關注的點就是怎么去做計算模型,包括蛋白質以及有機小分子,怎么更好地從傳統力場上來描述它,或者從 AI 的角度上來描述它,或者從AI與物理模型相結合的角度來描述它,這是我實驗室的一個主要方向。
另一個我們做的事情是蛋白質的動力學。我們使用分子動力學模擬,特定關注的一個生命過程是物質的跨膜轉運。這個過程是由細胞膜上的蛋白質來介導的,通過轉運蛋白的構象變化來實現,所以我們特別關注這一類蛋白的動力學行為。
我們第三個方向是在藥物設計,既包含算法發展,也做具體應用。目前的關注點是小分子藥物,因為我認為小分子現在看起來還是最容易生產,因此對于特定的靶點能夠做出來是影響最大的。為達到這一點我們的想法還是要在方法上面有所創新,方法上面的創新使我們能夠對別人做不了做不成的靶點進行分子設計。我們也希望我們能夠真正的去探索廣大的化學空間,超越大家傳統設計時用的虛擬篩選,去做一些完全不一樣的東西。
我課題組所覆蓋的這三個研究領域,希望他們互相之間可以幫助彼此。就是說在蛋白質動力學或者小分子藥物設計上,我們碰到的問題能夠幫助我們來研發更好的計算模型。另一方面,我們做出來的更好的模型和方法,以及對于靶點蛋白動力學的理解,也可以讓我們在特定的藥物設計課題上能夠比其他的公司有競爭的優勢。
目前我們實驗室還有2-3個博士后的名額,希望感興趣的同學可以聯系我們(郵箱:huangjing@westlake.edu.cn)。最近我們和百圖生科開展了一個合作的項目,試圖在一個更基礎的層面上來解決領域里面重要的問題。由百圖提供實驗數據,我們一起用沒有人嘗試過的實驗數據和方法來評估和改進蛋白質的力場。這個項目相當于一個學術界和工業界聯合的學術博士后,也希望借此看看有沒有人才培養的創新方式。
基于行業深度調研(部分公司完整訪談,已在對撞派·圓桌實錄中公開),量子位智庫制作了這份《AI制藥深度產業報告》。如果想要進一步了解技術潛能、產業現狀、未來規模、玩家梯隊等產業解析,歡迎掃碼下載完整報告:
報告核心七大趨勢解讀如下:
量子位旗下科技創新產業鏈接平臺。致力于提供前沿科技和技術創新領域產學研體系化研究。面向前沿AI&計算機、生物計算、量子技術及健康醫療等領域最新技術創新進展,提供系統化報告和認知。通過媒體、社群和線下活動,幫助決策者更早掌握創新風向。