今天的新藥發(fā)現(xiàn),已經(jīng)離不開(kāi)計(jì)算學(xué)科的支撐,與計(jì)算相關(guān)的各種技術(shù)也因新藥研發(fā),而備受行業(yè)的重視。機(jī)器學(xué)習(xí),作為AI的一個(gè)重要分支,憑借其輔助發(fā)現(xiàn)潛力化合物、預(yù)測(cè)相關(guān)參數(shù)、節(jié)約試驗(yàn)成本、壓縮開(kāi)發(fā)周期等優(yōu)勢(shì),得到了研發(fā)及投行的極大關(guān)注。本稿件即對(duì)機(jī)器學(xué)習(xí)的歷史及其于醫(yī)藥領(lǐng)域的應(yīng)用進(jìn)行概述,以期與同行進(jìn)行共同學(xué)習(xí)。
未來(lái):精準(zhǔn)醫(yī)學(xué)&藥物發(fā)現(xiàn)
近年來(lái),精準(zhǔn)醫(yī)學(xué)的概念越來(lái)越被提及,其強(qiáng)調(diào)基于個(gè)體差異(包括基因&環(huán)境&生活方式等)來(lái)進(jìn)行疾病的預(yù)防和治療,從而降低“一刀切”的治療方式。出于這個(gè)原因,近年來(lái)產(chǎn)生了大量生物醫(yī)學(xué)數(shù)據(jù),其來(lái)源非常多樣化:從小型的實(shí)驗(yàn)室到大型的多中心研究;這些數(shù)據(jù)主要稱(chēng)為組學(xué)數(shù)據(jù)(基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、藥物基因組學(xué)等),是科學(xué)界取之不盡的信息來(lái)源,可用于對(duì)患者進(jìn)行分類(lèi),獲得特定診斷,以及開(kāi)發(fā)新的治療方法。
過(guò)去十年中,計(jì)算能力的快速提升,已逐漸形成了與傳統(tǒng)藥物發(fā)現(xiàn)過(guò)程中高通量篩選的競(jìng)爭(zhēng)。機(jī)器學(xué)習(xí)(ML),作為人工智能的一個(gè)分支,已有多重方法應(yīng)用于藥物發(fā)現(xiàn)過(guò)程中,從而預(yù)測(cè)新化學(xué)實(shí)體的分子特征、生物活性、相互作用和不良反應(yīng)等。這些算法,正在改變著新藥發(fā)現(xiàn)的傳統(tǒng)模式。
圖1.1 精準(zhǔn)醫(yī)學(xué)背景下-新藥發(fā)現(xiàn)過(guò)程(見(jiàn)參考文獻(xiàn))
ML在Drug-Discovery領(lǐng)域的發(fā)展
1964年,Hansch方程的提出,理化描述符(如疏水性參數(shù)、電子參數(shù)和空間參數(shù))的線性回歸模型,開(kāi)始用于描述二維結(jié)構(gòu)-活性關(guān)系,QSAR的概念逐漸深化發(fā)展。
1998年,類(lèi)藥性概念的提出,研究者開(kāi)始建立可以高效預(yù)測(cè)分子是否具備藥物潛質(zhì)的模型,并從1D/2D描述符中慢慢深入。但總的來(lái)說(shuō),2000年以前,ML于藥物發(fā)現(xiàn)領(lǐng)域的應(yīng)用,并不多,主要原因是數(shù)據(jù)的可用性問(wèn)題。
2004年,PubChem和ZINC數(shù)據(jù)庫(kù)的開(kāi)發(fā),為ML于藥物發(fā)現(xiàn)的發(fā)展奠定了基礎(chǔ);并在2006年和2008年開(kāi)發(fā)了DrugBank和ChEMBL,從而大大滿足了上述的數(shù)據(jù)可用性問(wèn)題。
2016年,Molecular Graph Convolutions正式發(fā)布,相關(guān)研究人員的成果也于2020年在Cell雜志刊登,進(jìn)一步展示了機(jī)器學(xué)習(xí)在該領(lǐng)域的潛力,并發(fā)現(xiàn)了一種具抗菌活性的分子halicin,并在實(shí)驗(yàn)室中得到了驗(yàn)證。
圖2.1 藥物發(fā)現(xiàn)領(lǐng)域-機(jī)器學(xué)習(xí)主要事件時(shí)間表(見(jiàn)參考文獻(xiàn))
ML操作流程
藥物發(fā)現(xiàn)領(lǐng)域的ML方法,涵蓋以下步驟:1)數(shù)據(jù)收集;2)數(shù)學(xué)描述符的生成;3)搜索變量的最 佳子集;4)模型訓(xùn)練;5)模型驗(yàn)證。
圖3.1 藥物發(fā)現(xiàn)-機(jī)器學(xué)習(xí)方法(見(jiàn)參考文獻(xiàn))
如上所述,首先是收集數(shù)據(jù),數(shù)據(jù)除了有助于活性、選擇性、代謝、**、理化性質(zhì)外,甚至還需要易于生產(chǎn)制備等屬性;小分子和肽類(lèi)藥物,可以使用SMILES和FASTA格式表示結(jié)構(gòu)的序列;數(shù)據(jù)庫(kù)如DrugBank、PubChem、ChEMBL、ZINC等,具有大量的數(shù)據(jù)儲(chǔ)備信息。隨著數(shù)學(xué)描述符(PCA、t-SNE、FS、Autoencoder相關(guān)技術(shù))的生成,可獲得一系列的數(shù)據(jù),ML模型即可以處理這些數(shù)據(jù)。數(shù)據(jù)可分為兩個(gè)子集,高比例數(shù)據(jù)用于模型訓(xùn)練,低比例數(shù)據(jù)用于測(cè)試,這一過(guò)程可獲得變量相關(guān)的最 佳子集。在模型訓(xùn)練后,可依此而完成后續(xù)的驗(yàn)證,如果驗(yàn)證結(jié)果具有統(tǒng)計(jì)意義,可以說(shuō),即創(chuàng)造了一種新的藥物預(yù)測(cè)模型。PS:最好的模型是以最低的總成本實(shí)現(xiàn)最高的性能價(jià)值。
輸入數(shù)據(jù)-極其重要
模型的訓(xùn)練,至關(guān)重要的一個(gè)環(huán)節(jié)就是具代表性描述特性的分子描述符的輸入,進(jìn)一步相關(guān)QSAR、分子描述符、計(jì)算信息指紋、基于圖的機(jī)器算法,等等。
QSAR
QSAR,是通過(guò)結(jié)構(gòu)與活性的關(guān)系以數(shù)值的形式進(jìn)行關(guān)聯(lián);即通過(guò)整合計(jì)算和統(tǒng)計(jì),對(duì)生物活性進(jìn)行理論預(yù)測(cè),從而可以對(duì)未來(lái)可能的新藥進(jìn)行理論設(shè)計(jì),理論上節(jié)省了研發(fā)成本。要進(jìn)行QSAR研究,需要3類(lèi)信息:1)具有共同作用機(jī)制的不同化合物的分子結(jié)構(gòu);2)每個(gè)配體的生物活性數(shù)據(jù);3)理化性質(zhì)。
分子描述符
MD,即定量描述相應(yīng)理化性質(zhì)的分子的數(shù)字表示;依此,研究者可根據(jù)與計(jì)算描述符數(shù)值的相似性來(lái)找到具有相似物理化學(xué)性質(zhì)的分子。分子描述符可分為兩大類(lèi):1)實(shí)驗(yàn)測(cè)量值,如logP、偶極矩、極化率等;2)理論值,如結(jié)構(gòu)、拓?fù)?、幾何、電子、理化等等。理論分子描述符又可以根?jù)其維度建立0D/1D/2D/3D/4D/5D/6D描述符,其中3D/4D的研究最為深入。
計(jì)算信息指紋
FP,是一種特殊形式的分子描述符,通過(guò)具有固定長(zhǎng)度的位向量快速有效表示分子結(jié)構(gòu),以表明內(nèi)部子結(jié)構(gòu)或官能團(tuán)的存在或不存在。不過(guò),源自化學(xué)結(jié)構(gòu)的指紋忽略了生物特征,從而在分子結(jié)構(gòu)和生物活性之間關(guān)聯(lián)度度降低,以至于前者的微小變化都會(huì)產(chǎn)生生物活性的實(shí)質(zhì)性差異。FP在計(jì)算工作中,常常關(guān)聯(lián)MACCS、Pubchem、CDK等。
基于圖的機(jī)器算法
化合物結(jié)構(gòu)式在圖方面的表示,主要為分子網(wǎng)絡(luò),網(wǎng)絡(luò)中的每個(gè)原子都表示為網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),使用的算法主要為人工神經(jīng)元網(wǎng)絡(luò)。早在2009年,即有研究者提出了圖神經(jīng)網(wǎng)絡(luò)模型;2016年,斯坦福大學(xué)和谷歌公司的研究人員開(kāi)發(fā)了分子卷積圖,而正是由于將卷積算法應(yīng)用于圖形,藥物發(fā)現(xiàn)中的計(jì)算研究向前邁進(jìn)了一步。
ML&生物學(xué)問(wèn)題
現(xiàn)代生物學(xué)的復(fù)雜性,使計(jì)算成為支撐生物學(xué)實(shí)驗(yàn)必不可少的工具,因?yàn)樗鼈冊(cè)试S以高精度編碼理論模型來(lái)處理大量信息,從而促進(jìn)和加速新藥的開(kāi)發(fā)。無(wú)論是從hit-to-lead,還是一定程度的ADMET,計(jì)算都能給出一定的預(yù)測(cè)。通過(guò)抽取2016-2020年的文章樣本,統(tǒng)計(jì)相關(guān)生物學(xué)問(wèn)題如下。
圖5.1 2016-2020年樣本文章解決的生物學(xué)問(wèn)題(見(jiàn)參考文獻(xiàn))
如上所述,比例最高的為“藥物-靶標(biāo)相互作用”。靶標(biāo)研究,位于疾病和藥物發(fā)現(xiàn)的最前端,這個(gè)“開(kāi)頭”的重要性,自不必說(shuō)?;衔?蛋白相互作用,已成為新藥發(fā)現(xiàn)的先決條件,如PDB數(shù)據(jù)庫(kù)的使用,通過(guò)積累大量的受體-配體結(jié)晶,為相互作用提供了大量的數(shù)據(jù),是藥物計(jì)算研究人員必不可少的數(shù)據(jù)來(lái)源,同時(shí),相應(yīng)的也誕生了許多進(jìn)行測(cè)算的軟件,如MPLs-Pred。
ML未來(lái)發(fā)展趨勢(shì)
貝葉斯、支持向量機(jī)、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)的深入研究,無(wú)疑會(huì)為機(jī)器學(xué)習(xí)的精準(zhǔn)度大大助力;而基于結(jié)構(gòu)的藥物設(shè)計(jì),將更加離不開(kāi)機(jī)器學(xué)習(xí),從而達(dá)到快速、高效、低成本的行業(yè)要求。然而,機(jī)器學(xué)習(xí)的優(yōu)點(diǎn)已有大量研究進(jìn)行展示,但不得不說(shuō)的是,真正憑借機(jī)器學(xué)習(xí)、人工智能為核心技術(shù),而開(kāi)發(fā)出的上市藥物,還沒(méi)有。故,基于機(jī)器學(xué)習(xí)的藥物發(fā)現(xiàn),也一直受到行業(yè)的質(zhì)疑。但技術(shù)上的重大突破,往往伴隨著前期的極度質(zhì)疑,而一旦實(shí)現(xiàn)質(zhì)的飛躍,也必將受到更大的投資回報(bào)。機(jī)器學(xué)習(xí),人工智能,正在發(fā)力,未來(lái)可期!
參考文獻(xiàn):
1.review on machine learning approaches and trends in drug discovery. doi.org/10.1016/j.csbj.2021.08.011
2.AI-based language models powering drug discovery and development. doi.org/10.1016/j.drudis.2021.06.009
3.Integration of AI and traditional medicine in drug discovery. doi.org/10.1016/j.drudis.2021.01.008
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com