摘 要:開發新型純碳水化合物燃料作為新能源時,必須預測和篩選純碳水化合物的物理性質,從而找到可能合適的化學物質,然而由實驗來逐一確定大量分子的物理性質既耗時又昂貴。研究發現,運用人工智能網絡 定量構效關系(ANN—QSPR)算法來建立純碳水化合物物理性質的計算模型可以起到事半功倍的效果。基于DIPPR 801數據庫中的純組分性質和DragonX軟件包計算了相應碳水化合物的分子描述符,所構建的模型結合了定量構效關系(QSPR)和兩層前饋人工智能網絡(ANN)。由此建立了多個全面而可靠的模型來預測新型純碳水化合物燃料的各種物理性質,包括正常沸點、閃點、燃燒焓、蒸發焓、液體密度、表面張力、液體的黏度和熔點等。為了提高模型中數據集之間的一致性,還引入了主成分分析法(PCA),以進一步消除分子描述符值的維數。另外,通過共識建模進行交叉驗證,減少了不確定性的影響,提高了模型的預測精度。
關鍵詞:人工智能網絡 定量構效關系 新型純碳水化合物燃料 新能源 物理性質 預測 模型構建
ANN-QSPR models for the predication of physical properties of a new-type carbohydrate fuel
Abstract:When a pure carbohydrate compound is developed as a novel combustion fuel,its physical properties of each component will be first necessarily predicted and screened.However,the experimental determination of these properties for a huge amount of molecules can be very time consuming and costly.In view of this,the artificial neural network-quantitative structure property relationships (ANN—QSPR) algorithm was applied to build the desired models.Molecular descriptors were calculated based on a large number of pure components with evaluated values in DIPPR 801 database and the software package DragonX.The models developed were combinations of QSPR and two layer feed forward ANN:Thus the relatively comprehensive and reliable models were developed for predicting physical properties,including normal boiling point,flash point,enthalpy of combustion,enthalpy of vaporization,liquid density,surface tension,liquid viscosity,melting point,etc.For improving the consistency,principal component analysis(PCA)was introduced to further eliminate the dimensions of molecular descriptor values.Finally,the idea of cross-validation for consensus modeling is further utilized to improve the predictive quality of obtained models.
Key words:ANN(artificial neural network),QSPR(qualitative structure property relationships),QSAR(qualitative structure activity relationships),new-type carbohydrate fuel,new energy source,physical property,forecast,modeling
化石燃料的不可再生性,迫使人們不斷研發新能源,以滿足社會存在和發展的需要。過去,當研究人員開發新型燃料時,首要考慮的問題是純碳水化合物的物理性質,其中包括了標準沸點、閃點、燃燒焓、蒸發焓、液體密度、表面張力、液體黏度和熔點。然而通過實驗來逐一確定大量分子的性質非常耗時和昂貴[1],所以人們迫切希望能構建各種模型來對大量分子進行篩選和預測,從而找到可能合適的化學物質。
基于上述原因,從現有文獻中可以發現人們已發展了各種用于預測物理性質的方法。不過,包括量子力學或詳細動力機理在內的那些尖端、高級的性質研究方法同樣很耗時間,因此不適合用于篩選工作。目前使用最為廣泛的方法可以分為以下兩大類:
1)第一類方法的依據是基團貢獻(OC)算法,其基本概念是決定物質性質常數的分子間作用力通常都取決于各分子的原子之間的鍵[2]。時至今日,人們已發展出了許多基于GC的方法。不過GC法也有一些重大缺陷,那就是無法獲得立體異構體的確鑿結果[3],其所得結果通常也不是很精確[1-2]。
2)在最近幾年,人們采用了另一類被稱作定量結構性質關系(QSPR) [4]的方法米克服上述缺陷[5-6],此類關系有時也被稱作定量結構一活性關系(QSAR)。QSPR的基本假設是:結構相似的對象會展現相似的性質,因此可用數據分析法和統計法對此進行大致的描述,從而構建出各種模型;根據從結構或拓撲指數到電子或量子化學性質的各種參數[5-6] (這些參數通常被稱作分子描述符[7],可根據維數將其分為不同的類別[3]),可以準確地通過這些模型預測化合物的生物活性或性質。人們通常會在QSPR算法中采用某些多變量分析工具,諸如偏最小二乘法或PLSL[8]等。
最近,一種新方法——人工智能網絡(ANN)又被引入這一領域,并迅速成為研究結構—性質和結構活性相互關系[9]的方法之一。因此,我們將在此項研究中展示一種基于人工智能網絡定量結構性質關系法(ANN-QSPR)的新方法,該方法用于篩選和預測純碳水化合物的性質可以起到事半功倍的效果,從而有助于新型燃料的開發。
1 材料和方法
1.1 材料
在構建用于預測物理性質的模型時,所采用數據集的質量和全面性將對其準確性和可靠性產生很大影響,特別是對于那些需處理大量實驗數據的模型[10]。在本次研究中,由于DIPPR 801[11]數據庫中含有許多純組分的性質,因此筆者采用了這一數據庫進行計算和建模,并用軟件包DragonX[12]計算了相應碳水化合物的分子描述符。考慮到當前研究中會產生大量的分子結構,我們在建模中納入了900個分子描述符,其中包括所有的零維、一維和二維描述符[12]。
1.2 數據預處理
在QSPR建模中,結構異常值是影響模型精度的主要因素,所以在將數據庫用于模型構建前,要先通過主成分分析法(PCA) [3,8]將結構不同的化合物排除在外,同時也要排除非碳水化合物。最終,分別研究了純碳水化合物915、507、940、467、693、544、462和915在以下方面的相關數值:標準沸點、閃點、燃燒焓、蒸發焓、液體密度、表面張力、液體黏度和熔點。最初筆者展示了900個分子描述符,這一數目超過或大致等于所研究純碳水化合物的數目。ANN為非線性關系的結構,因此所提供的分子描述符數目將大大超過合適的數目,并對模型造成不利影響。在此項研究中,我們使用了遞歸共線診斷(SCD)程序來降低維數和去除多余的描述符[8,13]。此外,還排除了對所有純碳水化合物而言皆為常數值的分子描述符。用于建模的分子描述符的相應數日為l71、153、172、152、l60、163和170。
1.3 模型構建
在對數據進行預處理后,下一個計算步驟——也可能是最重要的一個步驟——是找出分子描述符和碳水化合物物理性質之間的關系。因此筆者采用了人工神經網絡的非線性數學方法。
人工神經網絡被廣泛用于許多科學和工程應用領域,例如計算不同純化合物的物理和化學性質[14]。讀者可在其他文獻中找到ANN的工作原理說明[14-15]。在此項研究中,采用了MATLAB軟件來構建ANN-QSPR模型。通過ANN工具箱,構建了用于建模的兩層前饋ANN。圖l中顯示了兩層前饋ANN的結構。
首先,在[-1,1]的范圍內對純碳水化合物的所有性質值進行正交化,以便降低計算誤差,尤其是截斷誤差。然后用相同的方法對所有的分子描述符進行標準化。這一正交化過程的具體操作是將性質參數或描述符的最小值和最大值分別設為-l和1,然后相應地擬合其他數值。
其次,將數據庫分為3個子類,分別為“訓練”集、“驗證”集和“測試”集。“訓練”集用于生成主方案或人工神經網絡的結構。“驗證”集用于檢測訓練終點,也就是說,如果最新的受訓模型正開始使“驗證”集中的預測數值變差,則應停止訓練過程。“測試”集被認為是所獲模型在預測能力和質量方面的一個重要指征。應隨機開展3個子類的數據選擇過程。在此項研究中,“訓練”“驗證”和“測試”集分別占80%、l0%、10%。從其他各類文獻中可以發現[15-16],主數據庫3個子類所分配的百分比將影響到模型的準確性。
接下來需要生成ANN模型。事實上,這一生成過程其實是一個確定加權矩陣和偏倚向量的過程[15,17],應通過目標函數的最小化來獲取這些參數[1,10,14]。筆者采用了列文伯格—馬夸爾特(Levenberg-Marquardt,LM)反向傳播算法來實現目標參數的最小化[17]。
2 結果與討論
按照上述步驟,獲得了各個兩層前饋神經網絡,以用于預測純碳水化合物的標準沸點、閃點、燃燒焓、蒸發焓、液體密度、表面張力、液體黏度和熔點。也有其他更為準確的最小化方法,但它們需要的收斂時間要長得多。LM反向傳播法是訓練人工神經網絡時最為常用的算法[18]。
最后應固定神經元的數目。這一數目取決于測試和嘗試結果;神經元的最佳數目通常介于10~20[1,10,14],筆者將神經元數目固定為15。剩下的工作則是生成一個ANN模型。
圖2~9中顯示了所構建模型預測結果與實驗數據之間的比較。表l中顯示了每個模型的平均相對誤差和最大相對誤差。
仔細研究所獲結果,可以發現“訓練”集的相對誤差總是小于“驗證”集或“測試”集的相對誤差,這主要是因為“驗證”集或“測試”集對ANN的訓練方式沒有直接影響。因此,對人工神經網絡進行了修正,使其更適合于“訓練”集的數據。可以把訓練過程想象為找出方程組的待定系數。
化合物的數目表明了方程式數目,而分子描述符的數目則表明了系數數目。因此,化合物數目超出分子描述符數目的比率越小,ANN就能在“訓練”集中表現得越好。不過,對不在“訓練”集內的化合物來說,以這種方法構建的ANN無法保證其預測水平。舉例來說(如表l所示),對于所構建的蒸發焓或燃燒焓模型而言,“測試”集的平均相對誤差遠遠大于“訓練”集的平均相對誤差。解決此問題的一個可能方案是采用PCA[8]:用PCA來處理描述符,然后找到得分,取前30列的得分(含上述信息99%的內容),最后按照上述步驟構建一個新的ANN。
表2中展示了新構建燃燒焓和蒸發焓模型的結果。從表2中可以看出,經過上述處理后,所構建的ANN模型在“驗證”集和“測試”集中的預測表現有所改善。
對燃燒焓而言,盡管“訓練”集與另兩個集之間的一致性不會直接改善預測表現,但卻表明了模型的預測質量有所改善。
同時還應指出,所構建的上述模型均重新訓練過若干次,這是因為3個數據集是隨機劃分的。如果用于當前訓練的數據有所不同,最終的ANN模型也會隨之發生變化。所以對有待構建的ANN模型的處理過程并不穩定,即可能生成相對較好或較差的結果。由此產生的問題是,一個在“測試”集中表現良好的模型,卻可能無法以相同的水準對其他未包含在數據庫中的純碳水化合物進行預測。為了解決這一問題并獲得更好的模型評估結果,我們建議為ANN模型建立一個共識方案,以便使用交叉驗證的概念。換而言之,就是建立一個預測相同性質的模型系統,計算該系統中不同模型的一致性,從而推導出預測結果的準確性[20]。筆者通過MATLAB對此類ANN模型系統的標準沸點進行了演示,其結果展示于圖10中。
從圖l0可以看出,所構建的標準沸點模型系統表現穩定,有望給出相對準確的純碳水化合物預測結果。
3 結論
此項研究展示了用于計算和預測物理性質的各個模型,而這些物理性質則可以用來開發新型純碳水化合物燃料。所構建的模型結合了QSPR和兩層前饋ANN。建模工作需要被研究純碳水化合物的相應分子描述符值和實驗性質值。筆者用dragonX[12]軟件計算了分子描述符值,并從DIPPR801[11]數據庫中獲得了實驗性質值,由此構建了多個全面而可靠的模型來預測各種物理性質,其中包括標準沸點、閃點、燃燒焓、蒸發焓、液體密度、表面張力、液體黏度和熔點等。然而,構建的這些模型也還存在一些缺陷,其中的一個主要問題就是“訓練”集和其他兩個數據集之間相對誤差的不一致性;而另一個問題則是存在會影響模型預測質量的不確定性。為了提高一致性,筆者引入了主成分分析(PCA) [8],以進一步消除分子描述符值的維數。實施后所獲結果表明:一致性確實有所提高。為了減少不確定性的影響,建議通過共識建模進行交叉驗證[20],這一思路或許會對此有所幫助。所有上述策略均有助于改善所構建模型的預測精度和質量。不過,由于構建ANN QSPR模型時所包含的碳水化合物數日仍相對較少,因此所構建的這些模型可能還不是很全面,所以應開展將更多碳水化合物包含在內的相關研究。
參考文獻
[1]GHARAGHEIZI F,ESLAMIMANESH A,MOHAMMADI A H,et al.Determination of critical properties and acentric factors of pure compounds using the artificial neural network group contribution algorithm[J].Journal of Chemical& Engineering Data,2011,56(5):2460-2476.
[2]POLING B E,PRAUSNITZ J M,O’CONNELL J P.Properties of gases and liquids[M].5th Edition,New York:McGraw-Hill,2001.
[3]S0LA D,FERRI A,BANCHERO M,et al.QSPR prediction of N-boiling point and critical properties of organic compounds and comparsion with a group contribution method[J].Fluid Phse Equilibria,2008,263(1):33-42.
[4]KATRITZKY A R,KUANAR M,SLAVOV S,et al.Quantitative correlation of physical and chemical properties with chemical structre:Utility for predietion[J].Chemical Reviews,2010,110(10):5714-5789.
[5]FAULON J L,BENDER A,GOLBRAIK H A.Handbook of chemoinformatics algorithms[M]. London:Chapman& Hall/CRC Press,Taylor&Francis Group.2010.
[6]GODAVARTHY S S,ROBINSON R L Jr,GASEM K A M.Improved structure-property relationship models for prediction of critical properties[J].Fluid Phase Equilibria,2008,264(1/2):122-136.
[7]TODESCHINI R,CONSONNI V.Handbook of molecular descriptors[M].Weinheim(Germany):Wiley-Vch,2002.
[8]ERIKSSON L,JOHANSSON E,KETTANEH WN,et al.Multi and megavariate data analysis:part I-basic principles and applications[M].Umea(Sweden):Umetrics Academy,2006.
[9]AGRAFIOTIS D K,CEDE O W,LOBANOV V S.On the use of neural network ensembles in QSAR and QSPR[J].Journal of Chemical Information and Computer Sciences,2002,42(4):903-911.
[10]GHARAGHEIZI F,SATTARI M.Prediction of triplepoint temperature of pure components using their chemical structures[J].Industrial and Engineering Chemistry Research,2010,49(2):929-932.
[11]ROWLEY R L,WILDING W V,OSCARSON J L,et al.DIPPR 801 property databse,Software Package[G].New York:Design Institute for Physical Property Data,American Institute of Chemical Engineers,2009(http://dippr.byu.edu).
[12]ANON.DragonX Version l.4,Software Package[G].Milano(Italy):Taletesrl,2009.
[13]BRAUNER N,SItACHAM M.Considering precision of data in reduction of dimensionality and PCA[J].Computers& Chemical Engineering,2000,24(12):2603-2611.
[14]GHARAGHEIZI F,BABAIE O,SATTARI M.Prediction of vaporization enthalpy of pure compounds using a group contribution-based method[J].Industrial and Engineering Chemistry Research,2011,50(10):6503-6507.
[15]HAGAN M T,DEMUTH H B,BEALE M.NeuraI Network Design[M].Andover(Massachusetts):International Thomson,2002.
[16]GHARAGHEIZI,F.QSPR studies for solubility parameter by means of genetic algorithm based multivariate linear regression and generalized neural network[J].QSAR& Combinatorial Science,2008,27(2):l65-170.
[17]LERA G,PINZOLAS M.Neighborhood based Levenberg Marquardt algorithm for neural network training[J].IEEE Transactions on Neural Networks,2002,l3(5):1200 -203.
[18]KALOGIROU S A.Artificial neural networks in renewable energy systems applications:A review[J].Renewable and Sustainable Energy Reviews,2001,5(4):373-401.
[19]SUZUKI T,OHTAGUCHI K,KOIDE K.Computer-assisted approach to develop a new prediction method of liquid viscosity or organic compounds[J].Computers& Chemical Engineering,1996,20(2):161-l73.
[20]HANSEN L K,SALAMON P.Neural network ensembles[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1990,12(10):993-1001.
本文作者:朱子懿 趙興元
作者單位:美國卡內基·梅隆大學
中國石油集團工程設計有限責任公司西南分公司
您可以選擇一種方式贊助本站
支付寶轉賬贊助
微信轉賬贊助