卷积神经网络在新型非富勒烯受体分子生成与性能预测上的应用

杨新玉，彭师平，赵仪

(厦门大学化学化工学院，固体表面物理化学国家重点实验室,福建省理论与计算化学重点实验室,福建厦门 361005)

有机太阳能电池(organic solar cells,OSCs)是一种将太阳光能转化为电能的器件，与无机太阳能电池相比，OSCs具有材料来源广泛、工艺简单、轻便、生产容易的优点，在便携式电源[1]、可穿戴设备[2-3]、室内小型离网电子设备[4]等领域展示出光明的产业前景，在过去的20多年间迅速发展，近年来更是受到广泛的关注.

OSCs主要由电子给体和受体材料组成，其中给体常采用低能隙的聚合物或小分子，而受体多使用电子亲和性较大的富勒烯分子[5-7].近年来，人们发现非富勒烯受体(non-fullerene acceptors,NFAs)的化学结构和电子亲和性可在大范围内进行调整，同时它还具有较大的近红外吸收范围、较好的能级匹配、较小的电压损失等特性[8].NFAs新型材料的不断发展推动了OSCs性能的迅速提高，目前其能量转换效率(power conversion efficiency,PCE)已达到18.69%[9]，激发了越来越多研究人员对高性能材料探索发现的热情.

近几年来，NFAs的研究得到蓬勃发展，电池的PCE也得到显著提升.Lin等[10]于2015年提出稠环电子受体概念和具有A-D-A(A为吸电子单元，D为给电子单元)结构的ITIC有机小分子，这类分子包含一个稠环给电子中心骨架和两个强吸电子端基，给电子单元和吸电子单元之间发生强的分子内电荷转移，使得受体具有较窄的带隙和很强的可见光与近红外光吸收，同时端基单元的紧密堆积有利于电子传输，整个受体具有较高的迁移率，ITIC与聚合物给体PTB7-Th共混的器件PCE达到6.8%.ITIC打破了基于富勒烯受体的OSCs效率进一步提高的瓶颈，之后越来越多的研究由此展开，通过对中心给电子单元、侧链及末端吸电子单元的扩大、取代、异构化等手段，OSCs器件的PCE不断提升[11-13].Yuan等[14]于2019年发现了一种通过在中心部分引入苯并噻二唑吸电子单元的窄带隙A-D-A’-D-A型受体Y6，以PM6作为给体与Y6共混得到的器件PCE高达15.7%.2020年，Liu等[15]合成了给体D18，D18的空穴迁移率高达1.59×10-3cm2/(V·s)，之后该课题组又设计了新的聚合物给体D18-Cl，其中D18:Y6、D18-Cl:N3和D18:N3(N3为Y6侧链进行优化后得到的受体)的器件PCE分别达到18.22%[15]、18.13%[16]和18.56%[17]，D18-Cl∶N3∶PC61BM (D∶A1∶A2)型的器件PCE更是达到18.69%[9].至今为止，A-D-A 或 A-D-A’-D-A型的模式是OSCs的主流构筑方式，新型分子的出现将加快更高效率的实现.

上述受体材料表现出高性能的原因之一是给体和受体能级匹配，这可为电荷分离和转移提供有效驱动力，因此其直接影响着电池效率的提升.然而，大多数近红外吸收的有机分子的最低未占据分子轨道(the lowest unoccupied molecular orbital,LUMO)和最高占据分子轨道(the highest occupied molecular orbital,HOMO)能级很难与宽禁带给体的能级相匹配，对于正确选择给体和NFAs被认为是一项费时且复杂的任务.随着数据科学的发展，机器学习的应用推动多领域的变革，也影响着材料化学的研究，目前利用机器学习模型针对OSCs材料分子的前线分子轨道(frontier molecular orbital,FMO)能量的研究已取得巨大进展.首先，机器学习可以实现对FMO能量的预测，例如Pereira等[18]在由111 000个分子组成的数据集上训练随机森林等模型，在没有任何密度泛函理论(density functional theory,DFT)计算的情况下模型预测的HOMO和LUMO能量误差均小于0.16 eV.通常，训练预测模型的数据来源于计算或实验，需通过校准来减少计算值与实验值的偏差，如Lopez等[19]在建立了51 000多个由碎片拼接而成的NFAs分子及其HOMO、LUMO能量的数据库后，利用94组实验值通过高斯过程回归模型校准计算值，将HOMO能量的均方根误差(root mean square error,RMSE)由校准之前的0.28 eV降至校准之后的0.17 eV，LUMO能量的RMSE也从0.45 eV降至0.26 eV.此外，FMO能量等可作为描述符来预测器件PCE，在获得更高预测精度的同时证明了其对PCE的重要影响[20-21].这些研究在加快NFAs分子的筛选效率上起到了重要作用.目前利用机器学习对NFAs及其FMO的研究主要集中于提高预测精度和效率上，而利用机器学习对分子的结构与性质之间关系的研究却相对较少.

本研究将利用本课题组已提出的基于卷积神经网络(convolutional neural networks,CNNs)构建的分子生成模型与性质预测模型[22]，使用生成模型快速得到多个具有特定HOMO和LUMO能量范围且结构差异性较高的NFAs分子，利用基于注意力机制的预测模型验证分子的FMO性质并得到分子碎片对性质的贡献.本研究能够在对非富勒烯有机小分子受体筛选的同时进行其结构与性质关系的研究，希望能够对新材料的发现带来一些启发.

1.1 数据库

用于训练神经网络模型的数据源于Aspuru-Guzik等于2017年提出的含51 281种潜在NFAs材料的数据库，该数据库中提供了每个分子的简化分子线性输入规范(simplified molecular input line entry specification,SMILES)[23]表示和HOMO、LUMO能量等值[19].其中的分子是由包括萘二酰亚胺、苯并噻二唑和聚氟蒽二亚胺等107种常见基团拼接而成，每种分子碎片与其取代方式均通过文献或商用例子获得，其中，碎片共分为13种中心碎片(cores,C)、49种侧位碎片(spacers,S)和45种端位碎片(terminals,T)，分子的拼接方式有T-S-C-S-T、T’-S-C-S-T、T-C-T和T-S-T.数据库中每个分子的HOMO和LUMO能量的计算大致分为4步：1) 使用RDKit[24]提供的构象生成器由SMILES编码生成1 500个三维分子构象；
2) 对所有构象进行分子力场[25]优化，使用OpenBabel[26]软件去除重复构象；
3) 按照最低能量原理对于每个分子挑选出20个构象，同时所选分子构象的能量与最低能量分子构象的能量差应不超过20.93 kJ/mol，若超过20.93 kJ/mol则剔除该构象(这种情况下，构象数少于20个)，这些构象所组成的簇被认为是候选分子在固态中最具能量可行性的构象；
4) 用BP86/def2-SVP泛函基组对上述构象进行优化，之后用B3LYP/def2-SVP泛函基组做单点能、HOMO和LUMO能量计算，提取具有最低能量的构象，将该构象的HOMO与LUMO能量视为该分子的FMO能量.本研究对数据进行简单的预处理，删除能隙值为负的不合理分子后，实际用于模型训练的数据量为50 656个.

1.2 分子表示

分子图(graph)[27]和SMILES是分子生成模型常用的分子表示.用分子图作为输入时，分子中的原子和化学键分别被表示成图的节点和边.分子图在对抗生成网络中的分子生成表现优异，然而基于分子图的模型现今只能生成小分子.SMILES通过使用一系列字符来表示分子结构，这些字符表示分子中包含的原子和分子的拓扑信息.若没有固定顺序地读取原子和键来生成SMILES，则特定分子可生成多个有效的SMILES字符串.为此，常使用规范化的SMILES保证分子的唯一性表示来克服同一分子生成字符串的多样性.生成和预测模型均基于CNN并使用SMILES作为分子表示：一方面，CNN具有权值共享和可处理多个时间步长的特点，效率较高；
另一方面，SMILES表示已经在多种神经网络模型中被广泛使用[28-29]，一维CNN也可处理不同长度的SMILES表示.

1.3 生成模型与性质预测模型

分子生成与性质预测模型均为本课题组之前基于一维CNN所建立的模型，更多模型信息可由https:∥github.com/PSPhi/CNN-for-NFA[22]获得.CNN利用卷积核(参与运算的矩阵)与节点的矩阵运算，可实现特征提取，主要用于处理图像、视频、语音、音频等.由于CNN具有共享权重和平移不变性的特点，可同时处理多个时间步长，能够显著提高深度学习效率.本研究运用的一维CNN可处理不同长度的SMILES输入问题.对于生成模型，在训练过程中给每个输入的SMILES字符串加上起始字符“&”，给每个目标输出加上“”，该模型通过给定的起始字符，逐个生成后续字符直到终止字符“”被生成，从而完成一个SMILES字符串即分子的生成.预测模型在卷积网络之后的输出层加入了融合信息的注意力机制，通过注意力机制能够获得每个字符对于对应性质的重要性.

从数据库中挑选出PCE大于0.5%并且信息完整的共24 000个分子，将这些分子随机划分为分别含有20 000，2 000，2 000个分子的训练集、验证集和测试集，分割后的数据集将用于生成模型和预测模型的训练.对于生成模型，训练好的模型所生成的分子中合理分子的比例高达90%.预测模型对于测试集中分子HOMO和LUMO能量预测的平均绝对误差分别为0.053和0.055 eV.

基于提出的分子生成模型和HOMO、LUMO能量的预测模型，下文将探索利用生成模型生成两组指定HOMO和LUMO能量的分子，并用预测模型对分子轨道能量做进一步预测来筛选分子，最后用DFT计算进行验证.这一工作可进一步拓展数据库的化学空间，为实验工作提供分子选取的思路.

实验上，D18:Y16和D18:N3的器件PCE分别达到18.22%[15]和18.56%[17]，Y6也将电池效率推上了一个新台阶，因此选取Y6的FMO能量作为参考值，Y6的HOMO和LUMO能量的实验值分别为-5.65 和-4.10 eV[30].由于本研究所采用的模型均由数据库提供的计算值训练所得，并且计算值与实验值之间存在计算方法的系统误差，所以本研究使用与数据库一致的构象选取方式和泛函基组，即采用BP86/def2-SVP泛函基组对构象进行优化，并采用B3LYP/def2-SVP泛函基组做单点能、HOMO和LUMO能量计算，得到Y6的HOMO和LUMO能量的计算值分别为-5.73和-3.69 eV.结合数据库中的数据分布，选取HOMO和LUMO能量分别为-5.60和-3.60 eV这一组值作为在同等计算方式下分子生成和筛选的目标计算值.

分子的生成和筛选过程如图1所示，其中绿色部分表示的是使用原数据库训练生成模型和预测模型的过程，蓝色部分为给定的FMO能量目标值，橙色部分为本研究主要强调的针对目标值的分子生成和筛选过程.其中橙色部分的流程主要有4步：1) 从原数据库中得到HOMO和LUMO能量在所选定值误差范围内的小分子集，记为D1；
2) 用D1分子集重新训练已由原数据库训练好的生成模型，实现对模型参数的微调，这样可使得模型倾向于生成目标能量值附近的分子，微调后的模型生成新分子集D2；
3) 对D2分子集中的分子进行处理，剔除重复、不合理以及原数据库中已有的分子，并通过预测模型从中筛选出HOMO和LUMO能量预测值与目标值的绝对误差均在0.2 eV以内的分子，即可得到候选的新分子集D3；
4) 将由原数据库得到的D1分子集和新生成的D3分子集进行合并，使用RDKit软件包提供的最大最小聚类算法[31]，该算法通过从分子的SMILES表示中计算出分子指纹，再根据分子指纹距离的计算将分子划分到相应的类.聚类算法可从整个分子库中挑出一个多样性最高的子集，以最大程度地代表原始分子库的化学空间[32].通过聚类可得到多样性最大的10个分子组成的集合D4，D4中的分子即为最终挑选出的分子.根据目标值挑选出的分子结构如图2中a1～a10所示，其中，a1～a7为新生成的分子，a8～a10为数据库中原有的分子，根据数据库的碎片种类可将分子划分成不同颜色碎片的组合.

为了验证新生成分子的FMO能量是否在目标值误差范围内，进行了同等水平的计算，第一组目标值得到的10个分子的HOMO和LUMO能量的计算值和通过预测模型得到的预测值如表1所示.

从表1可以看出：除了a3、a4、a9分子LUMO的预测值和计算值的绝对误差超过0.1 eV以外，其他性质预测的绝对误差均小于0.1 eV，说明预测模型具有较高的准确度；
同时，筛选出的分子HOMO和LUMO能量的计算值与目标值的绝对误差均小于0.2 eV，有些分子如a2、a5、a6、a7的计算值甚至很接近目标值，经过后续的分子修饰，HOMO和LUMO能量的实验值可进一步调整以实现与给体分子的能级匹配.

为了比较所选分子的差异性，一方面，由分子的SMILES出发得到分子指纹，再根据分子指纹得到不同分子之间的相似度[33]，结果如图3所示.另一方面，结合预测模型可以获得每个分子的SMILES表示中每个字符对相应性质的贡献，因为数据库的分子是由碎片拼接而成的；
同样地，通过碎片所含字符贡献的加和，可以得到组成分子的每个碎片对各分子HOMO和LUMO性质的贡献程度.作为参考，使用Multiwfn程序[34]得到HOMO和LUMO在每个原子上的分布分数，将碎片所含原子的分布分数进行加和得到碎片的分布分数，这可以在一定程度上反映预测模型对碎片贡献预测的准确性.使用预测模型和Multiwfn程序得到的对HOMO和LUMO能量贡献程度最大的碎片和相应的分布分数如表2所示，其中碎片的颜色与图2一致.

表2 使用预测模型和Multiwfn程序得到的第一组分子中对HOMO和LUMO能量贡献程度最大的碎片和相应的分布分数Tab.2 The fragments and corresponding distribution fractions of the first group of molecules that contribute the most to the HOMO and LUMO energies obtained by using the prediction model and the Multiwfn program

从图3的相似度矩阵中可以得到分子两两之间的相似度，相似度的大小由颜色的深浅表示，颜色越绿表示相似度越低，分子间的差异性越大，反之，颜色越红则表示分子间越相似.图中，对角线表示分子与自身的相似度，即为1，可以看到只有两组分子a1-a8和a7-a8的相似度较大，分别为0.54和0.58，其他分子间的相似度均小于0.5且大部分在0.2～0.3，可见挑选出的分子具有较大的差异性.如表2所示：对于第一组的每个分子，用预测模型和Multiwfn程序这两种方法获得的对FMO性质贡献最大的碎片颜色是一致的，说明预测模型能够准确预测出最重要的碎片；
而两种方法获得的相应碎片的贡献值之间有些存在较大差异.需要说明的是，Multiwfn程序得到的碎片上FMO分布分数仅为参考值，预测模型得到的是碎片对所预测轨道能量的重要程度，两者表示的性质相同但是计算方式不同，因此数值上存在差异.总的来看，具有相近HOMO和LUMO能量的分子可以具有不同的结构，且其中对二者影响最大的碎片也可不同，进一步说明了存在多种结构的受体可以与给体能级匹配.

为了进一步验证这些受体分子的吸光性能，计算其振子强度，结果如表3所示.可以看出，a1、a2、a3、a6、a10分子的振子强度较大，具有较为优异的可见光吸收性能，可被后续修饰为潜在的受体材料.

表3 第一组分子的第一和第二激发态能量及对应的振子强度Tab.3 The first and second excited state energies and the corresponding oscillator intensities of the first group of molecules

此外，本研究采用相同方式得到HOMO和LUMO能量的计算值分别为-5.10和-3.10 eV的第二组10个分子，一方面这些分子可以作为参考，另一方面也可为新的给体提供思路.第二组分子的结构如图4所示，其中，b1～b8为新生成的分子，b9～b10为数据库中原有的分子.同样计算了新生成分子的HOMO和LUMO能量，第二组10个分子的FMO能量如表4所示.

表4的数据显示，仅有b2分子的HOMO能量和b1、b10分子的LUMO能量的预测值与计算值的绝对误差超过0.1 eV.然而，第二组分子的计算值与目标值偏离较大的分子比第一组多，如b1、b4的HOMO能量和b9、b10的LUMO能量，需要通过后续实验修饰来进一步调整能级，如增加或减少吸电子、给电子和共轭基团等.同样地，对其吸光性能进行验证，结果如表5所示.可以看出，b2、b4、b5、b7、b9和b10分子具有较大的振子强度，有望成为光吸收能力优异的受体材料.

表4 第二组分子的FMO能量的计算值和预测值Tab.4 The calculated and predicted values of the FMO energies for the second group of molecules

表5 第二组分子的第一和第二激发态能量及对应的振子强度Tab.5 The first and second excited state energies and the corresponding oscillator intensities of the second group of molecules

利用CNN模型，本研究生成并筛选出HOMO和LUMO能量分别为-5.60和-3.60 eV、-5.10和-3.10 eV 的两组受体分子，来匹配OSCs中不同给体分子所需的激子解离能.分析发现，尽管每组分子具有相同的FMO能量，但通过分子指纹的距离计算显示它们的相似度具有较大差异，表明生成的分子覆盖了较广的化学空间.通过进一步的量子化学计算发现，这些分子中约55%的分子具有较大的振子强度即较好的吸光能力.这些生成的具有给定FMO能量的分子可提供设计受体分子骨架的思路，有助于加快新材料的发现和结构性质关系的研究.

猜你喜欢构象受体分子三乙胺分子构象与红外光谱的理论研究*物理学报(2022年10期)2022-06-04α7-烟碱乙酰胆碱受体在肺癌发生、发展及治疗中的作用昆明医科大学学报(2022年2期)2022-03-29维生素D受体或是糖尿病治疗的新靶点中老年保健(2021年3期)2021-12-03分子的扩散农村青少年科学探究(2020年5期)2020-08-18“精日”分子到底是什么？新民周刊(2018年8期)2018-03-02米和米中的危险分子饮食科学(2017年12期)2018-01-02“高分子链的构象”教学设计与实践教育教学论坛(2017年14期)2017-04-20臭氧分子如是说少儿科学周刊·少年版(2015年1期)2015-07-07血管紧张素Ⅱ及其受体在疼痛中的研究进展医学研究杂志(2015年2期)2015-06-10续随子醇Ｌ７１３，２８３二萜类化合物溶液构象的分子模拟湖北农业科学(2012年16期)2012-09-12

推荐访问:卷积神经网络受体