人工智能辅助高分子聚合物设计
高分子材料在生活中应用广泛,而高分子聚合物性能可以通过其化学结构和形貌来调控,并且具有几乎无限的设计空间。然而现有方法耗时且昂贵,急需一种有效的新方法。
随着科技的进步与发展,目前机器学习已经成功应用于辅助设计新型高分子聚合物材料。其主要通过以下过程实现:结构表示与数据库构建、基于机器学习的性能预测模型的搭建,虚拟设计和高通量筛选。这种应用机器学习的辅助设计方法的关键在于所搭建模型的训练。该模型需要根据聚合物可用的数据(如:结构、成分和性能等数据)描绘结构与性能间的关系,从而筛选出满足目标性能要求的聚合物。
结构表示与数据库搭建
结构表示:
聚合物多尺度结构,包括重复单元化学结构、链结构和聚集结构,需要合理、准确的数字表示,以确保建立的机器学习性能预测模型的准确性。目前的表示方法有:基于文本的简化分子输入行输入系统 (SMILES)、基于图形和指纹的方法(例如 Morgan、PubChem 和 Daylight 指纹)以及基于 3D 几何等方法。应用上述方法,将聚合物信息经过数字转化表示后,可以得到描述结构的拓扑和化学信息的描述符,则可将其作为机器学习预测模型的训练集。此外,经过数据预处理,聚合物的多分散性信息也可以作为模型输入,以提高机器学习预测模型的准确性。
基于文本的SMILES表示方法通过将化学结构信息转换为SMILES字符串将其编码为文本形式(图A)。搭建的模型可以针对这些进行训练,以了解其分子结构。
分子指纹是一种表示基于化学结构片段的方法,将分子结构信息转换为二进制代码。每个指纹的 0 或 1 表示给定分子中是否存在某种化学特征,如原子和化学键。目前,分子指纹方法已从简单的2D模型扩展到3D表示模型。例如,阿克塞尔罗德等人。首先构建分子指纹元素h⃗,随后将其嵌入统计权重p以生成新的指纹q⃗。然后,他们使用注意力机制训练深度学习(DL)模型,通过组合指纹 q⃗ 来产生最终的综合指纹 Q⃗(图 B)。该方法能够获得分子结构的准确 3D 指纹表示,这明显优于2D 方法有望准确预测聚合物特性。
分子图是将化学结构转化为图的一种表示方法,其中原子和化学键分别表示为节点和边界。分子结构的拓扑特征根据图中节点和边界的连通性数字化,定义特征矩阵来捕获原子特征信息,定义邻接矩阵来反映化学键特征信息。
将这些数字表示方法应用于聚合物结构存在一定的限制。例如,SMILES无法有效捕捉聚合物的三维结构和链信息,并且在表示复杂聚合物结构时可能出现模糊性或非唯一性;而分子指纹则无法充分反映分子结构所固有的一些物理信息,并对构象变化表现出敏感性,从而导致表征的不稳定。此外,聚合物反应的特征化表达同样面临挑战。化学反应的经典定义是将反应物置于反应箭头的左侧,生成物置于右侧,而转化条件(包括试剂、催化剂、溶剂、温度等信息)则位于箭头的上下方。然而,这种在文献中常见的表达方式却并不适合机器读取。尽管当前存在多种特征表示方法且其复杂性各异,迄今却尚未开发出一种普遍适用的统一特征表示形式。
数据库构建:
构建高质量的数据集是进行数据分析、性能预测和结构设计之前的重要步骤。一个用于数据驱动分析的优良数据库需要符合以下要求:(1)样本经由统一标准获得;(2)数量足够多;(3)数据可靠且可重复。
但由于聚合物材料的特性,其结构-性能数据在来源(包括实验和计算数据)和类型(包括数值、光谱和图像)方面表现出多源异构特征。这些多源异构数据集可能包含显着偏差。因此,在建立预测模型之前,应进行严格的数据清洗操作,以提高数据可用性。例如,可以使用文本相似性测试和实体识别等方法来标准化数据,并进行N折交叉验证(即离开利用上述方法处理聚合物数据,可以保证构建的聚合物数据库的一致性和可用性。
预测模型的搭建
性能预测模型的建立对于聚合物设计任务至关重要,因为它决定了虚拟设计结果的准确性。各种机器学习算法已被用来建立性质预测模型,而关键在于选择合适的算法并优化模型,实现跨广阔化学结构空间的高精度预测。聚合物的设计策略可以分为正向和反求两种。
基于智能方法评估的正向设计:
这一策略将预先存在的结构-特性数据集,转换为数字特征,用于训练和建立机器学习模型。训练好的机器学习模型则可以预测大量候选材料的特性,并针对性能较优的候选材料进行后续实验或模拟研究。这种方法显著降低了探索聚合物化学和序列空间的成本。可选择的算法有多种,介绍如下表所示。一般会根据可用数据的种类与其特点选择出最适合的算法运用。常见的策略是尝试众多模型中的几个,并针对一个给定的问题选择出准确性和效率方面最好的一个。
基于智能方法评估的反求设计:
虽然基于结构-特性关系的智能正向设计极大提高了聚合物设计的效率,但该筛选方法往往仅限于或隐含偏向于探索人类想象力范围内的材料。当搜索超出已知属性范围的极端特性时,其准确性往往会下降。因此反求设计策略应运而生。该策略旨在尽量减少在通往目标聚合物过程中所需评估的候选数量,并将搜索引导至最佳值。反求设计策略可以视为正向问题的“逆向”解答,其核心在于将传统研究方法与正向机器学习方法同一种适当的算法相结合。
一种方法是在已建立的正向机器学习模型基础上,运用主动学习算法或生成模型算法等进行评估的反求设计。需要指出的是,尽管生成模型算法在药物设计中已取得成功应用,但在寻找具备所需特性的聚合物材料方面的应用时间较短,尚需更多研究来验证其准确性。另一种方法是基于全局优化算法的反求设计,该策略不需要预先建立机器学习模型,而是将全局优化算法(如遗传算法)与相应的实验测量方法或计算机模拟相结合,迭代生成新的候选材料,直至满足预定停止标准。基于全局优化算法的反求设计可能是实现超出预期的优良聚合物设计的最具前景的策略,但对大量候选材料的即时特性定量测量和计算可能耗时较长,并且难以确保所得目标产物为全局最优解或局部最优解。
高分子材料的虚拟设计和高通量筛选:
此部分通常涉及三个步骤,即基因定义和组合、机器学习辅助筛选以及筛选聚合物的验证。该过程如图所示。首先,将与材料特性相关的各种元素定义为基因,例如结构、成分、反应条件和加工参数。对于高分子材料来说,重复单元或链段的化学结构以及聚合物链的长度、分布、序列以及形态特征等都可以被认为是基因。我们可以根据聚合物合成路线组合聚合物基因,生成虚拟的候选聚合物。然后,使用机器学习模型,可以对这些候选物进行高通量性能预测,并可以通过筛选来识别满足目标性能的有前途的聚合物。最后,采用计算机模拟和实验来验证筛选的聚合物。
总结与未来展望
高质量聚合物数据的相对稀缺和复杂的聚合物多尺度结构-性能关系给模型的搭建带来了数据和建模等方面的重大挑战。为了应对这些挑战,可以从当前人工智能和化学信息学领域尖端算法的模型中学习,建立一种新方法并开发基于化学语言的先进模型。同时提升模型的解释性,突破黑箱问题的局限,深刻理解运行机理将大幅提速此领域的研究进程。
总体而言,人工智能辅助设计策略提供了一种新的方法来发现各领域所需要的高性能聚合物材料。例如,对于有机半导体,需要具有高电子迁移率、高发光效率、高自旋特性和高导电性的聚合物材料。通过采用机器学习辅助设计策略,有望在更短的时间内以更低的成本发现具有良好综合性能的新型聚合物半导体材料。
毫无疑问,人工智能的发展可以彻底改变聚合物材料传统的试错设计方法,对高分子聚合物材料设计领域具有重大影响。由于篇幅限制本人仅简单介绍辅助设计的大概方法与流程,感兴趣的读者可以查看参考文献原文或其他资料,通过具体例子加深对于人工智能辅助高分子聚合物设计的理解。
以此类推,精细化工行业的发展也离不开对新产品的研发,由祈业软件携手科研院所、大学院校与企业形成合力的【精细化工大数据配方研发平台】,把企业内外数据打通,搭建行业研发大数据,建立AI模型和性能指标算法,实现精细化工产品的研发由“经验+试错”的模式迈向“基于数据计算驱动、AI智能研发”的协同研发模式转变,加速研发创新、夯实底层技术的积累、实现经验的传承、突破关键卡脖子技术、推动产业链的研发协同,实现精细化工产业的自主可控。
来源:高分子物理学
编辑整理:企业家软件