MIT 团队利用大模型筛选 25 类水泥熟料替代材料，相当于减排 12 亿吨温室气体

水泥生产是全球温室气体（GHG）排放的主要来源之一，其排放量占全球人为 GHG 排放的 6% 以上。这一环境负担主要源于水泥熟料的生产过程，包括高温（>950°C）煅烧石灰石（CaCO₃→CaO+CO₂）的化学反应，以及高能耗的工艺要求。随着全球基础设施需求的增长和人口扩张，据麻省理工团队论文介绍，预计到 2050 年水泥产量将再增加 20%，进一步加剧环境压力。

传统的水泥熟料替代策略主要依赖粉煤灰（煤炭燃烧副产品）和粒化高炉矿渣（钢铁生产副产品），这些材料可替代高达 50% 的熟料质量，同时维持机械性能，理论上可将 GHG 强度降低 50% 。但是在过去二十年中，由于煤炭能源生产减少和钢铁回收增加，其供应量占水泥总产量的比例从 25% 下降至 17% 。 而新兴替代材料如生物质灰、废玻璃粉、城市固体废物焚烧灰等，虽具潜力，但存在反应性不稳定、供应季节性波动等问题。因此，开发更可持续、供应稳定的替代材料迫在眉睫。

为了系统识别更多可行的替代材料，美国麻省理工学院（MIT）Soroush Mahjoubi 、 Elsa A. Olivetti 等人提出了一种创新性的多源数据整合方法。该方法基于大语言模型（LLM），从 8.8 万篇论文中提取 1.4 万种材料的化学组成，再利用多头神经网络预测材料的反应活性（放热、氢氧化钙（Ca(OH)₂）消耗、结合水三大指标），构建统一的活性评估框架，首次在全球范围内识别并量化了多达 5 万余种天然与工业副产材料的反应性，并重点筛选出具备替代水泥熟料潜力的 25 类天然岩石类型。 研究发现，建筑拆除废弃物、焚烧灰、火山岩等自然材料具备高反应性，可替代全球约 50% 的熟料用量，相当于减排 12 亿吨温室气体。

相关研究以「Data-driven material screening of secondary and natural cementitious precursors」为题，发表于 Communication Materials 。

研究亮点* 提出融合 LLM 与神经网络的多尺度反应性建模框架，统一评估替代材料的水泥活性* 构建全球最大水泥替代材料数据库，涵盖 14,000 种材料、超过 1,200 种岩石类型，突破传统依赖实验筛选的限制* 发现 25 种天然岩石类型具备较高活性，支持区域熟料替代策略，有望大幅降低全球水泥产业碳排放

论文地址： ****

https://go.hyper.ai/ZOAaW

更多 AI 前沿论文：
go.hyper.ai/owxf6

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：
github.com/hyperai/awe...

数据集：1.4 万种材料的化学组成及类型信息提取

构建一套全面涵盖多源材料的数据库是研究的关键。首先，研究团队从 88,000 篇水泥与混凝土相关的学术论文中，通过关键词筛选出 4,312 篇核心文献， 从中提取了 14,434 种材料的化学组成及类型信息。这些材料覆盖了飞灰、矿渣、天然火山岩等 19 种预定义类别，其中包含 2,028 个飞灰样本和 1,346 个矿渣样本，与早期研究中仅有的 725 个飞灰样本和 828 个矿渣样本的规模相比，数据量得到了显著扩充。

另一方面，为了训练模型，研究人员整合了 R³ 标准测试方法下的实验数据， 其中包括 1,330 个样本的放热量数据、 208 个 Ca(OH)₂ 消耗数据以及 292 个结合水数据，覆盖 318 种材料，是目前公开可得的最大水泥替代物实验数据集之一。

** R³ 标准测试：一种基于化学成分、中值粒度、比重、混合比例和无定形/结晶相含量的标准化学反应性实验评估*

研究人员将训练后的模型应用于全球最大岩石化学组成数据库，该数据库共包含超过 100 万个岩石样本。 随后，研究人员对所有记录进行了反应性评分和分类，结合文献中约 160 个实测非晶含量数据的岩石样本，并通过数据插补技术对缺失的非晶含量等关键属性进行修正，最终构建起一套统一的天然与二次来源胶凝材料反应性数据库。

此外，在数据特征构建上，研究提取了 CaO 、 Al₂O₃、 SiO₂ 等主要氧化物含量，其中三者总和超过 80% 的材料占比较高。同时，结合中位粒径、比重、非晶相含量等物理参数，以及养护温度、龄期等工艺条件，构建了包含 318 种材料、 1,850 个数据点的训练集。

模型架构：多任务神经网络预测胶凝反应性

本文采用了一种多头神经网络架构来预测材料在水泥系统中的反应性。 这种架构的设计旨在同时预测多个反应性指标，包括热释放、 Ca(OH)₂ 消耗量和结合水量。多头架构的优势在于它能够利用跨任务迁移学习，通过共享底层特征来提高各个任务的预测准确性。

模型的输入包括材料的化学成分（如 CaO 、 Al₂O₃、 SiO₂、 Fe₂O₃、 MgO 等）、颗粒大小、无定形含量和比重等关键描述符。这些描述符通过 SHAP 分析（Shapley Additive exPlanations）进行验证，确保它们对反应性预测的贡献是合理的。 SHAP 分析结果显示，主要氧化物（如 CaO 、 Al₂O₃、 SiO₂）是反应性预测的顶级描述符，而无定形含量和比重也对反应性有显著影响。

为应对同时预测多个反应性指标及处理缺失值的挑战，研究人员设计了带插补功能的多任务神经网络（Imputation-aware multi-task neural network），该方法采用 2 个方法管理缺失值： 输出端设计自定义损失函数，仅基于非缺失值计算损失；输入端开发双重方法，插补缺失值的同时又能够创建掩码标记插补数据，使网络能区分原始值与插补值，模型架构通过连接集成输入描述符及其掩码以处理插补值。优化后的网络结构包含 4 个带 ReLU 激活函数的密集层，穿插 dropout 层和批量归一化（Batch Normalization）层以缓解过拟合，不同输出的损失权重与指标可用数据点数量成反比以均衡贡献。最后利用 Keras Tuner 优化超参数（如优化器、学习率、层数等），并在训练中采用提前停止策略，通过监控验证损失恢复最佳模型权重，避免过拟合。

基于 LLM 的材料挖掘与反应活性研究评估

该实验模型能够准确地预测材料在水泥系统中的反应性，且无需进行物理实验室测试，大大加速了材料发现和筛选的过程，为减少水泥生产中的温室气体排放提供了新的途径。此外，研究证实了替代材料在减少熟料使用方面的潜力。这一发现通过增加无定形含量来提高材料的反应性，为未来材料设计提供了重要的指导。

基于 LLM 的文献挖掘与前驱体分析

通过微调的 LLM 提取到的化学成分，研究人员绘制了 CaO--Al₂O₃--SiO₂ 三元图。 如下图所示，总含量超过 80  wt% 的样品中，除尾矿和少量水泥外，多数样品特征为低 Al₂O₃、高 CaO 和低 SiO₂。其中 56％含 15--70  wt% CaO，73％含 15--70  wt% SiO₂，70.5％含 Al₂O₃ 低于 15 wt% 。几乎 94.5％样品含 Fe₂O₃ 在 0--15  wt%，95％含 MgO 低于 10 wt% 。相比之前研究，研究人员新增了 2,028 个粉煤灰样本和 1,346 个矿渣样本， 同时纳入天然火山灰、生物质灰和尾矿等新材料类型。即此前研究是将 7, 490 种材料分为 11 类，而本研究则是扩展至 12,898 种材料、 19 类。

（CaO -Al₂O₃ -SiO₂ > 80%wt) 的 CaO- Al₂O₃ -SiO₂ 三元图

另一个 LLM 基于期刊数据识别了材料类型及亚型（如尾矿中的铜尾矿），将材料分为 19 种预定义类型及子类型，实现更精细的分类分析。尽管化学成分有助于识别材料类型，但却无法直接揭示材料反应性。为探讨胶结前体成分变化，研究人员对 CaO 、 Al₂O₃ 和 SiO₂ 总含量超过 80 wt% 的样本进行了 t‑SNE 降维分析，如下图所示。结果表明，除尾矿、生物质灰和玻璃之外，多数材料呈现各自聚簇，且水泥未与惰性石灰类明显分开， 说明仅以化学成分预测反应性存在局限。

潜在胶结前体 (CaO + Al₂O₃ + SiO₂ > 80% wt) 的 t-SNE 图

机器学习模型构建与反应性预测

通过机器学习预测材料反应性方面，研究人员利用 R³ 测试中得到的三项反应性指标，即热释放、 Ca(OH)₂ 消耗量、结合水量进行训练。研究发现热释放与结合水呈线性关系， 因此结合水可用于估算热释放，从而实现多角度反应性评估。此外，与支持向量机、随机森林、 XGBoost 和单头神经网络相比，该模型在所有 3 个指标上均表现更优：热释放 RMSE 为 28.20 J/g（置信区间 3.88 J/g），Ca(OH)₂ 消耗为 12.17 g/100g（±4.25），结合水为 1.47 g/100g（±0.45），预测 R² 均超过 0.85 。

模型通过置换特征重要性分析与 SHAP 解释，揭示了关键决定因子， 如下图所示。主要氧化物（CaO 、 Al₂O₃、 SiO₂、 Fe₂O₃、 MgO），无定形含量和比重均显著影响反应性。其中，Al₂O₃ 和 CaCO₃ 对热释放与结合水最为关键，提示它们能促进放热和生成铝酸盐/钙矾石，也增强早期强度；而 CaO 的增加则减少对 Ca(OH)₂ 的消耗，因其提供直接钙源； 低比重材料则具备更多水化反应位点。 SHAP 分析也显示，随着材料水化龄期增加，无定形结构比例高时反应性增强。这些结果不仅与已知矿物活性规律一致，也为利用机器学习筛选高性能胶凝材料提供了可解释、三指标预测的技术基础。

贡献前十的描述符

（灰色条代表化学性质，黄色条代表环境描述符，浅蓝色条代表物理性质，红色条代表糊状混合物中添加材料的混合比例）

二次材料的反应性评估与利用潜力

该模型框架基于化学组成与插补方法，估算无定形含量、比重和中位粒径等描述符，对多种二次材料的反应性进行量化评估。

研究人员将材料在热释放与 Ca(OH)₂ 消耗两个维度上绘制反应性图谱，明确区分火山灰质材料（Ca(OH)₂ 消耗> 50g/100g）、惰性材料（热释放< 100J/g）以及表现出水硬性的矿渣。总体来看，粉煤灰、天然火山灰、硅灰、某些黏土、玻璃和尾矿均展现出火山灰性质，而含钙废弃物则几乎不反应； 矿渣类材料虽然反应性低，但典型呈水硬性行为；而生物质灰、建筑垃圾和底灰也显示出作为火山灰胶凝材料的潜力，验证了模型与先前研究一致。

为了准确评估各材料的熟料替代潜力，研究进一步按来源与加工方式将材料细分为亚型，并分析其独特反应特征， 如下图所示。结果显示：F 类粉煤灰的火山灰活性强于 C 类；矿渣与生物质灰反应性能因来源多样而差异显著；建筑与拆除废物中的再生陶瓷、砖块、混凝土均表现出相当的火山灰特质，其中废陶瓷热释放值最高达 450 J/g；铜、锌尾矿则热释放可达 400 J/g，显示出驳杂矿物也具潜力。

材料亚型的进一步变化煤粉灰、矿渣、生物质灰烬、建筑和拆除废物和废玻璃、其他灰烬以及矿山尾矿 + 炼油厂残渣（铝土矿残渣）

供应分析表明，尽管粉煤灰、矿渣、生物质三种二次材料可共同替代全球 53% 水泥产量（分别占 19% 、 12% 、 22%），该研究进一步指出，建筑拆除垃圾和城市固体废物在多数国家也可大量替代熟料，分别替代约 55% 和 13%， 其替代潜力更大，二者或可取代全球 68% 的水泥产量。尽管部分材料不具天然反应性，但通过可扩展的特定活化工艺，建筑和城市固体废弃物仍展现出显著的熟料替代潜力。例如，电弧炉加工方法对再生混凝土中的水泥浆体进行再熟化；木材废料与其他废料共热解，可使生物炭转化为中等反应性火山灰质材料。

天然胶凝前驱体的全球发现

研究人员通过插补模型从 R³ 数据集输入化学成分及非晶态数据，显著提升了反应性预测的准确度。结果表明，该模型对非晶态含量的平均插补误差仅为 3.0%，对应的反应性预测误差为 5.0% 。

通过预测模型评估岩石反应性，研究超 1,200 种热释放超 200 J/g 的岩石类型中，鉴定出 50,569 种天然前体，其中 25 种岩石类型的反应性前体超 5% 。斜长岩和熔结凝灰岩的反应性与总样品比最高，约 25%； 斑岩、碎屑岩、硅质凝灰岩次之。流纹岩等喷出火山岩虽反应性与总量比低于 12%，但因全球分布广泛，反应性样品数量较多。多数鉴定出的反应性样品为火山灰范围，约 46,700 个样品属火山灰质，约 3,800 个样品属水硬性，不同岩石类型高反应性潜力存在差异。已鉴定的天然前体全球均有分布，集中在地震带等区域，中高活性前体可作熟料原料替代品。 尽管当前数据显示前体多分布于加拿大、美国等国，但实际全球皆有，火山前体在北欧、亚洲等地均有聚集，在北美主要位于阿巴拉契亚山脉等地，如下图所示。

全球范围内已鉴定的具有火山灰质和水硬性行为的反应性岩石的地理空间分布

北美范围内已发现的具有火山灰质和水硬性行为的反应性岩石的地理空间分布

数据驱动的水泥低碳智能化新时代

事实上，在学术研究领域，AI 技术正以颠覆性姿态全面渗透水泥与混凝土产业链的各个环节，在性能预测与生产优化领域实现了多维度的突破性进展。

例如，香港理工大学电子计算学系魏骁勇教授及其团队提出了一种能够在水泥材料中高效封存二氧化的机器学习方法， 采用决策树、随机森林和极端梯度提升（XGBoost）三种先进的机器学习技术，将现有数据集与文献中收集的数据进行耦合。经过验证，XGBoost 模型的性能显著优于传统的线性回归方法。此外，借助于 SHAP，除了广泛认可的因素外，还对水泥类型进行了研究，并展示了其在影响碳化深度中的关键作用。 CEM II/B-LL 和 CEM II/B-M 是两种具有较高碳化潜力的类型。研究结果使得能够识别影响水泥二氧化碳封存的关键因素，并为优化实验设计提供了见解。相关成果以「Machine learning for efficient CO2 sequestration in cementitious materials: a data-driven method」为题，发表于 Nature partner journals 。

论文地址：
www.nature.com/articles/s4...

面对超高性能混凝土（UHPC）成本高昂这一问题，美国密苏里科技大学材料科学与工程系的研究团队利用机器学习对 UHPC 混合料进行优化与性能预测，显著提升效率、缩短开发时间。 结果表明，随机森林（RF）模型在预测抗压强度上优于人工神经网络（ANN）模型；SHAP 值分析显示，年龄、纤维含量和掺合料（SCM）含量影响显著，SCM 化学成分重要性较低；去除化学成分后，仅用选定输入变量预测效率与全套输入相当。由此可见，仅需基本混合料设计信息就能较准确预测 UHPC 性能，这不仅减少数据收集量，还降低计算内存占用与处理时间。

论文地址：
www.nature.com/articles/s4...

展望未来，AI 在水泥材料领域融合高通量模型与神经网络，或将成为水泥工业迈向 2050 年碳中和目标的核心驱动力，站在新材料革命的临界点，为「双碳」目标下的基础设施建设开辟出一条智能化、绿色化的新路径。

参考链接：
1.mp.weixin.qq.com/s/4Nmf7aMku...
2.mp.weixin.qq.com/s/f9D6tVDsr...
3.mp.weixin.qq.com/s/3q696f2qq...