近日,复旦大学公共卫生学院阚海东教授、孟夏副教授课题组联合环境科学与工程系张宏亮教授和大气与海洋科学系王芃副研究员课题组建立了我国高精度的大气粗颗粒物暴露数据库,并在此基础上分析了2013-2020年我国大气粗颗粒物的时空变化趋势。该研究以“An Ensemble Machine Learning Model to Enhance Extrapolation Ability of Predicting Coarse Particulate Matter with High Resolutions in China”为题发表在环境科学领域著名期刊《Environmental Science & Technology》。
建立高分辨率和高准确度的大气粗颗粒物(PM10-2.5空气动力学直接在2.5-10 μm之间的颗粒物)暴露评价模型和数据平台,是了解PM10-2.5污染时空分布特征和支撑PM10-2.5相关流行病学研究的重要基础,但相关研究在我国较少开展。
此前的研究主要采用间接和直接两种建模方法来预测PM10-2.5浓度。间接法是指分别构建PM2.5和PM10的模型并预测二者的浓度,随后计算两者浓度之差以作为PM10‑2.5浓度。此法依托于较为成熟的PM10和PM2.5模型,应用较多。然而,鉴于模型预测的PM2.5与PM10浓度具有一定的偏倚且偏倚的方向和程度并不一致,间接法得到的PM10‑2.5浓度会出现一定比例的负值。相比之下,直接法以PM10‑2.5实测值作为因变量约束模型和预测值范围,可以避免上述问题。然而,直接针对PM10‑2.5建模的研究很少,且尚无研究对比了直接法和间接法的模型性能。此外,近期关于大气污染物浓度预测模型的研究提示,集成多种建模方法的结果能显著提升预测性能。此优势源自基础模型策略性组合的能力,既能减小总体暴露评估误差,又增强了对噪声的鲁棒性。因此本研究的假设集合间接法与直接法所得的PM10‑2.5预测值可进一步提升模型预测的性能。
本研究基于两阶段的集成机器学习方法估算了我国2013-2020年间的PM10‑2.5浓度,时间分辨率是每天,空间分辨率是1km × 1km。第一阶段,分别使用间接法和直接法构建模型来预测PM10‑2.5浓度。第二阶段,采用集成方法整合间接和直接法得到的PM10‑2.5预测值。本研究采用内部(10折交叉验证)和外部验证相结合的方式,更全面评估PM10‑2.5模型的性能。对于内部验证,采用源自国家监测站且已作为模型训练集的PM10‑2.5实测值。对于外部验证,则通过基于国家监测站实测值构建的模型去预测省级监测站点的每日PM10‑2.5浓度,并将预测结果与省级监测站的实测值进行比对。相较于内部验证,外部验证结果可以更严格地衡量模型的空间外推能力。
第一阶段,基于间接法和直接法的内部验证R2(RMSE)分别为0.91(10.02 μg/m3)和0.76(16.38 μg/m3);外部验证R2(RMSE)分别为0.54(20.35 μg/m3)和0.62(18.48 μg/m3)。间接法在内部验证中表现更佳,具有更高的R2值和更低的RMSE值;而直接法则在外部验证中表现更优,表明直接法的空间外推准确性更高。第二阶段,基于集成方法的内部和外部验证R2(RMSE)分别为0.95(7.17 μg/m3)和0.63(18.30 μg/m3)。与间接和直接法相比,集成法在内部和外部验证中的预测精度均有所提升(图1)。
图1. 基于集成法的内部(a)和外部(b)验证结果(y轴为PM10‑2.5实测值,x轴为PM10‑2.5预测值)。
进一步,本研究基于上述两阶段模型构建了我国大气PM10‑2.5暴露评价数据库。基于该数据库分析发现,2013-2020年间,我国PM10‑2.5浓度年均值及其变化率呈现了显著的空间异质性(图2)。从空间上看,我国北方地区的PM10‑2.5浓度显著高于南方地区。从时间上看,我国PM10‑2.5浓度从2013年的55.55 μg/m3显著下降至2020年的30.46 μg/m3。我国北方的PM10‑2.5浓度下降幅度(40.20%)低于南方(62.21%)。虽然全国PM10‑2.5浓度显著下降,但是我国西北部分地区的PM10‑2.5浓度一直维持较高浓度,甚至出现上升趋势。提示了我国PM10‑2.5整体暴露风险呈现下降趋势,北方暴露风险高于南方,易受沙尘影响区域的暴露风险持续较高。
图2. 我国PM10‑2.5污染的时空分布特征。图a:2013年我国PM10‑2.5年均值;图b:2020年我国PM10‑2.5年均值;图c:2013-2020年我国PM10‑2.5年均值变化率的空间分布;图d:2013-2020年我国、南方和北方地区的PM10‑2.5年均值变化的时间趋势。
本研究产生的PM10‑2.5数据能够捕获沙尘暴在日尺度的移动轨迹(图3)。例如,在2020年3月16日至21日期间,受气旋活动和地表冷空气移动的影响,源自新疆的沙尘暴影响了我国北方的广大地区。本研究产生的PM10‑2.5预测数据提示在此期间,沿着沙尘暴的移动路径,新疆、宁夏、河南和山东等地区的PM10‑2.5浓度依次升高且峰值浓度依次减弱。在沙尘暴形成当天(3月16日),新疆的浓度最高达到100.67 μg/m3;随后,3月18日宁夏达到峰值浓度(131.20 μg/m3),比3月16日的当地PM10‑2.5浓度高出3.74倍;接着,3月19日河南达到峰值浓度(119.46 μg/m3);3月20日山东达到峰值浓度(89.89 μg/m3)。最后,在3月21日至23日期间,这些省份的PM10‑2.5浓度逐渐降至沙尘暴发生前的水平(图3[i])。这一结果提示了,虽然我国PM10‑2.5整体暴露风险逐年下降,但是在沙尘暴期间,易受沙尘影响区域仍呈现了较高的短期暴露风险。
图3. 2020年3月16日至23日我国发生的一次严重沙尘暴事件期间,大气PM10‑2.5日均值的时空分布。
综上,该研究提出了一种集成策略,结合了间接和直接建模方法的优势,可以在日均水平和1km空间分辨率上较为准确地估算大气PM10‑2.5浓度,可为进一步评估PM10‑2.5的健康效应和风险提供数据支撑。复旦大学公共卫生学院博士生史苏为该论文的第一作者,复旦大学公共卫生学院孟夏副教授为该论文的通讯作者。该研究得到了国家重点研发计划重点专项(2023YFC3708304)和国家自然科学基金(82030103)的支持。
文章链接:https://pubs.acs.org/doi/10.1021/acs.est.4c08610
原文引用:Shi, S., Chen, R., Wang, P., Zhang, H., Kan, H., and Meng, X. (2024). An Ensemble Machine Learning Model to Enhance Extrapolation Ability of Predicting Coarse Particulate Matter with High Resolutions in China. Environmental Science & Technology 58, 19325-19337.