标准化系统样本熵线性预报模型
本文介绍基于 NorSysSampEn 的 2026 年 El Niño 峰值 ONI 线性预报方法,系统说明所用 ERA5/ONI 数据、预处理流程、参数搜索与模型构建过程,并给出对应的预报结果与不确定性表达。
本文介绍基于 NorSysSampEn 的 2026 年 El Niño 峰值 ONI 线性预报方法,系统说明所用 ERA5/ONI 数据、预处理流程、参数搜索与模型构建过程,并给出对应的预报结果与不确定性表达。
作者:刘卓敏
参考文献:
Meng J, Fan J, Ludescher J, et al. Complexity-based approach for El Niño magnitude forecasting before the spring predictability barrier[J]. Proceedings of the National Academy of Sciences of the United States of America, 2020, 117(1):177–183.
DOI: 10.1073/pnas.1917007117.
本预报使用本研究使用欧洲中期天气预报中心(ECMWF)为哥白尼气候变化服务(Copernicus Climate Change Service, C3S)提供的 ERA5 再分析资料,选取 Niño 3.4 区域标准化 气温异常场作为基础数据。
对每一个目标年份,首先在其前一年 11 月末或 12 月末之前截取 Niño3.4 区域多格点 空间分辨率的时间序列,并计算标准化系统样本熵(Normalized SysSampEn, NorSysSampEn)。
NorSysSampEn 用于刻画 Niño3.4 区域气候系统在给定时间窗口内的整体复杂度和无序程度。
本方法主要考察目标预报年份前一年的 11 月底 和 12 月底 两类高线性存在的前兆窗口。
处理后的每个 NorSysSampEn 文件包含年份、截止窗口、窗口起止日期以及熵值。
其中熵值作为后续线性预报模型的输入变量。
历史训练样本为过去 10 次 El Niño 事件,即 1986、1991、1994、1997、2002、2004、2006、2014、2018 和 2023 年,对应峰值 ONI 分别为 1.70、1.71、1.09、2.40、1.31、0.70、0.94、2.64、0.90 和 1.95。
ONI 定义为 Niño 3.4 区域海表温度异常的 3 个月滑动平均,其中海表温度异常基于 ERSST.v5 数据集,并相对于每 5 年更新一次的居中 30 年气候平均基期计算得到。
ONI 记录覆盖自 1950 年至今,其数据可从 NOAA 物理科学实验室(Physical Sciences Laboratory, PSL)获取:
https://psl.noaa.gov/data/correlation/oni.data
我们首先对原始 ERA5 日尺度 气温数据进行去闰处理,即从所有闰年中删除 2 月 29 日,从而构造一个统一的 365 天历。
随后,对于 Niño 3.4 区域内的每一个空间节点,我们按年内日序分别对时间序列进行标准化。
具体而言,在 1979-1983 年期间,每一个日序的标准化均基于 1979-1983 这 5 年固定气候态所计算得到的均值和标准差。
对于 1984 年及其后的年份,某一日序的标准化则基于从 1979 年起至该年为止所有可用历史样本所估计的均值和标准差,即采用逐年扩展的历史基准期进行标准化。
系统样本熵方法(System Sample Entropy)的详细解释请参考文献:
Meng J, Fan J, Ludescher J, et al. Complexity-based approach for El Niño magnitude forecasting before the spring predictability barrier[J]. Proceedings of the National Academy of Sciences of the United States of America, 2020, 117(1):177–183. DOI: 10.1073/pnas.1917007117.
本方法对原始系统样本熵方法进行了标准化改良,容差参数 可固定在稳定范围内,易寻找高线性参数区间。
本方法数据选取长度为预报目标年份的前一年的 11 月 30 日或 12 月 31 日的数据往前减去有效长度,即:
选取参数组合经参考文献中所示的空间异步性测试和时间无序测试共同确立。
参数组合如下:
| 参数组 | 模板长度 (m) | 增量参数 (p=q) | 阈值参数 (γ) | 有效长度 (leff) | 前兆窗口 |
|---|---|---|---|---|---|
| Group 1 | 15 | 7 | 0.30-0.80, 步长 0.02 | 99-512天, 步长 7 | Nov(-1), Dec(-1) |
| Group 2 | 30 | 15 | 0.60-1.00, 步长 0.02 | 75-525天, 步长 15 | Nov(-1), Dec(-1) |
| Group 3 | 30 | 30 | 0.60-1.00, 步长 0.02 | 90-510天, 步长 30 | Nov(-1), Dec(-1) |
| Group 4 | 60 | 15 | 0.70-1.10, 步长 0.02 | 75-510天, 步长 15 | Nov(-1), Dec(-1) |
| Group 5 | 60 | 30 | 0.70-1.10, 步长 0.02 | 90-510天, 步长 30 | Nov(-1), Dec(-1) |
| Group 6 | 60 | 60 | 0.70-1.10, 步长 0.02 | 120-540天, 步长 60 | Nov(-1), Dec(-1) |
本方法对以上不同 NorSysSampEn 参数组合进行穷举搜索。
候选参数包括模板长度 、时间增量 、延拓长度 、相似性阈值 和有效窗口长度 。
对每个候选参数组合,分别读取其历史训练样本中对应 和 下的 NorSysSampEn 并建立如下线性模型:
其中, 表示第 次 El Niño 事件的峰值 ONI, 表示对应窗口下的 NorSysSampEn 值, 为回归系数, 为残差项。
模型使用过去 10 次 El Niño 事件进行拟合,并计算 Pearson 相关系数 、显著性水平 -value 和均方根误差 。
随后在所有候选参数组合中选择历史样本相关性最高、误差较小的模型作为最终预报模型。
确定最优模型后,将 2026 年同一窗口下的 NorSysSampEn 值(实为最多到 2025 年 12 月底、长度介于 75 天-540 天的温度数据计算的熵值)代入线性回归方程,得到 2026 年 El Niño 峰值 ONI 的预测值。
预测不确定性使用训练样本 表示,因此最终结果写作:
本次 NorSysSampEn 预报首先在 和 两个前兆窗口中提取 2026 年对应的系统样本熵值,并在历史 10 次 El Niño 事件中寻找最优线性关系。
最终输出最优参数组合、相关系数、RMSE 以及 2026 年峰值 ONI 预测结果。
根据计算结果,最优参数组合为:
最优前兆窗口为:
该模型在历史 El Niño 样本中的相关系数为:
均方根误差为:
将 2026 年 NorSysSampEn 代入模型后,得到 2026 年 El Niño 峰值强度预报为:

总体来看,NorSysSampEn 预报结果表明,2025 年整体数据预报 2026 年 ONI 值超过 ,认为 2026 年为一次 El Niño 事件起始年,且认为本次事件的峰值强度可能为 。