Abstract
- 多源地球物理数据显著提升了反演约束力,但也带来了更强的非线性耦合和观测稀疏性问题,导致传统反演方法在精度与计算效率之间难以权衡。
- 本文提出基于 Transformer 的 G-Query 框架,结合统一向量表示与可调 Query 注意力机制,实现多模态输入的高效融合,支持跨观测系统、跨区域的一体化建模与反演。
- 引入半监督学习策略与不确定性评估方法,使模型在利用未标注数据提升表达能力的同时,具备反演结果置信度估计能力,增强预测的可靠性与实用性。
- 在面波与接收函数的联合反演任务中,G-Query 成功恢复美国大陆岩石圈结构,表现出优异的精度、速度与通用性,展现其在复杂地球物理应用中的广泛潜力。
Introduction
- 现代地球物理研究广泛依赖多模态观测数据(如地震波形、群/相速度、接收函数、SAR、GPS等)来揭示地球内部结构。多源信息虽增强了建模约束,但由于观测稀疏、过程非线性及数据异构性,传统方法在精度、效率与泛化能力方面均面临严重挑战。
- 尽管深度学习已在多个地球物理子任务中表现出色,其广泛应用仍受限于:
数据表示问题:地球物理数据存在格式、维度、尺度多样性,难以统一输入建模;
域转换困难:常见网络架构(如 CNN/U-Net)在处理输入-输出跨域问题时存在拓展性差、参数开销大等限制;
架构定制成本高:每种观测类型或目标任务常需单独设计网络结构,不具备通用性。 - 为克服上述限制,本文提出了基于 Transformer 的通用反演框架 G(eophysics)-Query,其核心设计见下图(图 1)所示:
- 左侧 (a):多模态输入,包括地表面波的相速度与群速度图、以及接收函数波形数据,反映多源观测特征。
- 中部 (b):G-Query 网络结构,多模态数据首先通过统一的向量嵌入编码,分别输入信息路径与查询路径。Transformer 架构中的 Attention Block 实现输入与目标之间的有效关联建模。
- 输出包括反演结果 $y$ 与预测不确定性 $\sigma$,后者经 soft-plus 激活保证非负;
- 半监督训练策略提升了无标签数据下的不确定性建模能力。
- 右侧 (c):多种反演输出目标,模型可输出多个地球物理量,如剪切波速剖面与置信区间、P-S 速度比、Moho 面结构等。
2.Method and Data
- 反演问题转化:将地球物理反演问题建模为 Transformer 中的“查询-响应”问题,输入数据与反演目标均表示为统一向量序列。
- 注意力机制设计:使用整维度多头注意力(full-dimensional multi-head attention),提升网络表达力;通过查询序列控制输出类型,实现“一网多目标”。
- 输出形式:网络输出同时包含预测值 $y$ 与不确定性估计 $\sigma$,并引入 softplus 激活确保 $\sigma \geq 0$。
- 结构构建:网络由 $N$ 层编码器与 $M$ 层解码器组成,结合改进型注意力机制搭建主干 Transformer 架构。
2.1 多模态数据与反演目标的向量表示
- 核心思路:借鉴 NLP 中的 token 表示方式,将地球物理数据统一编码为由类型 + 值 + 参数组成的向量表示。
- 向量构造公式:每个 token 表示一个信息段,其结构为:
$$ x = \phi(t) + \sum u_i \cdot \phi(u_i, i) + \sum p_j \cdot \phi(p_j, j) $$
其中 $\phi$ 为嵌入函数,单位共享嵌入向量,索引用于区分维度。
- 适应性设计:可处理不同数据类型(如接收函数、多频率速度);可表示多种参数(如时间点、方位角、高斯因子);支持未知/参考值和不确定性的编码;
- 统一性与可扩展性强:所有信息归一为数值乘以单位嵌入向量,有助于模型处理异构数据。
2.2 不确定性估计的训练策略 - 目标:在无明确不确定性标签的情况下训练模型,实现反演值 $\hat{y}$ 与不确定性 $\sigma$ 的联合预测。
- 方法:采用负对数似然损失函数,以最大化预测值落在对应高斯分布内的概率:无需显式标签即可训练不确定性;
$$ \mathcal{L} = \sum_{i=1}^{N} w_i \left[ \frac{1}{2} \log \sigma_i^2 + \frac{1}{2} \cdot \frac{(y_i - \hat{y}_i)^2}{\sigma_i^2} \right] $$
- 鲁棒性增强:对 $(y - \hat{y})$ 使用 Huber 损失函数 进行平滑处理,以抵抗异常值干扰,$\delta = 3$。
- 任务适应性:该损失结构适用于回归问题;分类任务可改用交叉熵损失函数。
2.3 非规则数据与非均匀输出处理策略
- 目标:模拟真实场景中观测数据与反演目标的不规则性与不确定性,同时保持网络结构的统一性与并行训练能力。
- 策略一:统一格式 + 掩码机制
输入数据:从原始数据中随机抽样若干段数据单元,统一组织为定长数组;
掩码:随机屏蔽部分输入/输出段,使有效长度可变;
反演目标也随机掩码,支持多种反演任务与网格配置。 - 策略二:模拟观测噪声与不确定性
对输入加入随机高斯噪声,并将其标准差作为输入的不确定性;部分反演目标用扰动后的值作为输入,同时提供扰动幅度。 - 策略三:模拟未知参考信息
将部分参考值与不确定性设为 −1,表示未知或不可用状态。
2.4 应用设置
- 任务选型:采用典型的面波 + 接收函数联合反演作为示例,目标包括 $V_s$、$V_p/V_s$、ST、CT 等;用于展示 G-Query 跨域、多类型信息提取能力。
- 数据规范化:输入包括频散曲线(2–160 s)、接收函数(0–12 s);所有深度与时间类参数单位统一(100 km、40 s);未知不确定性设为 −1;参考模型来源于已有文献或地质知识。
- 模型结构设定:嵌入维度:160;注意力头:10;编码器/解码器层数:8;参数总数:约 2966 万;
- 可调整网络规模以适应不同任务与资源需求(如降为 6 层 + 5 头,误差增加约 2%)。
- 对比方案:与传统 MCMC 非线性反演方法进行性能比较,评估精度与效率表现。
2.5 合成与实测数据集
- 合成数据设计:使用 1D 分层模型 + 正演模拟生成合成数据;分层结构参数包括沉积层(3 参数)、地壳层(7 参数)、Moho–410 km(13 参数);模型结构 + 面波频散曲线 + 接收函数数据 = 全部训练输入;验证集固定,训练样本实时生成;训练考虑深部结构,测试仅评估 0–150 km 的反演结果。
- 实测数据验证:选用美国本土区域的真实观测数据(相速度、群速度、接收函数);数据来源包括 IRIS 与公开研究成果;面波信息通过 RBF 插值映射至反演网格;接收函数根据 Ps 转换点进行栅格叠加;未知不确定性统一标记为 −1。
如图:
(a) 展示 1024 组剪切波速结构 $V_s$,红色虚线标示 150 km 测试评估深度界线;
(b) 相速度频散曲线 $c(T)$,周期 $T$ 采用对数尺度,集中在 10–40 s;
(c) 群速度频散曲线 $g(T)$,同样采用对数周期轴,变化范围广;
(d) 接收函数波形,时间范围 0–12 s,初始几秒内呈现显著 Ps 相响应,反映对 Moho 与浅层的约束。
2.6 训练设置
- 训练阶段中,模型输入包括从指定周期范围中随机采样的 60 个相速度与群速度频散点,以及深度范围为 0–375 km 的不等距分层采样节点(共 161 个),浅层采样密集、深层稀疏。反演目标(如 $V_p/V_s$、ST、CT)初始化为 0 或接近真实值,以模拟“已知”与“未知”初始模型两类场景。
- 为增强模型对界面结构的辨识能力,对靠近沉积-地壳界面与 Moho 面的 $V_s$ 节点、ST、CT 参数赋予 5 倍损失权重。训练中引入 0–40% 的随机掩码,模拟不同观测可用性。
- 同时,为模拟野外观测噪声,向三类数据加入随机扰动:相速度:标准差为 2%(相对误差);群速度:标准差为 4%;接收函数:标准差为 0.02(绝对误差);
- 图 4 展示了加噪样例(a–b)及三类输入的信噪比分布(c–e),其中相速度 SNR 分布集中在 40–50 dB,群速度为 30–40 dB,接收函数为 15–25 dB,表明模拟噪声设计合理并具代表性。
- 模型采用 AdamW 优化器,初始学习率 $\eta_0$,warm-up 步数为 3200,之后每 3200 步衰减 5%。训练批量为 64,使用 NVIDIA RTX 4090 GPU 单卡训练约需 2 天,总训练步数为 32 万步,生成样本约 2048 万个,覆盖广泛结构空间并有效拟合非线性反演关系。
3.Results
3.1 预测性能评估(合成数据)
- 效率对比:G-Query 在 1,024 组样本上推理耗时约 3 秒;MCMC(32 线程)需 32 小时,计算成本极高;G-Query 一次训练、多次高效推理,适合大规模部署。
- 反演设置:面波频散:60 个周期,2–160 s;接收函数:0–12 s,采样率 10 Hz;无先验信息条件下完成联合反演。
- G-Query 与 MCMC 在频散与接收函数数据的拟合精度相当;
- G-Query 在 Moho 面附近波速预测更平滑,误差带更小;
- 从统计上看,G-Query 提供 更稳定、更准确的反演结果。
3.2 反演不确定性估计能力评估
- G-Query 所预测的 $\hat{\sigma}$:与实际误差 $d_y$ 高度相关;可有效揭示界面处的不确定性;在分布统计上优于传统输入扰动法。
- 使用归一化误差检验 $\hat{\sigma}$ 的可信度;
- G-Query 的归一化误差稳定接近标准正态分布;
-MCMC 的估计偏窄,存在系统性误判; - G-Query 拥有 内建的不确定性建模优势。
3.3 通用性与鲁棒性验证
- 架构灵活性:G-Query 支持输入/目标向量格式调整,适应不同任务场景;无需重新设计网络或重复训练,具备高度迁移能力。
- 关键验证结果:略
3.4 表示向量分析
- G-Query 通过统一嵌入机制,将多模态观测数据与反演目标表示为相同维度的向量,便于模型在共享空间中进行融合建模与信息交互。
图 11 展示了不同模态向量之间的相关性分布。结果表明,相速度与群速度在相近周期段具有更强相似性,接收函数的早期部分与短周期频散更为相关。这一趋势在编码后更加明显,与灵敏度核分布高度一致,说明 G-Query 能从物理机制中学习有效的特征表示。
- 通过 PCA 可视化(图 11c–d),我们发现编码后的向量分布更加复杂但结构清晰:频散类模态相互聚类,而接收函数保持差异性;ST 与 CT 等厚度类目标保持空间接近,反映其物理属性的一致性。
- 综上,G-Query 的表示机制不仅有效区分不同模态数据,还构建了具有物理一致性和结构性的共享表示空间,为多源信息融合与可解释建模提供了支撑。
3.5 注意力分布与信息关注分析
- 编码器注意力特征:浅层编码器关注分散,深层聚焦集中,相/群速度主要关联于相近周期信息,部分周期关注于接收函数大幅度波形(如 Moho 界面转换波),接收函数则主要自关注或关注强响应波形,早期对应短周期,后期对应长周期。
- 解码器注意力分布:反演参数如 $V_s$ 的注意力集中在前六层,反映出主要预测过程,后两层用于微调;深层 $V_s$ 由长周期频散主导,CT/ST/$κ$ 分别关注不同周期段面波,与其物理涵义相符。
- 模态间协同:注意力与表示向量相似性、高度与灵敏度核一致,说明 G-Query 能根据物理结构有效协调多源模态。
- 解释性增强:注意力分析揭示了模型关注机制,有助于理解预测驱动逻辑与物理一致性。
3.6 实测数据反演结果验证
- 高效性显著提升:G-Query 可在 6 秒内完成 1836 个网格点的反演,远快于需 36 小时的 MCMC,且仅需基于合成数据训练一次。
- 强鲁棒性与迁移能力:即使面对实测数据中存在不规则频散曲线与数据缺失,G-Query 仍可稳定反演地下结构。
- 反演结构与地质一致:如 CT 自中部向外减薄、ST 与 $\kappa$ 高度相关、西部地壳最薄且低速异常最强,均与 USGS 区划、MCMC 与已有研究一致。
- 具有跨区域推广性:模型训练时引入了多样化大陆结构样本,已成功迁移应用于华北构造带,验证了其广泛适用性。
4.Discussion and Conclusion
- G-Query 成功实现多模态地球物理数据(如面波与接收函数)的联合反演,展现出无需专门设计即可适配不同反演任务的灵活性。
- 相比传统 MCMC 方法,G-Query 显著减少计算成本,并有效处理观测误差与先验信息,提高反演精度。
- 通过向量统一表示与注意力机制,可揭示神经网络内部机制,识别关键数据点,辅助反演结果的可信性分析。
- 框架适用于台站分布不规则、采样频率不同等复杂输入问题,具备迁移到震源定位、去噪、全波形反演等多任务场景的潜力。
- 利用地球物理数据一致性:建议充分利用“同一区域不同数据反映相同结构”的一致性特征,构建更鲁棒的多模态反演模型。
Paper Link
转载请注明出处