Abstract
-
地震事件探测 和 震相拾取 是许多地震学工作流程的基础。
-
由于不同研究的数据集和评估任务各异,目前尚不清楚不同方法之间的 具体比较情况。并且 缺乏关于模型跨领域性能的系统性研究。
-
本文通过 大规模基准测试 研究:
- 评估六种深度学习模型;在八个数据集上进行测试
- 任务包括 事件检测、震相识别、震相到时拾取
- 结果与 经典 Baer-Kradolfer 震相拾取器 进行比较
-
跨区域研究 发现:
- 训练好的模型 在不同地区之间可迁移,但性能略有下降
- 区域性数据训练的模型不适用于远震数据
-
代码基于 标准化框架,确保可扩展性,并 开放访问;提供所有训练好的模型 SeisBench 框架 以便用户使用。
1. Introduction
深度学习在地震事件检测与震相拾取中的应用
- 近年来,多个 深度学习模型 被提出用于 地震检测和震相拾取:
- PhaseNet (Zhu & Beroza, 2019) - 基于 U-Net 结构,用于实时震相拾取。
- EQTransformer (Mousavi et al., 2019) - 结合 CNN 和 Transformer,用于事件检测和震相拾取。
- GPD (Ross et al., 2018) - 使用深度卷积网络,专注于震相识别。
本研究的核心目标
- 提供一个 全面的基准测试(benchmark),对比不同深度学习方法在地震检测和震相拾取任务上的性能。
- 重点关注 单台站方法,因为目前尚缺乏足够的 多台站联合拾取方法。
- 评估 七种模型(包括 一种经典方法 + 六种深度学习方法),在 八个数据集 上测试其优缺点。
数据集的多样性
- 数据集覆盖 不同规模、不同地区,包括:
- 本地地震(Local earthquakes)
- 区域地震(Regional earthquakes)
- 远震(Teleseismic earthquakes)
- 这些数据采用 不同的震相拾取策略,确保基准测试的全面性。
深度学习模型的多样性
- 架构差异:CNN、RNN、Transformer。
- 输入数据类型:
- 时间域表示(原始波形)
- 频率域表示(傅里叶变换后的数据)
- 输出方式:
- 单点预测(震相到时)
- 序列预测(整个震相的时间序列)
- 模型规模:从 浅层模型(少量网络层)到 深度模型(包含数十层)。
SeisBench 平台
- SeisBench(Woollam et al., 2021)提供 标准化的 API,方便研究人员应用深度学习模型。
- 采用 模块化设计,允许:
- 轻松添加 新数据集 进行评估。
- 快速测试 新模型 并与已有方法对比。
技术实现
- PyTorch Lightning (Falcon et al., 2019) - 提供高效的深度学习训练框架。
- 代码开放:
- 所有训练与评估代码均公开,便于研究人员 复现实验。
- 未来模型开发者 可以轻松将其方法与已有基准测试进行比较。
2. 数据与方法
2.1 任务与评估指标
模型在输入波形长度 和 输出格式 方面存在差异。 定义了 三个通用任务,并为每个模型设定了适用于该任务的评估方式。
2.1.1 任务 1 —— 事件检测
任务定义
- 输入:给定 30 秒的地震波形窗口。
- 目标:判断该窗口内是否包含 事件起始点(即 第一波震相到时)。
- 数据处理:
- 剔除地震尾波(coda),因其是否应归类为事件仍存在不确定性。
(1) 受试者工作特征曲线 (ROC) 和曲线下面积 (AUC)
-
ROC 曲线(Receiver Operating Characteristic):
- 通过 真阳性率 (True Positive Rate, TPR) 与 假阳性率 (False Positive Rate, FPR) 的变化关系,衡量模型在 不同决策阈值 下的性能。
- 应用背景不同,所需的 FPR 和 TPR 取舍不同:
- 低地震活动区(使用简单拾取关联算法):需要 FPR < 0.01,避免误报过多。
- 高地震活动区(使用双曲拾取关联算法,如 Woollam et al., 2020):FPR < 0.05 即可接受。
-
AUC(曲线下面积,Area Under Curve):
- AUC = 1:完美模型(没有误判)。
- AUC = 0.5:随机猜测(模型无效)。
(2) F1 分数
- 定义:
- F1 分数(F1-score)是 精确率(Precision)和召回率(Recall) 的调和平均数。
- Precision(精确率):正确检测到的事件占 所有检测到的事件 的比例。
- Recall(召回率):正确检测到的事件占 所有实际发生的事件 的比例。
- 公式:
$$ F1 = 2 \times \frac{{\text{Precision} \times \text{Recall}}}{{\text{Precision} + \text{Recall}}} $$
-
意义:
- 综合衡量模型的 "敏感性"(Sensitivity)和 "特异性"(Specificity)。
- 适用于地震事件检测,因为它能权衡 误报率(False Positives)与 漏报率(False Negatives)。
-
F1 分数的阈值优化: - F1 依赖于决策阈值,需要在不同应用场景下优化 最优阈值。
2.1.2 任务 2 —— 震相识别 (Phase Identification)
任务定义
- 输入:一个 10 秒的波形窗口,其中包含 一个震相。
- 目标:判断该震相是 P 波 还是 S 波( 简化处理:不进一步区分 )
与任务 1(事件检测)的区别
- 任务 1(事件检测):区分 地震事件 和 噪声(类别划分清晰)。
- 任务 2(震相识别):区分 P 波 和 S 波,但两者类别划分是 对称的(没有固定的正负类)。
评估指标
指标 | 衡量内容 | 作用 |
---|---|---|
MCC(Matthews 相关系数) | 计算混淆矩阵的相关性 | 适用于二分类问题,尤其适用于类别不均衡情况 |
-
为什么不用 AUC、ROC、F1 分数?
- 这些指标 依赖于正负类别的定义,但 P 波 vs. S 波 没有固定的正负类,因此不适用。
- MCC 适用于对称二分类任务,可稳定衡量 P/S 分类的准确性。
-
MCC 评分范围:
- MCC = 1 → 完全正确分类; MCC = 0 → 随机分类,无有效信息;MCC = -1 → 完全错误分类。
-
阈值优化:- MCC 受决策阈值影响,需在 2.5 章节 进一步优化。
2.1.3 任务 3 —— 震相到时拾取 (Onset Time Picking)
任务定义
- 输入:一个 10 秒的波形窗口,包含一个 已知类型(P 或 S)的震相。
- 目标:准确拾取 震相到时(Onset Time)。
评估方法
评估指标 | 作用 |
---|---|
残差(Residuals) | 预测到时 vs. 真实到时的误差 |
高残差比例 | 计算误差超过设定阈值(0.45s/1.5s)的样本占比 |
RMSE(均方根误差) | 受离群值影响较大,适用于整体误差评估 |
MAE(平均绝对误差) | 受离群值影响较小,适用于稳定性评估 |
-
误差定义:
- 残差 = 机器学习预测的震相到时 - 真实参考震相到时。
- 误差越小,模型越精准。
-
分析方式:
- 直方图 可视化残差分布,检测误差模式。
- RMSE vs. MAE 对比:
- RMSE 更关注大误差(适用于误差较大的情况)。
- MAE 更关注整体误差平均水平(适用于误差较稳定的情况)。
2.2 数据集 (Datasets)
数据来源
本研究在 SeisBench 平台上使用了 八个数据集:
- 六个数据集(ETHZ, INSTANCE, Iquique, LenDB, SCEDC, STEAD)主要包含 本地到区域地震事件(震中距 <10°)。
- 两个数据集(GEOFON, NEIC)主要包含 远震事件(震中距 ≥10°)。
数据集筛选
数据集 | 事件类型 | 适用于任务 | 备注 |
---|---|---|---|
SCEDC | 本地 & 区域地震 | 任务 1, 2, 3 | 超过 800 万条波形 |
ETHZ | 本地 & 区域地震 | 任务 1, 2, 3 | 高质量人工标注 |
NEIC | 远震 | 任务 2, 3 | 不适用于任务 1 |
LenDB | 本地地震 | 任务 1 | 无人工 P/S 标注,排除任务 2, 3 |
数据标准化
- 所有数据集重采样至 100 Hz,确保模型公平评估。
- 数据集已预先划分为训练集、开发集和测试集,以保证实验一致性。
2.3 已评估的模型概述
总结
模型名称 | 任务支持 | 输入长度 | 网络结构 | 训练数据 | 适用场景 |
---|---|---|---|---|---|
BasicPhaseAE | 事件检测、震相识别、震相拾取 | 6s(100 Hz) | U-Net | 智利 Iquique 11,000 震相数据 | 小型数据集,近场震相拾取 |
CRED | 事件检测 | 30s(100 Hz) | CNN + RNN | 北加州 55 万地震 + 55 万噪声 | 长时窗口事件检测,低信噪比环境 |
DPP | 事件检测、震相拾取 | 5s(100 Hz) | CNN + Bi-LSTM | 智利 Mw 8.1 & 7.7 震相数据 | 高噪声环境,数据有限场景 |
EQTransformer | 事件检测、震相识别、震相拾取 | 60s(100 Hz) | CNN + LSTM + Transformer | STEAD | 远震 & 复杂震相分析,自动化地震监测 |
GPD | 事件检测、震相识别、震相拾取 | 4s(100 Hz) | CNN | 南加州 450 万地震波形 | 短时窗口震相分类,远震低频震相检测 |
PhaseNet | 事件检测、震相识别、震相拾取 | 30s(100 Hz) | U-Net | 北加州 77.95 万震相数据 | 远震震相拾取,高噪声环境 |
- BasicPhaseAE 适用于小型数据集的震相拾取。
- CRED 适用于长时窗口事件检测,适合 远震 & 低信噪比环境。
- DPP 适用于高噪声环境的震相拾取,适合 小型数据集。
- EQTransformer 适用于远震 & 复杂震相分析,适合 自动化地震监测。
- GPD 适用于短时间窗口震相分类,适合 实时地震检测。
- PhaseNet 适用于远震震相拾取,适合 高噪声环境。
2.4 训练部分
- 基准测试基于 SeisBench 框架,实现 标准化数据处理和模型训练。
- 采用混合窗口策略,确保 训练数据包含足够的震相样本,同时提升泛化能力。
- 未对 P/S 波重新采样,除 GEOFON 数据集外,P/S 样本未出现严重不均衡。
- 采用 Adam 优化器,训练 100 轮,但受 48 小时墙时限制。
- 整个训练与评估消耗 4,000 GPU 小时 + 260,000 CPU 线程小时,确保模型全面评测。
2.5 阈值和超参数选择
决策阈值选择
- 任务 1(事件检测):优化 ROC-AUC,并提供 F1 分数的最佳阈值 作为参考。
- 任务 2(震相识别):优化 MCC 以选择 P/S 波分类阈值。
- 任务 3(震相拾取):基于 开发集选择最佳决策阈值,确保各数据集适应性。
超参数优化
- 固定模型架构,仅优化 梯度下降参数:
- 批量大小(batch size):固定为 1024。
- 学习率(learning rate):测试 10⁻²、10⁻³ 和 10⁻⁴。
- 模型选择标准:
- AUC(任务 1)
- MCC(任务 2)
- 标准偏差(任务 3)
- 计算成本考虑:
- 未进行大规模超参数搜索,因 Adam 优化器本身对超参数较为鲁棒(Kingma & Ba, 2014)。
2.6 基准方法(Baseline)
1. P 波拾取基准方法
- 采用 Baer-Kradolfer 拾取器(Baer & Kradolfer, 1987)作为 P 波到时拾取的基准方法。
- 参数设定:
- 最小 & 最大事件检测时间。
- 双阈值设定(第二个阈值为第一个阈值的一半)。
- 带通滤波(Butterworth filter) 以减少噪声。
2. 参数优化
- 传统方法无法使用梯度下降优化,需使用 高斯优化(Gaussian Optimization):
- 以 RMSE(均方根误差) 作为优化目标。
- 25 个初始点,500 次进一步评估。
- 优化计算成本:
- 仅在 2500 个 P 波拾取点上评估,减少计算负担。
3. 未包含的基准方法
- 未使用传统事件检测方法,因其 误报率高,无法直接比较。
- 未使用 S 波拾取基准,因 传统 S 波拾取依赖额外信息(震源距离 & 方位角),参数调整难度较大。
3. Results
3.1 任务 1 —— 事件检测 (Event Detection)
各模型表现分析
(1) PhaseNet vs. BasicPhaseAE
- PhaseNet > BasicPhaseAE,尽管两者均采用 U-Net 结构,但性能差异较大。
- 原因:
- PhaseNet 采用更长输入窗口(30s vs. 6s),能够捕捉更完整的事件信息。
- PhaseNet 采用残差连接(Residual Connections),优化梯度流,提高学习能力。
- BasicPhaseAE 采用短卷积滤波器,导致检测能力下降。
(2) EQTransformer vs. CRED
- EQTransformer 是 CRED 的扩展版本,额外引入 Transformer 结构,用于处理 长时序依赖关系。
- 两者在大部分数据集上表现相近(AUC 0.964 vs. 0.951),但 EQTransformer 在远震数据上表现更优。
(3) GPD、PhaseNet 和 DPP 在 ETHZ 数据集上的优势
- 在 ETHZ 数据集上,GPD、PhaseNet 和 DPP 的 AUC 比 CRED 和 EQTransformer 高 0.02。
- 原因:
- GPD、PhaseNet 和 DPP 仅基于“1 - 噪声概率”进行事件检测,不依赖 P/S 波标注,因此在 ETHZ 数据集上表现更稳定。
- CRED 和 EQTransformer 依赖 P/S 波标注进行事件检测,但 ETHZ 数据集中部分波形缺少 P 或 S 波标注,影响检测性能。
(4) EQTransformer 在 LenDB 和 GEOFON 数据集上的优势
- 在 LenDB 和 GEOFON 数据集上,EQTransformer 优于 PhaseNet。
- 原因:
- EQTransformer 采用 Transformer 结构,能够建模 长时间窗口(60s),适用于远震检测。
- GEOFON 数据集包含远震事件,信号频率较低,EQTransformer 的 长感受野(long receptive field) 可以更好地捕捉低频信号。
影响模型表现的因素
影响因素 | 描述 |
---|---|
信噪比(SNR) | 低 SNR 数据集更难检测,AUC 评分更低 |
数据集标注方式 | 标注者不同,可能导致标注不一致,影响模型学习 |
数据质量控制 | 不同数据集质量控制不同,可能影响训练数据质量 |
模型输入窗口 | 长窗口(EQTransformer)适用于远震,短窗口(GPD)适用于本地地震 |
结论
- PhaseNet 在整体检测任务中表现最佳,适用于高信噪比、短时窗口的事件检测。
- EQTransformer 在远震检测任务中表现更好,适用于低频信号的震相识别。
- CRED 适用于本地和区域地震检测,但在远震数据上略逊于 EQTransformer。
- GPD 和 DPP 在部分数据集(ETHZ)上表现较优,因其检测基于噪声概率,避免了 P/S 波标注缺失的影响。
- 模型性能取决于多个因素,包括数据集特性、信噪比、输入窗口长度以及模型架构。
3.2 任务2 —— 事件检测
1. 评估方法
- MCC(Matthews 相关系数) 用于衡量震相识别任务的准确性。
- MCC 适用于类别不均衡的情况,比 F1 或 AUC 更稳定。
任务难度分析
数据集 | 平均 MCC | 任务难度 |
---|---|---|
区域数据集(ETHZ, SCEDC, LenDB, INSTANCE, Iquique) | 0.90 | 较易 |
NEIC | 0.83 | 中等 |
GEOFON(远震数据集) | 0.54 | 较难 |
主要结论
- EQTransformer 和 PhaseNet 由于长时间窗口,在震相识别任务中表现最佳。
- 远震数据集(GEOFON)上的模型表现较差,主要由于信号低频特性 和 S 波数据稀缺。
- BasicPhaseAE 训练数据不足,几乎无法学习有效的震相信息。
3.3 任务 3 —— 震相到时拾取 (Onset Time Determination)
1. 评估方法
- 使用 RMSE(均方根误差)和 MAE(平均绝对误差)评估震相拾取误差:
- RMSE 衡量模型的整体误差。
- MAE 衡量模型的平均绝对误差,受异常值影响较小。
- 分析 P 波和 S 波的拾取误差,观察不同模型在不同数据集上的表现。
2. P 波拾取表现
- PhaseNet 在多个数据集上表现最佳,P 波拾取误差最低(MAE < 0.2s)。
- EQTransformer 在 GEOFON 数据集上表现较好(MAE 0.42s),可能因其较长感受野适用于远震信号。
- NEIC 数据集上的 EQTransformer 结果异常,需要排除,因为震相标注位置固定,导致模型只需输出固定位置即可得到低误差。
3. S 波拾取表现
- PhaseNet 仍然在大部分数据集上表现最佳,适用于本地和区域地震。
- GPD 在 GEOFON 数据集上的 S 波拾取误差最低(MAE 0.71s),比 EQTransformer 和 PhaseNet 更优,可能是因为 S 波信号较弱,GPD 短窗口 CNN 更适用于高频震相。
- S 波拾取误差通常比 P 波误差高 25%-60%,主要原因:
- S 波信号较弱,容易受路径效应影响。
- 低频震相更难精准拾取。
4. 误差分析
- 远震数据(GEOFON, NEIC)上的拾取误差显著高于本地地震:
- 远震信号低频、渐进,导致拾取难度增加。
- 信噪比较低,影响模型性能。
- INSTANCE 数据集的 S 波误差比 P 波低,可能是 S 波标注质量较高。
- NEIC 数据集的 S 波误差比 P 波低,可能是 S 波主要在高信噪比环境下被拾取。
5. 残差分布分析
- 所有深度学习模型的误差分布大致符合拉普拉斯分布:
- 中心误差接近零,但仍存在异常值。
- 部分模型误差分布比其他模型更集中,说明模型较稳定。
- Baer-Kradolfer 传统方法的误差分布与深度学习不同:
- 误差分布非对称,偏向拾取偏晚,因为它只能检测信号能量增加的时刻。
- 相比深度学习方法,异常值比例更高。
3.4 任务 4 —— 跨域性能 (Cross-Domain Performance)
1. 评估方法
- 交叉评估(Cross Evaluation):
- 每个训练好的模型都会在未参与训练的测试数据集上进行评估,测试模型的 泛化能力。
- 总共 336 组测试结果(# 模型 × # 训练数据集 × # 目标数据集)。
- 主要评估任务: 事件检测(Task 1);震相识别(Task 2);震相到时拾取(Task 3)
2. 主要发现
(1) 震中距相似的数据集,跨域泛化较好
- 如果训练数据和目标数据的震中距相似(例如区域地震数据集之间迁移),模型通常仍能保持较好的性能。
- 但性能通常低于同域测试(in-domain performance)。
(2) 区域数据集 → 远震数据集,泛化能力较差
- 区域地震数据集(Regional)训练的模型在远震数据(Teleseismic)上完全失效:
- 例如,在 任务 1(事件检测) 中,没有任何在区域数据集上训练的模型能在 GEOFON 数据集上获得 AUC > 0.77。
- 相比之下,同域测试(GEOFON 自身)AUC 介于 0.85-0.99,显示出 显著的性能下降。
(3) 远震数据集 → 区域数据集,泛化能力较差但比反向迁移稍好
- 远震数据集训练的模型在区域数据集上的性能下降:
- 但 比区域数据集 → 远震数据集的下降幅度稍小。
- 原因可能是:
- 远震数据集(如 GEOFON 和 NEIC)仍然包含部分区域性数据,因此模型能部分适应。
(4) Iquique 和 LenDB 训练的模型跨域性能最差
- Iquique 训练的模型泛化能力较差,可能因为数据集规模较小,容易过拟合。
- LenDB 训练的模型泛化能力较差,可能因为震相拾取点是基于计算走时,而非人工标注,导致数据集存在系统性偏差。
(5) NEIC 和 GEOFON 数据集训练的模型表现出系统性偏差
- 在 NEIC 训练的模型在 GEOFON 数据集上 P 波拾取系统性偏早。
- 在 GEOFON 训练的模型在 NEIC 数据集上 P 波拾取系统性偏晚。
- 可能原因:
- 不同地震台网(NEIC vs. GEOFON)采用了不同的震相标注标准,导致跨域测试时的误差偏差。
(6) INSTANCE 训练的模型在所有任务中表现最佳
- INSTANCE 数据集训练的模型在事件检测、震相识别、震相拾取任务中表现最优,显示出最好的泛化能力。
- 可能原因:
- INSTANCE 数据集包含更多样本(每个事件 21 个波形,STEAD 仅 2 个),提高模型的泛化能力。
(7) STEAD、SCEDC、ETHZ 训练的模型在事件检测任务中表现相近
- 这些数据集的 数据特性相似,模型在跨域测试时性能下降较小。
3. 震相拾取误差分析
-
在跨域测试中,模型的震相拾取误差分布与数据集特性相关:
- NEIC 训练的模型在 GEOFON 上拾取 P 波偏早,而 GEOFON 训练的模型在 NEIC 上拾取 P 波偏晚。
- 可能是数据集的人工标注方式不同,导致模型学习到了系统性偏差。
-
事件检测任务中的模型性能下降幅度较大:
- 训练数据集的特征不同,导致模型在新数据集上无法正确识别事件。
-
震相拾取任务中,数据增强(Data Augmentation)有助于提高泛化能力:
- EQTransformer 训练过程中使用的数据增强(时间偏移、噪声扰动等)确实部分缓解了固定震相位置带来的过拟合问题。
4.Discussion
4.1 模型在波形示例上的比较总结
主要发现
- INSTANCE 数据集的 P 波标注偏晚 0.5 秒,深度学习模型学到了更一致的拾取标准。
- ETHZ 数据集上的 DPP 过早拾取震相,可能是 预测曲线过早跃升。
- GEOFON 训练的模型在远震数据上的 P 波拾取误差低于 0.2 秒,表现良好。
- INSTANCE 训练的模型无法泛化到远震数据,拾取震相完全随机。
4.2 采样率调整的跨域应用
主要发现
- S 波检测任务在降采样后未见显著性能提升。
- 原始模型对 S 波的检测性能已经较好,因此降采样影响较小。
- S 波标注数据主要集中在信噪比较高、震中距适中的情况,因此天生误差较小。
- S 波的振幅谱在区域数据和远震数据中的差异较小,而 P 波的频谱变化更大。
主要结论
- 降采样对 S 波拾取的影响较小,可能不如对 P 波拾取重要。
- P 波的频谱变化更大,因此降采样对 P 波拾取有较大影响,而 S 波在不同数据集中的频谱变化较小。
- 未来可以探索其他方法来优化 S 波拾取,而非单纯降低采样率。
4.3计算需求 (Computational Demand)
计算资源与硬件环境
- 所有模型均在相同的计算环境下训练:
- Nvidia A100 GPU(40GB 显存),确保基准测试的公平性。
- 显存占用情况:
- 除 DPP(LSTM)和 GPD(滑动窗口方法)外,所有模型显存占用均低于 10GB(batch size = 1024)。
- LSTM 计算需求较高,存储长序列时占用较大显存。
- GPD 采用滑动窗口(sliding window approach),需要多次计算,导致显存需求更高。
计算瓶颈分析
- GPU 计算受限(GPU-bound):
- EQTransformer、DPP 拾取器(DPP picker networks)、CRED 主要受 GPU 计算能力限制,GPU 利用率接近 100%。
- GPD 在推理阶段同样受 GPU 计算能力限制,但由于滑动窗口方法,推理速度仍然较慢。
- CPU 或内存带宽限制(CPU/memory bus bound):
- BasicPhaseAE、PhaseNet 等模型 GPU 负载远低于 100%,说明可能受到 CPU 或内存带宽的限制。
5.开放问题
本章探讨了本研究的局限性,并提出了未来研究需要解决的关键问题,包括 连续数据分析、实时检测、数据集多样性、不同类型地震信号、传感器影响 以及 迁移学习的应用。
5.1 研究局限性
1. 事件驱动分析 vs. 连续数据分析
- 本研究主要基于事件驱动分析(event-based analysis):
- 仅测试了模型在预选时间窗口内的性能,而未测试模型在连续数据流中的表现。
- 连续数据分析(continuous data processing)存在不同的挑战:
- 误报率(false positive rate)需要降低,因为只有少数时间窗口包含真实震相。
- 窗口可能包含多个震相拾取点(multiple picks),尤其在 密集余震序列(aftershock sequences) 中。
2. 真实应用中的实时检测
- 当前研究仅评估了模型的后处理能力(post-processing),未考虑实时检测能力:
- 模型是否能尽早拾取震相?
- 计算速度是否足够快以用于地震预警(early warning)?
- 未来研究应关注模型的实时检测延迟(latency)和可靠性。
5.2 未来数据集的构建
1. 需要涵盖更多类型的地震信号
- 当前研究主要关注自然地震(tectonic earthquakes),但机器学习也可用于:
- 诱发地震(induced seismicity)
- 矿爆(mine blasts)
- 火山信号(volcanic signals)
- 目前缺乏一个系统性的、标准化的基准测试数据集:
- 需要构建包含多种地震信号类型的数据库,并提供详细的元数据(metadata)。
2. 不同类型的地震仪器
- 当前研究主要使用短周期(short-period)和宽频带(broadband)地震仪数据,但仍存在其他设备:
- 地震检波器(geophones):适用于浅层震动监测。
- 海底地震仪(ocean bottom seismometers, OBS):适用于海洋地震研究。
- 加速度计(accelerometers):适用于强震监测。
- 分布式声学传感(distributed acoustic sensing, DAS):利用光纤进行大规模地震检测。
- 未来研究应测试不同类型地震仪数据上的模型适应性。
3. 震相记录类型
- 本研究主要分析了三分量数据(three-component recordings):
- 包括 垂直分量(Z) 和 两个水平分量(N, E)。
- 某些仪器仅具备单分量(single-component),或者包含额外传感器(如压力传感器、旋转传感器):
- 未来研究应评估这些额外数据对模型性能的影响。
5.3 迁移学习的应用
1. 迁移学习可提高跨域泛化能力
- 跨域应用(cross-domain application):
- 在一个数据集上训练的模型,应用到另一个数据集时,性能可能下降。
- 迁移学习(transfer learning)可用于提高跨域泛化能力。
2. 迁移学习的优势
- 相比随机初始化(random initialization)训练,微调预训练模型(fine-tuning pretrained models)表现更优:
- 减少过拟合,提高模型在小规模数据集上的性能。
- 比直接应用预训练模型更能适应目标数据。
3. 迁移学习在地震学中的应用
- 近年来,迁移学习已成功用于多个地震学任务(Chai et al., 2020; Jozinović et al., 2021; Münchmeyer et al., 2021)。
- 未来研究方向:
- 探索最佳的预训练数据集(不同区域 vs. 远震数据)。
- 研究不同迁移学习方法(如冻结部分参数 vs. 全局微调)。
4. 公开模型权重
- 本研究已公开所有训练好的模型权重,可用于:
- 进一步研究迁移学习方法。
- 实际应用者在自己的数据集上微调模型。
5. 适用于小规模数据集
- 迁移学习特别适用于数据有限的情况(约 10,000 个事件):
- 直接训练可能会过拟合,而迁移学习可提高泛化能力。
第六章 结论与建议 (Conclusions & Recommendations)
本研究对 六种深度学习模型 在 地震检测(earthquake detection)、震相识别(phase identification)和震相拾取(onset time determination) 任务上的性能进行了系统评估。研究涵盖 本地/区域地震(6 个数据集)和远震(2 个数据集),并分别测试了 同域(in-domain)和跨域(cross-domain)性能。本章总结了主要研究发现,并对未来研究和应用提出建议。
6。研究结论
** 基准数据集的重要性**
- 模型的性能不能直接跨数据集比较:
- 不同数据集的特性(数据选择、质量控制、内部一致性)会影响模型表现。
- 事件检测(Task 1):
- 受测试数据集影响较大,因为 不同数据集的震相事件密度、噪声水平不同。
- 震相拾取(Task 3):
- 受训练数据集影响较大,因为 模型需要学习精准的震相拾取规则。
研究贡献
1. 公开模型权重
- 本研究通过 SeisBench 框架公开所有数据集和模型组合的训练权重:
- 可供实际应用者自动震相拾取。
- 可用于进一步研究,如迁移学习(transfer learning)和模型优化。
2. 推荐决策阈值
- SeisBench 提供推荐的决策阈值(decision thresholds):
- 适用于不同应用场景(实时检测 vs. 后处理分析)。
- 用户可根据实际需求进行调整。
主要结论
-
PhaseNet、EQTransformer、GPD 在地震检测和震相拾取任务中表现最佳:
- PhaseNet 综合表现最优,适用于本地、区域和远震检测。
- EQTransformer 适用于远震数据,但需要避免 NEIC 训练的固定拾取位置问题。
- GPD 事件检测能力强,但推理速度慢,仅适用于计算资源充足的环境。
-
训练数据集的选择至关重要:
- STEAD 和 INSTANCE 适用于本地/区域地震检测。
- 远震数据训练的模型泛化能力较强,但本研究未能提供明确的远震数据推荐。
-
迁移学习可以进一步优化模型性能:
- 通过微调预训练模型(fine-tuning),提高小规模数据集上的泛化能力。
-
计算需求影响模型的实际应用:
- PhaseNet 和 CRED 计算需求较低,适用于实时应用。
- GPD 计算需求最高,推理速度慢,适用于小规模数据集。
-
未来研究应优化模型的跨域泛化能力,改进数据集质量,并提升推理速度。