追逐风暴数据:机器学习在美国寻找有用的数据雷阵雨报道

一场雷暴的架子云接近买球app。

一场雷暴的架子云接近买球app。 更大的照片。 照片由bill gallus拍摄。

 

艾姆斯,爱荷华州 - 众所周知,比尔加里斯追逐一两个夏季风暴。但他没有必要追求这一个。

2019年7月17日,一场雷雨袭击了买球app校园。 gallus,一位教授 地质和大气科学,走到农学院办公室上面的屋顶。他没有忘记一台相机。

他的一张照片显示了一个标有严重雷暴风的边缘的架子云。云的独特线条将照片分成两半,低,锐利和气势,这里没有蓬松。在他办公室外常常忙碌的奥斯本开车大多是空的 - 街上的一些人转向西北偏北,盯着风暴。

“架子云的平滑度和低仰角使它成为令人印象深刻的观察景象,”gallus在照片描述中写道。 “随着雷暴中快速移动的冷空气蔓延开来,它迅速升起温暖潮湿的空气。”

我们都看过几十场雷暴。和 国家气象服务 尽职地保存每个记录,并在风暴报告数据库中对其强度进行分类。例如,为了使雷暴标记为“严重”,它必须产生龙卷风,冰雹直径大于1英寸或风速大于58英里/小时。

但是大多数雷暴都不会因管乐器而发出隆隆声。因此,气象学家根据风暴造成的风力估算,如树木倒塌,屋顶被吹走或被推倒。大部分时间,当报告这种风损害时,雷暴只是被归类为严重,没有真正的测量支持指定。

这对于像gallus这样的研究人员来说是一个问题,他们需要良好的数据来帮助他们开发更好的方法来预测严重的局部雷暴。

 

一个大数据问题

当来自爱荷华州理论和应用数据科学研究小组的校园同事谈到机器学习时,他认为该技术的数据分析能力可以帮助他研究和分析风暴报告数据库。也许计算机可以在报告中找到可能导致新预测工具的关系或联系?

好吧,没那么快,科学家说 国家海洋和大气管理局(noaa).

由国家环境信息中心维护的现有严重雷暴数据库对于寻找风数据的其他研究人员来说并没有多大用处。风报告不可靠。报告需要在对严重风力研究有用之前进行清理。

研究小组
研究人员,从左到右,somak dutta,詹妮弗纽曼,
ranjan maitra,eric weber,bill gallus,elizabeth tirone和
subrata pal。 更大的照片。

这就是爱荷华州和数据科学家团队将要做的事情。他们将使用计算机和机器学习工具来搜索报告并确定每个报告实际描述雷暴风暴的可能性。

这是一项不小的任务 - 加利斯说科学家将从12年的严重雷暴报告开始。这大约是180,000。

“这180,000份报告中有90%包含风估计,”加利斯说。 “它们不是基于气象站的数据。他们中的大多数人都说树木或四肢向下 - 有人打电话说,'我的树被吹倒了。'“

对这些报告进行分类会给数据研究人员带来各种各样的挑战,项目合作者,爱荷华州教授埃里克·韦伯说。 数学.

首先,他说这些报告充满了人们收集的数据,而不是精确而精密的工具。报告还包含自然的日常用语。有机器学习软件需要分析的习语,短语甚至拼写错误。

第二,雷暴非常复杂。有许多变量 - 上升的空气温度,冷凝,降雨,闪电等 - 必须收集,量化和分析,以了解风暴。

韦伯 - 他将机器学习描述为一种人工神经网络,“基于其可用的信息建立联系” - 称计算机软件可以处理大量风暴数据,这些数据将压倒人群。

机器学习软件也以非人类的方式做到这一点。

“当我们查看数据时,我们试图将数据理解为人类,”韦伯说。 “我们带来了我们的看法和偏见。现在成功使用机器学习的一个主要原因是它没有将先入为主的观念带入其对数据的分析。

“由于他们的先入之见,它可以找到人类无法做到的潜在关系。”

 

为了更好的预测

随着计算机在风暴报告方面取得进展,gallus表示他将在noaa的年度提供更新和演示,为期数周 危险天气试验台 在诺曼,俄克拉荷马州。测试平台是在龙卷风季节期间,是研究人员和预报员使用最新预测思想,工具和技术的机会。

gallus希望展示雷暴风研究的进展。他会收集反馈和建议。所有这一切最终都会导致一种新的预测工具,预测雷暴会产生强风的可能性。

“现在对noaa的主要需求是清理数据库以进行更好的研究,”gallus说。 “但我们已经意识到,如果这个项目与机器学习相得益彰,我们可以看到它如何作为预测工具。”