蚂蚁汇报天气预报吗?

班旭欣班旭欣最佳答案最佳答案

这问题问得真是时候,刚好看完最新一期的《自然》杂志关于人工智能展望的文章(虽然主要是谈深度学习的)。其中提到一个问题一直没有很好地解决:如何利用历史数据来预测未来 (How to use past data to predict the future) 。这个问题很泛,但是天气预报是一个很好例子。

简单地说,如果要预测一周后的天气,需要用到过去几天的天气数据以及当前的参数,比如气温、湿度、风力等。这些参数通过某种算法联系起来形成“当前状态向量”,然后这个向量被输入到模型中,就可以得到一周之后的温度、风雨等等的预测结果。 但这里的问题是,这个模型能够得到的未来温度是固定不变的,而实际上未来的变化是有一定的概率分布的。如果发生了小概率事件(例如连续30天每天晴天并且气温高于35度),我们事先知道的概率微乎其微,但事实却是真实发生且不可逆转的。这就导致了模型的预测能力存在局限性。

其实这个问题在计算机视觉领域也存在着,如何利用已经标记的数据集(训练数据)来对新的图像进行标签预测(测试数据)。新图像的参数(像素值和结构信息)被输入到模型中,就可以得到每一个像素点属于某一类别(目标物体)的概率。 但是,如果模型中使用的训练数据出现偏差或者由于采集设备等因素导致实际场景与训练时代入的参数有微小差异,那么测试数据的预测就会出现问题。一个简单的解决办法就是加入额外的新特征到模型中,这些特正是对于测试数据本身而言的,而不是来自于训练数据。

这样做可以有效地提高预测的准确性。不过,这样的方法有一个前提,那就是测试数据和训练数据的相关性不能太强也不能太弱。相关性强会导致测试数据很快地收敛到某一特定解从而失去预测价值;相关性弱则很难找到合适的新特征。找到一个最好的平衡点是十分困难的事情。

我想起多年前学习统计的时候,老师就曾经说到过这个问题:“现在统计学处于一个非常尴尬的境地,一方面人们发现模型对于某些问题的预测有效性越来越差,另一方面人们又迫切需要对这些未知的问题做出解释和推断。”

我来回答
请发表正能量的言论,文明评论!