邓白氏高级副总裁兼首席数据学家

在数据科学中,“异常”一词通常指与预期不一致的数据。但在当今世界存在着海量的数据,前所未有的全球性事件,以及颠覆性的技术应用,寻找“异常”绝非易事。

什么是异常:定义数据中的异常

基于属性的检测是最基本的异常检测方式。我们先定义所查找事物的属性,再找出与该属性相距甚远的事物。譬如,在生产流程中,定义的检测方式可通过找出超出容许值的产品来发现生产线上的不良品。这种定义检测方式有效,但事实证明我们可以做得更好。 举个例子,假设我们要制造一定长度的圆线,在理想制造环境中,如果该线太扁、太短或太长,并且与规格标准之间的偏差超过容许值,我们可利用异常来剔除该线。但这种检测方式存在的问题是,我们是在成品后寻找不良品,此时干预已为时过晚。实践证明,我们可以在生产过程中,在该线开始拉长或偏斜,但还未超出容许值前就发现它,并在第一时间进行干预以避免生产出不良品。

寻找不同的异常可能更有效。二次测量(变化速度、数据来源的特征)在检测我们可能会发现异常的环境中非常有效。

“我们必须继续提高【异常检测】能力,以保持与越来越海量的数据和更加颠覆性的技术发展同步。”

现代的异常检测方法极其复杂。可能涉及到数以千计的属性,并且需要考虑数据的多重维度。异常可能与脱离目标函数有关(譬如回归方法),也可能是基于学习和启发(譬如非回归、递归、或认知方式)。

在现代商业领域中有许多场合,数据异常检测至关重要。例如:旨在比竞争对手更快地发现机遇的应用。除股市和商品市场、药物研究、和数据中的异常检测技术已活跃了很长时间的其它领域外,还有许多令人激动和尚未开发的领域需要寻找异常。譬如,异常检测目前正被用于社交聆听,以帮助企业了解品牌认知的微妙变化、营销活动的有效性及竞争焦点。

异常检测还以许多令人兴奋的方式被用于风险领域。传统应用包括取证、信贷管理和执法。最近,异常检测更因被运用在发现新型网络威胁及反恐而受到巨大关注。异常检测为我们发现新风险和新机遇提供了途径。我们必须继续提高自身的技能,以与越来越海量的数据和更加颠覆性的技术发展保持同步。最重要的建议是,继续重新评估正在寻找的异常是什么,以及环境是如何变化的,同时还要不断挑战自我,始终坚持“没有最好只有更好”的原则。

异常中也有异常:异常检测的挑战

现在有许多商用的开源工具可帮助进行异常检测。然而,在使用这些工具进行检测前,我们必须考虑下,哪些环境因素可能导致异常检测不太有效。

我们再以圆线生产举例,如果我们在查看过程数据时发现,虽然我们所生产的是良品,但数据有时趋向于容许值的下限,而有时又趋向于容许值的上限。针对这种情况,可能有两个根本原因。第一,可能存在多模态效应,从本质上讲,是数据中显现出两种以上分布。譬如,如果该过程是在两个班次中完成的,并且一个操作员所用的设备与另一个操作员不同,就会出现这种情况。第二、可能与分析师直接相关。数据中可能包含未测量的参数(譬如环境温度),它在与原始数据一起进行测量和考量时,可解释过程变异。当然还可能存在其他多种原因,但这两个原因分析足以说明异常检测和干预过程并不简单,通常需要专业的建议。

许多数据的变异属性会破坏异常检测,包括大数据的(VOLUME)、变化速度(VELOCITY OF CHANGE)、种类(VARIETY)、不同内在价值(DIFFERING INTRINSIC VALUE),以及不一致的真实性(INCONSISTENT VERACITY)。所有这些都会给检测异常的工作带来挑战。以量(volume)为例,如果我们是在数量庞大并且不断增长的数据中寻找极少发生的异常,譬如:在宇宙中寻找暗示智能生命的电磁信号标志,那么发现异常是不成问题的。但是在一片充满“噪声”数据的海洋中寻找异常,本身就是个巨大的挑战。和大海捞针不同的是,这种问题通常被比喻成在一堆针中寻找一根特殊的针。

挑战异常检测的另一个因素是变化。无疑,我们所生活的时代不仅在技术及它产生的数据方面有颠覆性的变化,世界本身及它产生的数据也在发生翻天覆地的变化。过去的许多方法论,譬如回归法和整个数据集的详尽分析,在巨大的颠覆性变革面前失效或者完全不合时宜。同样需要注意的是,有时数据变化是流行性的,而有时异常检测工作本身也会诱发变化。数据中所谓的“观察者效应”对于异常检测的挑战尤为显著。譬如,在侦察罪犯时,他们在意识到自己可能被侦察时可改变自己的行为。

异常检测不是一个只需按下按钮的工作。关键需要考虑环境和行为因素,并请专家参与建立有适当稳定性的流程。

异常尚未到来:异常检测的未来

到目前为止,我们已了解了如何去了解和定义异常,以及可能让这个过程变得更复杂或更混乱的一些因素。而未来似乎还有更多惊喜等着我们,毕竟,不断涌现的新技术和行为会在未来制造出新的异常类型。

以量子计算为例。在传统的数字化计算中,信息是以比特为单位存储的,它要么是0要么是1。但在量子计算中,信息是以量子比特为单位存储的,它基本上可以是0和1之间的任何数字(包括复杂数字)。在当今的量子计算机中,量子比特是很有趣的东西。量子算法不适用于所有问题,但它对于特定类型的问题大有可为。如何在本身只能在复杂且通常是概率性的模态中进行理解的数据中寻找异常?如何在一系列全都不寻常的数据中发现不寻常的东西?这个解释有意地简单化了,但即便如此,我们还是很清楚,量子化异常检测需要一些在当代计算机科学中尚未成熟的新词汇和流程。对于由未来的量子化环境产生的数据,我们在思考其关注点应该在何处时,必须在思维和行为上打破传统。

物联网(IoT)是未来异常的另一个更为离散的示例。 今天,物联网设备很大程度上是回应控制或接收数据的应用程序。未来,随着IoT变得更为自主、更多的自我发现、及更高性能,异常检测就只能通过观察瞬息万变的系统来进行了。就像是了解活体生物中的疾病一样,未来IoT中的异常检测可能需要了解体征和症状及临床干预才能找到最好的治疗方法是什么。

新技术和新行为正在迅速地改变先进异常检测领域。这些方法和理解必须继续以我们尚未完全理解的方式进行改进。这个领域为计算机和数据科学打开了一个新的未知领域。

异常对于我们未来了解越来越多的数据和瞬息万变的环境至关重要。随着我们继续以可以说是无法计量的速度制造数据,我们必须思考如何识别出不同、异常或可疑的数据。我们的未来取决于我们能否学习以新的方式去了解我们所创造的数据和如何使用数据。