本文作者

Jonathan James Cramer

邓白氏 内容总监

对于客户细分、合规和风险管控等许多部门而言,准确的企业职能识别至关重要。 然而由于数据缺乏全球统一标准且存在大量变量,并迅速堆积,长期以来为整个商业世界带来了一系列困扰。 随着人工智能 AI 的技术进步,邓白氏开始运用这一创新的方法解决几十年来的顽疾。



何为SIC代码

SIC 是标准产业分类代码的简称,英文全名为Standard Industrial Classification,由四位数字组成,由美国在20世纪30年代创立,并逐渐获得其他国家的认可。 但遗憾地是未能成为全球标准。 除SIC外,在全球范围内还有另外两种代码标准被不同的国家和场景所采用,分别是NAICS和NACE。 NAICS 是North American Industry Classification System北美行业分类标准的英文缩写, NACE 是由欧共体建立的经济活动统计术语,是认可业务范围分类方式的标准。 邓白氏的产品中也采用了这三种代码,但这三种代码标准互不统一,因而导致了一些问题。 我们无法简单地将这三种代码标准进行一对一映射,因为这会造成准确性损失和粒度的降低,进而导致难以有效地共享和分析数据。

不同标准是否会统一?

为提高SIC数据质量,邓白氏对其进行了独立研究,并在1987年修订版SIC的基础上添加了一项专有扩展。 因为SIC建立年代久远,经济也在不断发展,当SIC的四位代码无法适用时,邓白氏会利用产业代码模型来分配一个代码。 尽管SIC建模显著改善了分配情况,但异常依然存在。 因此,  在经过仔细斟酌和客户调研后,邓白氏决定检验人工智能(AI)能否改善SIC代码分配与准确性。

神经网络建模的”美丽新世界“

邓白氏采用机器学习中的神经网络建模方法,并使用基本的公司注册ID信息、SIC UK2007描述以及从网络中挖掘的数据,进行概念验证。 人工智能系统能读取并整合邓白氏专有和开源的、有关各个企业的大量信息。 在对所有依据进行权衡之后,该系统会生成一个信心指数,以反映对每个决策的信心。

邓白氏设计了持续改进程序和质量保证QA工具来确保该过程始终处于学习状态,输入数据有助于“教”机器学会“人工介入”流程。 截至目前,运用神经网络建模的方法已经产生了670万个新分配的或者经验证的UK SIC代码。 同时,数据库范围也在不断扩大,持续改进程序更被应用到了美国数据库。

结果证明了一切:

  • 覆盖范围得到改进 = 新分配了430万个SIC代码

  • 准确性得到改进 = 120万条企业记录得到验证

  • 完整度得到提升= 150万条企业记录的完整度得到提升


随着这一模型的精进,产生了越来越多的隐性数据集(交易数据和社交媒体源),因此,机器学习让我们能够通过关系等隐性洞见来识别产业活动。

运用人工智能AI改善了数十年来困扰着整个商业世界的顽疾,提升了邓白氏交付给客户的数据质量。 但这仅是个开端,随着大数据处理和更多开放数据的普及,将会展现更多的改进。 人工智能AI在邓白氏的应用,最终将扩展至风险管理、销售和营销、主数据管理等多重领域。

随着技术的进步,人工智能(AI)将被广泛地运用,分析师们预测人工智能(AI)将可以轻松处理众多数据来源,从而帮助企业做出更明智的决策