无论人们对人工智能(AI)的看法如何,它对日常生活的影响是显而易见的。无论是使用谷歌地图的实时处理能力来寻找回家的最佳路径,还是利用机器学习来实现自动化决策并防止产生延迟,人们都越来越依赖于人工智能。
但是,无论基于人工智能的智能工具是什么,其效率都会受到提供数据质量的限制。而且,在信息过载的时代,其标准是多种多样的。
早在2014年,调研机构IDC预测到2020年全球数据量将达到44ZB。数字化以极快的速度发展,其最近的估计表明,到2025年,全球年度数据生成量将达到惊人的163ZB。在数据生产不断升级的情况下,许多公司都在努力提取有价值的洞察力,并且数据质量可能很低也就不足为奇了。这对人工智能来说并不是个好兆头。正如Thomas C. Redman在其所撰写的数据文档”(Data Doc)所说的那样:“质量差的数据是利用机器学习的头号敌人,当然还有人工智能。”
那么,企业可以采取哪些措施来确保人工智能技术不受其输入的影响?简短的回答是只为具有智能数据的机器提供数据。另一个答案是学习如何从坏数据中辨别出好数据。
利用数据的好处
尽管当今日益庞大的信息为组织带来了巨大的挑战,但仍有可能获得干净、可靠和无偏见的数据。所有组织必须做的是在他们拥有和收集的数据中寻找以下五个关键特征:
(1)符合GDPR标准
首先,企业应该避免采用任何不符合隐私法规的数据集,尤其是欧盟实施的《一般数据保护条例》(GDPR)。除了在处理不合规数据时可能产生巨额罚款的明显缺点之外,不符合GDPR规则的信息也可能质量较差。毕竟,该法规不仅增强了消费者的权利,而且更加强调了认可和准确性,特别是在确保数据是最新的时候。
(2)正确的数据
接下来,正确的数据至关重要。更具体地说,它应该被正确标记(没有误导性描述),是最新的、无欺诈的、不重复的。当然,所需的准确度取决于其预期用途。例如,人工智能营销机器人根据客户的位置与客户交谈可能不需要精确的坐标,只是想知道他们居住的街道、城镇或城市。另一方面,使用数据为自动驾驶汽车提供动力的人工智能需要对道路布局以及如何在各种交通情况下做出反应进行细致的了解。
(3)一致的数据
在市场上有很多系统收集相同类型的数据源。无论哪种类型的平台都在收集数据或存储数据,数据都不应与不同平台持有的同一源点的其他数据相矛盾。人工智能只能通过不断重复提供高质量数据和消除妨碍效率的差异来进行实时培训。收集的数据太快或太晚都可能歪曲事实,并导致不准确的决策。
(4)实时收集
在快速移动的现代数据世界中,无法立即获得的数据几乎肯定是多余的。例如,消费者参与数字广告的分析目前是最有用的,这将允许营销人员实时识别个人喜欢什么,并调整消息传递以驱动最佳响应。这使得数据立即被收集、混合并转化为可操作的洞察力至关重要。
(5)完整和细化
为了做出有效的决策,人工智能算法需要所有相关的信息,这意味着它们需要访问整体的、完整的数据集。例如,旨在提供量身定制的跨渠道客户服务的智能系统将无法实现这一目标,除非他们拥有涵盖客户关系管理系统(CRM)、社交媒体、零售商店和网站的具有洞察力的360度个人视图。这使得数据必须存储在一个集中式存储库中,而不是单独的孤岛,其中与特定个人、项目或产品相关的信息是相互关联的。
如今,数据被描述为比石油更有价值,但与石油不同,数量更多却不能提供更多的财富。因此只是收集尽可能多的数据是不够的:如果要提供真正的价值,质量也必须很高。在为人工智能提供数据时,这意味着驱动算法的洞察力需要很高的标准,这不仅在合规性方面,而且在准确性、一致性、集成、可用性方面都是如此。
人工智能的未来究竟是什么可能尚不清楚,但可以肯定的是,那些明智地选择数据的组织,以及那些负责任地管理数据的组织,将需要挖掘其全部潜力。