数据中台与 AI:断层困境与转型展望

来源:onlycj.com 2024-12-09 19:25:15 所属栏目:行业观察

数据中台与 AI 究竟存在何种关联?Data4AI 意义重大,可它又与数据中台有着怎样的羁绊?自 2022 年末起,大模型如风暴席卷全球,AI 仿若雷军所言,再度成为众人瞩目的顶级风口,引得各方竞相逐鹿。

本文大概

读完共需

分钟

在与一位客户的交流中,我遭遇了一个看似基础却颇具深度的问题:数据中台与 AI 究竟存在何种关联?Data4AI 意义重大,可它又与数据中台有着怎样的羁绊?自 2022 年末起,大模型如风暴席卷全球,AI 仿若雷军所言,再度成为众人瞩目的顶级风口,引得各方竞相逐鹿。“AI+” 俨然成为所有 “创新型”“科技类” 企业的标准配置,上至企业高层,下至一线员工,倘若言谈间未涉及 AI,仿佛便已落后于时代潮流。这一场景不禁让我回想起数年前的数据中台,彼时它亦曾站在浪潮之巅,成为各大企业竞相追捧的热点,而如今,曾经的王者已现颓势,新的王者 AI 则朝气蓬勃,满溢无限希望与可能。

一、数据与 AI:数智时代的核心引擎

于当今数字化浪潮之下,数据与人工智能(AI)这两大关键要素正以前所未有的迅猛之势深刻重塑着企业的业务模式与发展轨迹。众人皆言 AI 代表着未来,实则其发展上限早已被数据所牢牢框定。打个比方,数据宛如 AI 的生命血液,其质量优劣、丰富程度以及多元性直接决定了 AI 能够前行多远、奔跑多快。真正意义上的智能化实现,绝非仅靠强大的算力或者复杂精妙的算法便可达成,优质且充足的数据才是重中之重。

(一)数据:AI 上限的决定性因素

我们对于 AI 的期望往往聚焦于其 “聪慧” 程度,诸如能否精准识别图像细节、能否透彻理解人类语言、能否精准预测复杂业务走向等等。然而,在这些能力背后,无一不深深依赖于数据的有力支撑。试设想一下,若以杂乱无序、充斥噪声的数据去训练 AI,恰似以杂质颇多的燃油驱动高性能引擎,非但难以企及理想成效,反而极有可能事与愿违。尤其在近年大模型蓬勃兴起之际,AI 对于数据质量的苛求达到了前所未有的高度。一方面,大规模模型的训练需要海量且多样的数据作为基石;另一方面,模型的智能化水平又对数据的精确性与完整性提出了近乎严苛的要求。一旦数据存在偏差、谬误或者缺失,这些问题便会在训练进程中被无限放大,进而对模型的最终表现产生严重的负面影响。换言之,AI 的表现恰似一面镜子,如实映射出企业数据的质量状况。故而,企业务必从数据治理的每一个细微环节入手,全力确保数据的高质量水准。无论是从数据源头处提升数据标准,还是在数据清洗与标注环节加大力度,亦或是精心构建合理的数据存储与访问机制,这些均是实现 AI 能力跃升的根基所在。唯有拥有足够卓越的数据,AI 方能真正彰显其巨大潜力。

(二)AI:数据管理的智能助手

然而,数据与 AI 之间的关系绝非简单的单向 “供给与消费” 模式。伴随技术的持续进步,AI 正逐步蜕变成为我们管理与开发数据的得力助手。传统的数据治理工作常常耗时费力,诸如清理脏数据、梳理错综复杂的数据关系、寻觅与匹配数据标准等任务,不但重复性极高,而且极易出现差错。而 AI 凭借其强大的能力,正在彻底改变这一局面。当下,AI 模型能够:自动完成数据清洗与修正工作,借助机器学习算法迅速察觉数据中的异常与错误,如重复值、格式不一致等情况,极大地提升数据治理效率;智能实现数据的查找与匹配功能,在海量数据中快速定位所需信息,甚至能够依据语义理解用户需求,进而开展精准推荐;辅助生成数据,凭借大模型的生成能力,AI 可依据特定业务场景与规则,生成虚拟却合理的数据集,以供模型训练或模拟测试使用。这些能力不但有效削减了数据治理成本,还助力企业更为高效地释放数据所蕴含的巨大潜力。例如,一家零售企业能够借助 AI 辅助清理销售记录中的错误信息,同时依据用户画像生成更多维度的洞察,从而优化营销策略。AI 与数据之间的这种双向互动关系正在重塑企业对于数据管理的认知:数据不再被视为 “沉重负担”,而是珍贵的 “资产”。

(三)双箭头效应:驱动数智化转型的核心动力

更为关键的是,数据与 AI 之间的互动关联并非静止不变,而是呈现出一种动态的 “双箭头效应”。在此过程中,数据有力推动了 AI 的发展演进,而 AI 反过来又显著提升了数据的利用效率,两者协同发力,共同驱动企业的数智化转型征程。例如,在一家制造企业内部,数据可借助传感器实时采集设备运行状态,AI 则运用这些数据预测设备故障,优化生产效率。而这种预测能力又会反哺企业,助力其更为妥善地规划设备维护事宜,从而积累更多可靠的数据,进一步优化 AI 模型。如此循环往复,逐渐构建起一个数据与 AI 相互促进、相得益彰的飞轮效应。不仅如此,这种双箭头效应还有助于企业从局部的数字化运作迈向整体的智能化运营。对于众多企业而言,初期或许仅在某个特定场景应用 AI,如客户服务智能化或者供应链优化等。但随着数据体系的逐步健全完善,AI 的触角将延伸至更多领域:从营销算法到知识管理,从财务预测到产品创新,所有业务流程都将被重新定义与塑造。这绝非单纯的技术迭代更新,更是一种深层次的业务逻辑重构。数据与 AI 的关系恰似硬币的正反两面:一方决定了另一方的发展潜力,而另一方则赋予了对方更大的价值与意义。展望未来,企业若欲在数智化转型浪潮中抢占先机,就必须从战略高度深刻重视两者的协同配合作用。全力确保数据质量,巧妙运用 AI 反哺数据,如此方能真正撬动数据价值的杠杆,实现业务的持续创新与突破性发展。这一双箭头效应,必将成为企业发展进程中最为强劲有力的驱动力之一。

二、数据中台与 AI:断层隐忧与挑战

此前在与诸多同行的交流探讨中,我发现数据中台主要侧重于处理结构化与半结构化数据,而这部分数据在企业整体数据中仅占约 20%。企业内部绝大部分的非结构化数据,目前根本无法实现规模化的有效管理与应用,而这恰恰是数据中台的薄弱环节所在。尽管市面上的中台厂商纷纷宣称自身支持数据湖 / 湖仓一体架构,能够存储企业各类数据,涵盖结构化与非结构化数据,但数据中台现有的产品架构在非结构化数据的有效管理、开发与治理方面困难重重,更别提实际应用了。正因如此,国内绝大多数企业的数据湖仅被当作 Hive 数仓使用,未能充分发挥其应有的价值与功能。

伴随近两年大模型以及各类 AI Agent 的蓬勃发展,以电商、金融、证券、零售等行业为首的众多企业纷纷积极探寻 AI 与自身业务的契合点。它们已然意识到通用大模型存在的幻觉问题,并且鉴于自身业务的独特性,没有任何一家厂商能够直接提供可直接应用的垂直大模型。因此,这些企业需要寻求一家具备实力的厂商为其进行大模型微调,而在此过程中面临的首要难题便是如何提供企业专属的知识库,以及如何对企业内部海量的非结构化数据进行清洗、治理并保障数据质量。然而,当前的数据中台架构根本无法承接这一重任,即便强行拼凑也难以实现无缝对接与有效运作。尽管市场上存在部分企业试图以数据中台概念忽悠客户,宣称其可处理非结构化数据,但实际上,现有数据中台体系与非结构化数据处理需求之间存在明显的不匹配状况。

三、非结构化数据治理:未解难题与困境

当我们探讨一家企业独特的数据资产时,所指的并非结构化数据,而是其规模庞大的非结构化数据。AI 训练所急需投喂的也恰恰是这类占据较大比例的非结构化数据。那么,企业究竟该如何对内部的非结构化数据展开有效治理呢?坦率而言,目前尚无明确答案与成熟完善的解决方案。显然,这一难题亦非当前数据中台所能妥善解决。在网络上搜索关于非结构化数据治理的资料,大多为泛泛而谈,缺乏实际可操作性与落地性,难以提供有价值的参考借鉴。从数据库到数据仓库,再到数据湖,进而发展至数据中台、数据编织(DataFabric),尽管在方法论、计算引擎、计算框架以及存储介质等方面均取得了长足的进步与发展,但我们在非结构化数据的管理、开发与治理水平方面却并未获得显著提升,成功案例寥寥无几。我国当前仍处于智能化转型的初期阶段,相当大比例的企业甚至还处于数据仓库搭建与摸索尝试阶段,即便采购了数据湖产品,也大多只是将其当作数据仓库使用。更有甚者,许多企业连一名正式的数据开发工程师都未曾配备。

四、小结:数据中台的尴尬与未来展望

AI 无疑是当下肉眼可见的巨型风口,全球范围内的科技企业无论是主动还是被动,均纷纷实施 “AI 优先” 战略,其中不乏 Google、Apple、微软、阿里巴巴等行业巨头。然而,在这一 AI 蓬勃发展的格局中,数据中台却略显尴尬。作为企业最为核心的数据开发与治理平台,其主要阵地仍局限于结构化数据的开发与治理领域,眼睁睁地与 AI 擦肩而过,错失深度融合与协同发展的良机。

不过,值得欣慰的是,市场上已有部分企业率先开启对现有数据中台架构的升级探索之旅,旨在使其能够适配 AI 发展的需求与趋势。例如 Databricks 早在很久以前便将机器学习平台与数据湖开发平台进行了有机整合,为数据与 AI 的融合提供了有益借鉴。再如阿里云大数据开发平台 DataWorks 也在积极推进与阿里云 PAI 的互联互通。在 PAI 平台上训练生成的模型能够通过 EAS 便捷地部署至线上环境,整个实验流程支持周期性调度,并且可发布至 DataWorks 与其他上下游任务节点打通依赖关系,极大地提升了数据与 AI 协同工作的效率与灵活性。可以预见,在不久的将来,必然会诞生出集企业级结构化与非结构化数据处理于一体的大数据开发与治理平台,这将不仅有助于实现企业数据资产的统一管理与高效治理工作,同时也将更有利于深度挖掘与释放企业数据要素的巨大价值,推动企业在数智化转型道路上加速前行,迈向更为辉煌的未来。

标签:人工智能 数据中台

版权申明:本网站内容均为本站原创文章或网友转载,涉及版权问题请联系管理员删除,转载亦请申明来源.

上一篇:盘点智慧作业的几种形式 各形式的优劣势及代表厂家
下一篇:数据赋能企业数字化转型 从数据仓库到数据中台再到数据飞轮