一线大厂数据产品经理成长之路

导读 AI 在数据行业中的应用已成为大势所趋。随着数据量的不断增长和数据复杂性的不断提高，传统的数据处理方式已经无法满足需求。AI 技术可以帮助数据行业更高效地处理和分析数据，从而提高数据价值和决策效果。在未来，随着 AI 技术的不断发展和普及，AI 在数据行业中的应用将会更加广泛和深入。我们可以预见，AI 技术将成为数据行业中不可或缺的一部分，为数据行业的发展和创新带来更大的机遇和挑战。

本篇文章主要包括以下两部分内容：

AI 的古往今来
AI + 数据行业的思考和挑战

分享嘉宾｜李鑫腾讯资产服务中心AI产品负责人

编辑整理｜孙蒙新

内容校对｜李瑶

出品社区｜DataFun

01AI 的古往今来

人工智能的发展可追溯到 20 世纪 50 年代，当时英国计算机科学家艾伦·图灵提出了一种思想实验，用于测试机器能否表现出人的智力。简单来讲，就是让机器和真人同时与真人对话，如果真人无法分辨出哪个是机器，那么就认为机器表现出了人的智力。在接下来的几十年里，人们尝试了各种方法来挑战这个测试。

在早期，一种比较取巧的方法是使用模式匹配（pattern matching）。这种方法通过识别关键词来模仿人的回答，但如果要达到比较好的效果，必须依靠人工枚举所有可能的情况。

在 2000 年左右，机器学习的概念被提出，它让机器自己去学习如何处理不同的情况。但是，这个概念在当时没有得到长足发展，主要因为受到了两个条件的限制，首先，它需要依赖非常大的数据量；其次，它非常依赖算力。

直到 2010 年，互联网时代的到来带来了数据量和算力的指数级增长，人们才开始尝试更多类人脑模式的模型训练，如神经网络和谷歌的 Transformer。正是在这个节点，OpenAI 提出了自己的 Generative Pre-trained Transformer，即 GPT。GPT 的强大之处在于让人感觉好像它是一个真人在思考回答，仿佛图灵测试在这一刻真的被人类所攻克。因此，许多大厂也紧跟 GPT 的脚步，发布了自己的大语言模型。同时很多个人开发者也借助 OpenAI 接口实现了很多小应用，使 GPT 生成式 AI 的能力迅速赋能到各个细分行业，包括数据行业。

02AI + 数据行业的思考和挑战

自然语言处理技术在数据分析领域的应用日益普及，其中一个重要的应用是让用户通过自然语言与数据表进行交互。然而，在实际落地过程中，还存在许多问题。

对于数据分析场景，自然语言并不足够高效。70% 的数据需求可以通过现成的看板解决，只需要几个点击即可满足需求，如果让业务人员手动输入自然语言去获取数据则更为麻烦，效率较低。那么对于剩下的 30% 的数据，是否通过手动输入自然语言去获取数据就会高效呢？这就引出了第二个问题，即数据不一致。我们知道在日常取数的过程中，最耗时其实就是数据口径确认的过程，利用生成式模型来取数的方式同样存在这个问题，因为业务侧的同事多数情况下是看不懂SQL的，所以如果让生成式模型帮他们取数的话，他们实际上并不知道取出来的数是不是他们想要的，也没有人能给他们做保障，其次，还有一个当下较难攻克的问题，就是模型输出非常不稳定，常常存在幻觉，如果让它给你写SQL，哪怕限制好了字段信息，它也仍然有可能给你捏造一些虚假字段，也因此业务侧的同事并不太敢用模型给他们取出来的数据。

除此之外，一些厂商在尝试让 GPT 发现数据问题并给出建议，但让模型给出有价值的报告和建议可能更加困难。因为在整个过程中需要突破数据敏感性、知识库更新对模型的影响等问题，并且实际业务逻辑非常复杂，需要花费大量时间调试模型，维护成本非常高。

总结下来，要让 GPT 真正提升数据分析效率，需要明确以下几个问题：

需要明确自然语言取数的需求场景和使用对象，以确定需求的真伪程度。
需要确保所问数据的准确性，以提高用户对该功能的信任感和安全感。
需要思考自然语言技术对谁的效率有所提升，以及对企业带来的价值。
需要真正提高 GPT 生成内容的价值。

根据我们之前的调研，业务侧对于自然语言问数还是充满憧憬的，尤其是面对繁琐、低效且耗时的取数沟通流程，找不到数、找不到正确数据的问题困扰他们许久。如果能让他们实现取数不求人，那么将是非常大的效率提升。

另外，关于安全感问题。如果让模型直接与数据表交互，用户可能会觉得非常不可靠。考虑到这一点，我们不妨引入指标中台作为模型和用户之间的数据担保。

指标中台的职责之一就是解决数据口径不一致的问题。在中台上，业务会维护好他们所需的指标和维度的定义，而且所有的维度和指标都有相应的负责人可以追溯，因此所有的口径也都能够得到保障。

在此基础上，用户获得安全感后，才敢尝试用自然语言来自述取数。针对那 30%的临时取数需求，我们可以让 GPT 结合用户 query 和中台维护的那些指标语义，并调用中台的自动化建模能力，来帮助用户快速查询所需的数据。这样一来，不会写 SQL 的产运同学、业务侧同学，也可以放心地、自助地去取数，从而释放数据分析同学用于临时取数的双手。

此外，在调研之后我们发现，对于成熟的业务来讲，70% 的看数需求可以通过看板来解决。然而有时找到可以看的那些看板，本身就是一个很大的难点，因为看板实在是太多了，通过关键词来搜索，都经常无法找到想要的看板，所以这本质上是一种搜索场景，也是 GPT 最擅长的领域之一。如果引入 GPT，可以在数据搜索上增加语义层的理解能力，相当于给数据搜索增加了一个信息中介，它可以帮助我们把抽象的看数需求和相关的看板关联起来，这对于成熟业务的看数同学来说，也是一个效率的提升。

至此，我们探讨了 GPT 在赋能数据应用侧的诸多思考。除了末端应用场景以外，GPT 还可以赋能数据加工、元数据生产、代码优化与解释、数据表检索等领域。未来，在 Copilot 理念贯彻之后，那些原本需要大量人力的重复性繁琐工作，将逐步被机器接手，人们也能将时间投入到更有价值的工作中去。我们也期待着 GPT 带来更多的惊喜。

在新的自动化技术出现时，人们总是有各种焦虑，有的担心自己会不会被取代、有的则担心自己会错过这一波浪潮，焦虑仿佛是人的天性，历史也总是在不断地重演，就像第一次工业革命中珍妮纺织机的出现让工人们愤怒地付诸暴力。但人类发展的进程只会不断向前，效率也很现实的是文明进步的法则，祝愿我们能够积极拥抱变化，迎接下一个新的平衡。

以上就是本次分享的内容，谢谢大家。

一线大厂数据产品经理成长之路

01AI 的古往今来

02AI + 数据行业的思考和挑战

相似文章推荐

评论 (0)