9月19日,2023火山引擎V-Tech数据驱动科技峰会上,火山引擎对数智平台DeVI进行了升级,并为旗下数据研发治理套件DataLeap、智能数据洞察DataWind两款产品增加AI能力。全链路拥抱大模型,降低消费门槛,让数据更加普惠。
字节跳动数据平台负责人罗旋以《AI加持的数据飞轮:新一代数据价值探索方式》为主题,阐释了数据飞轮在字节跳动的经验沉淀。并从数据资产、数据生产、数据洞察等三个方面,解读了火山引擎数据产品特点,为企业的数据飞轮运转,提供全新价值。
罗旋表示:“数据飞轮的构建,是业务与数据双向驱动发展过程。如今,大模型给我们提供了另一种探索方向——如何用新的AI技术,来加速飞轮转动。AI加持的数据飞轮,有望改变企业探索数据价值的方式,大幅提升企业数智生产力和消费力。”
以下为罗旋演讲全文:
数据飞轮模型是基于字节跳动内部大量实践沉淀提炼出来的。不同时期、不同业务形态下,我们究竟是如何做的?从业务的角度选择两个例子来看,一个是最开始的今日头条,另一个是在抖音平台上成长起来的全域兴趣电商——抖音电商。
做今日头条的时候,当时业务使用数据最典型的场景,是做推荐算法优化和产品优化。所以我们自建的第一个数据产品就是A/B测试,这个产品提供的核心价值就是帮助业务科学决策、快速迭代。当时业务发展速度很快,对数据的需求重点是能快速判断、快速试错,拿到结果就能去做下一步行动。
抖音电商的复杂程度,比单纯做内容、做货架电商都要高,对数据的依赖性和要求也更高。以电商618的直播大促为例,运营团队在活动的前中后,都需要使用数据,做大量地分析、诊断、决策和相对应的运营动作。活动前,要通过分析发现趋势好品,做预测和引流;活动中,要有实时监测、分析,来及时调整商品次序、引流策略等,如果慢一步,机会可能转瞬即逝;事后,要做复盘、分析沉淀。
当我们对比这两个业务例子时能够看到几点变化:
消费人群越来越广。相对于早期,现在有更多非技术背景同学,参与到数据消费的过程中。以运营同学为例,他们不需要太多数据的专业知识,而更多是结合自己的运营专业能力,快速发现问题、定位问题、分析和改变策略。
消费的场景越来越多。从之前侧重辅助决策,拓展到了监测预警、分析预测,实时业务决策,实时决策到实时业务行动,以及行动后的数据闭环,覆盖了整个业务过程。
随着使用人群、使用场景的大幅扩充,对数据产品的要求越来越高。
可以看到,我们所提供的数据能力一直在变化,会根据业务痛点需求不断演进迭代。但其中不变的点,是我们一直坚持从业务的视角出发,一定要在解决业务痛点的过程中去发挥数据的价值。我们认为,这才是数据飞轮相对于其他理念或者模型最本质的区别。数据飞轮的构建,是业务与数据,双向驱动发展过程。
很多人会问,数据飞轮看上去很美好,能解决业务问题,但它怎么才能转起来呢?
我们认为,让数据最大程度被用起来,是让飞轮转动起来的核心驱动力。数据消费的深度和广度,表征了数据融入业务的程度。业务对数据的使用越频繁,就表示业务对数据越依赖,对数据价值越认可,数据飞轮转动起来的可能性就越大。同时,业务的发展也驱动我们数据资产的不断建设和提升。数据资产,并不是以收了多少数据,建了多少张表,统一了多少数据作为衡量标准,而是以终为始,从数据怎么被业务消费的角度来判断。
如果从更定量的角度,来看数据消费的程度,我们自己有两个经验指标。在业务应用中,我们已经达到了80%的员工直接使用数据产品,这意味着在字节跳动,每天有大量的员工在用数据驱动的方式工作。在数据繁荣消费的驱动下,自然而然就会产生数据资产化的需求,来保障数据消费的效率和质量。在数据资产中,最典型的交付物就是数据指标,我们认为,被管理起来的数据指标要能覆盖80%的日常分析。
当我们明确了数据消费是第一驱动力,也知道了需要做到什么程度之后,下一个自然的问题就是,怎么做到呢?我们的做法是,让数据流融入业务的工作流程中,让数据更易获取,更低门槛使用,进而业务对数据的依赖度和信赖度都更高。
在做直播运营活动的时候,一个运营可能要同时盯几十上百场直播。针对这个场景,我们提供一个批量诊断的能力,帮助运营整合所有需要盯的直播间,通过智能诊断和自动化提示,来告知效果跟预期的差异,并给出针对性的建议来提升整体效果。这不仅让盯盘效率得到了倍数级提升,还相当于请了个小助理,帮助运营分析和达成目标。
除了数据与业务的充分融合之外,新技术的出现,往往也会带来更大的变革。大模型给我们提供了另一种探索方向——如何用新的AI技术,来加速飞轮的转动。
首先,在数据资产管理上,我们探索出AI找数助手。DataLeap-找数助手能用自然语言问答的方式,来检索包括表、数据集、仪表盘、数据指标、维度、业务知识库等在内的多类型数据源,并做出拟人化总结。在与用户对话式交互的过程中,大语言模型(LLM)可以更好地理解用户真实意图,也带给用户较贴近人工响应的体验,让“找数”本身的门槛变得更低,过程更有可能自助完成。
在数据生产环节,我们也研发了基于大模型的开发助手。它既可以做到将用户的自然语言描述自动生成SQL代码,也可以针对已有的代码做诊断优化、问题修复、解释与注释等等。而像文档搜索、函数使用、代码示例等辅助性需求,当然也能被覆盖。开发助手很大程度上减小编程语言带来的障碍,降低了数据开发的准入门槛。
在数据洞察环节,我们也提供了DataWind-分析助手。用户只要输入自然语言,就可以查询想要的数据、生成表达式,也可以查看由可视化图表组成的仪表盘来达成对应目的。与此同时,DataWind-分析助手还联通了飞书等办公协同工具,用户可以通过“IM消息订阅+自然对话”的方式,做更多的延展分析。通过这些方式,真正让数据分析能更加灵活,更能随时随地发生。
目前,字节跳动在内部的这些实践,都在通过火山引擎数智平台对外提供服务。从更长远的视角来看,我们相信,AI加持的数据飞轮,将彻底改变企业探索数据价值的方式,大幅提升企业数智生产力和消费力。过往花费在基础、重复、低效工作中的时间和精力,会被大量解放出来,进而让每一个人的创造力得到释放。