作为连续五年入选Gartner ABI魔力象限的产品,Quick BI在自然语言问数、辅助搭建和洞察等领域进行了探索,并自研了BI领域的大模型。受大数据技术社区DataFun邀请,阿里云智能集团瓴羊高级技术专家——王璟尧分享了Quick BI智能化:AIGC与数据分析的融合实践。 本文将从以下三个方面进行展开: ● Gartner ABI魔力象限报告解读 ● Quick BI在大模型与数据分析的融合探索 ● 通用智能问数架构设计和实践 01 Gartner ABI魔力象限报告解读 一、商业智能与数据分析领域的变迁 2024年6月,全球权威的IT研究与咨询公司Gartner发布了2024年数据分析和商业智能魔力象限市场分析报告,Quick BI作为国内唯一且连续五年入选榜单的产品,今年继续巩固了在魔力象限中的挑战者地位,并且位置仍在稳步提升。 *魔力象限:Gartner根据入选厂商表现,将其划分到四个象限,分别是领导者、远见者、挑战者和特定领域者。 今年6月,Gartner正式发布《分析与商业智能平台魔力象限》报告,阿里云凭借其商业智能产品Quick BI的执行能力和愿景完整性入选挑战者(Challengers)象限。 “Quick BI主要优势体现在其多设备的可视化交互功能、与企业业务系统的集成以及符合中国市场的标准报告制作上。报告还指出,Quick BI在可视化和协作功能上具有竞争优势,尤其适合分析开发人员和业务分析师的使用场景。” 2023年,Quick BI升级了其智能化模块——智能小Q,基于阿里巴巴自主研发的通义千问大模型技术,深化了企业内部数据使用场景下的融合,并且提供了自助式复杂报表搭建及数据洞察的能力扩展,以提升用户体验和分析效率。 二、BI分析市场趋势 1、2024年BI市场热点:BI和AI的结合 Gartner定义的技术发展成熟度曲线用来展示和衡量技术从萌芽到成熟的发展阶段。曲线中被红虚线圈住的这一部分是目前临近或者处于期望膨胀期的技术,里面有很多是跟AI相关的,比如NLQ、NLG、增强分析、可解释的人工智能、数据叙事等等。这些技术到达成熟的预期时间都是两到五年内,它们的出现显著加快了敏捷BI向智能演化的速度。 2、BI行业的三大特征
随着数据科学和机器学习技术的不断发展,BI(商业智能)行业也在逐渐向这些领域靠拢。在国际市场上,BI竞品更加注重数据科学家的角色,使得BI能够实现一站式的算法验证和数据分析。然而,目前国内市场在这方面的涉猎还相对较少。
大模型的应用增强了BI端到端和增强分析的能力,例如智能助理等新功能使消费者能够更轻松地通过自然语言对话进行数据分析。
大模型在自然语言理解和归纳能力方面的突破性进展,使得整个BI行业的分析能力产生了质的飞跃。这使得BI工具能够更好地理解和处理自然语言数据,从而为用户提供更准确、更高效的数据分析服务。 3、BI的技术演进趋势
这一阶段的BI解决方案主要依赖于预先定义的数据模型和语义层。用户需要通过复杂的查询和报表工具来访问数据,这通常要求用户具备一定的技术背景和对数据库结构的了解。这种方式的数据分析相对固定和有限,不够灵活。
在敏捷BI阶段,用户可以通过更直观的方式,如点击按钮、拖拽元素等操作来进行数据分析和创建报表。这种方式降低了技术门槛,使得非技术背景的用户也能进行一定程度的数据分析,提高了分析的灵活性和自主性。
智能BI阶段通过大模型提供了更加智能化的数据分析方式,用户只需以自然语言的形式描述自己的分析需求,智能助理便能根据上下文自动理解用户的意图,拆解并执行任务。这种方式进一步简化了数据分析过程,使用户能够更直观、更自然地与数据交互。
在AI时代,尤其是得到AIGC 加持的对话式分析,用户可以通过自然的对话来与数据交互,为用户提供了全新的端到端的交互体验。 4、缘何连续5年入选Gartner报告? 今年,Quick BI连续五年入选Gartner®分析和商业智能平台魔力象限,成功巩固在数据分析领域中的挑战者地位,也是唯一一款入选象限的国产BI。 Gartner指出Quick BI具备三大竞争力,首先是灵活,阿里云拥有广泛的销售渠道和灵活的定价方式,Quick BI可以同时在阿里云、淘宝应用市场和钉钉应用市场上售卖,通过提供可定制的功能包和定价模型来适应不同企业的需求,定价模式具备竞争力;第二是可集成,指的是Quick BI与阿里云整个产品系统可组合分析的集成关系,Quick BI既可以作为一个独立的工具提供,同时也是瓴羊大产品组合的其中一部分;第三是客户成功,阿里云瓴羊通过系统的培训来提升用户技能,并且颁发证书,推动客户成功。 回到产品本身,Quick BI可以提供分析协同消费的数据可视化分析整体解决方案,具有以下四大特色优势:
02 Quick BI在大模型与数据分析的融合探索 一、Quick BI产品形态探索 在企业的数智化升级过程中,业务团队和数据团队难以融合贯通这个问题经常被提起:一方面,传统的固定式报表,难以满足企业快速增长的分析需求;另一方面,分析⼈员可能对业务术语不够熟悉,业务人员也难以精确表述他们的数据需求。 基于这些痛点,Quick BI在大模型时代做了如下探索:
这一功能通过一键生成报表、对话式图表创建以及智能美化等功能,极大地提升了报表的搭建效率。用户可以通过简单的操作或对话来快速构建和美化报表,节省了大量的时间和精力。
用户可以通过轻松、自然、随意的聊天方式与智能助手(如小Q)对话,获取想要看到的数据,并按照用户期望的形式展现。这种方式实现了数据集问题的即时回答,提高了数据的可访问性和分析的灵活性。
帮助用户快速生成报表摘要,自动检测异常,并进行归因诊断,快速发现数据问题和原因。例如“分析去年签单金额下降的原因”,小Q就会自动分析产品类型、销售渠道、客户类型、大促活动等维度,找到影响签单金额下降的关键因素。
在实现层面,基于成熟大模型的基座,结合对BI业务的独特理解,训练出针对BI领域的大模型,将这个大模型与产品的功能底座相结合,探索出一条BI和AI结合的最佳实践路径。这种结合不仅提升了BI工具的智能化水平,还为客户提供了更加高效、智能的数据分析解决方案。 二、智能小Q路线选择的思考 1、两条道路 在对智能小Q的技术产品演进路线选择时,最初面临两条截然不同的道路: 第一条道路是基于Quick BI已有能力上的问述,即先有了BI,然后再融合迭代大模型的能力。 第二条道路似于早期开源DEMO项目,即先简单地对接通用的一个大模型,例如拿着拼接好的Prompt去调用GPT,生成特定的SQL,然后再把查询出的数据用开源图表组件做个简单展示。 虽然这种项目的门槛相对较低,演示效果也不错,但实际上很难被商用。这种方式有很多弊端,比如图表没有交互能力,也不具备任何权限管控和数据源管理等企业级能力。 因此,Quick BI选择了第一条路线——由于BI工具本身的基础非常考验行业长期积累,这种技术路线的天花板也会更高。目前,小Q就使用了大量的BI能力,比如可视化分析能力、成熟的图组件、高端计算能力、多端可消费能力等。此外,我们还依赖了文件的四大内核引擎,包括建模分析引擎、加速引擎、渲染引擎等。 2、智能小Q在产品上的优势
三、智能搭建实践 智能搭建是用自然语言去辅助搭建报表,有以下几个功能:
根据选定的数据一键生成报表,提高搭建效率。用户可以在此基础上增补创建图表、修改图表类型或根据自己的想法调整代码内容。
用户可以通过输入文字指令来更改字段、名称、统计方式,对分析内容进行微调。
该功能可以简化多步骤的高频操作。例如,通过简单的指令就能开启累计计算、添加条件格式辅助线等,许多操作都可以通过自然语言实现。
一键美化功能可以在极短时间内完成大量配置优化,提供惊艳的效果,使用户得到即时的视觉和使用体验提升。 四、智能问数实践 1、NL2SQL 智能问数功能通过自然语言交互直接获取数据结果,基于NL2SQL技术开发,它的主要特色包括:
2、关键步骤 智能问数的关键处理步骤包括: 1)意图识别:解析用户的查询意图; 2)数据实体提取和召回:根据原数据和部分数据特征对数据实体进行提取和召回; 3)模型改写:利用大数据模型对查询进行逻辑重写; 4)BI系统处理及数据源精确转换:执行BI系统对我们DSL的逻辑处理及数据源的精准转换和图表的动态渲染。 03 通用智能问数架构设计和实践 一、智能小Q产品技术架构 接下来介绍一下智能小Q的通用智能架构设计:
二、NL2SQL:更适合BI大模型的增强SQL语言 对于智能问数系统中NL2SQL流程的演进过程: 最初,系统定义了一个特定的查询语言,称为DSL(领域特定语言)。这个DSL用于描述不同的查询参数,由大模型直接学习并生成。 然后,通过一个中间层将抽象的DSL在原始数据和知识库中实例化,转换成Quick BI能够理解的实际查询参数。 最后,由Quick BI的引擎将这些参数转化为实际的物理SQL语句来执行数据提取。 然而,随着系统需要支持更多样化的用户意图,为DSL语义准备样本的成本逐渐增加。由于DSL是自定义的,通用模型如GPT并不包含这部分内容。同时,通用语言模型在将意图转换为简单的SQL方面已经积累了大量的经验。 因此,团队在单表查询的标准SQL基础上进行了扩展,增加了抽象函数和高级计算,形成了一种增强的SQL语言。通过这种方式,训练模型可以更好地理解和准确生成复杂的SQL语句。然后,通过自研的语法解析器将这些特定的增强SQL语言转换成DSL映射,即增强SQL和DSL之间可以稳定转换。这种方案既有效利用了通用模型的能力,又显著降低了训练样本的准备成本。 三、BI领域大模型实践 在BI领域模型中,主要由NL2API和NL2SQL两大核心部分组成。
通过AI技术的应用,BI工具能够识别用户的意图并生成相应的API指令,以此调用现有的功能执行特定任务。这一过程涉及到持续的学习和调整,以便模型能够更准确地解释用户的输入并生成正确的指令。对大模型来说,学习如何将自然语言转换为API调用类似于学习一套新的语言,这对产品的持续改进而言是一个不断进化的过程,要求不停地扩展智能助理的功能范围并提升其执行任务的质量。
这一部分的提升意味着大模型在推理和查询生成方面的能力远超传统模型。通过利用企业级知识库和实际的问答数据,结合专门的工程技术,模型能够不断学习并优化其查询解析能力。训练数据的高质量以及真实应用场景的使用,确保了模型在实际应用中的效果。在SQL语句的生成过程中,采用了自定义的DSL以涵盖复杂的查询场景。此外,引入反问、多轮对话和问题修正等机制,确保了模型能够更加精确地处理用户的查询,从而将其从理论演示转变为实际生产中的实用工具。 结束语: 在这场技术革命的浪潮中,数据分析通过与大模型的深度融合,实现了生成式AI的智能化变革。我们可以看到,传统的数据分析方式正在逐步被更加灵活、高效的智能BI所取代,尤其是自然语言处理技术的应用,使得数据的获取和分析变得更加直观、简便。 |