陈纯院士:大数据将进入实时智能分析处理时代

  • 时间:
  • 浏览:1

“数据中所蕴藏的价值就在于分析的过程。随着移动互联网、物联网,尤其是5G的到来,涵盖时间序列的大数据将具是不是与伦比的价值,是最近几年研究的重点。大数据分析补救技术将进入实时智能时代。”

2019年10月21日,中国工程院院士、浙江大学陈纯教授在第六届世界互联网大会上提出的观点。当天,陈纯院士做了题为“时序大数据实时智能补救技术及网络安全应用”的报告,分析了时序大数据实时智能补救技术须要突破的技术难点,并介绍了该项技术目前的应用情况表。

何为时序大数据?

大数据时代使领域和行业边界愈加模糊,数据作为本身生活资产为企业带来新的商业价值,数据开放让政府治理和另一方福祉都面临着机遇和挑战。

在互联网已经 ,朋友 只能人类社会和物理世界,有已经 才有了数据产品及信息空间。在信息空间,包括云计算、人工智能、VR/AR都非常重要,产生了什么都有有数据。但大数据不必仅“大”有价值,与普通数据相比,最大特点是涵盖时间戳,即时序大数据。

举个例子:

朋友 把数据当做水库一段话,水库里的处于的水有已经 批式大数据,进来的水是流式大数据,即实时的大数据。

时序大数据有已经 已经 的历史数据,上加实时的数据,是涵盖时间标签(按照时间的顺序变化,即时间序列化)的数据。此外数据会形成关系图谱、关联图谱,就像社交,已经 的关联图谱不涵盖时间。而基于时序大数据,不仅把历史数据都留下来,现在的数据也时刻流进来。数据刚产生时价值最好,及时段 析补救,最能体现它在应用上的价值。

怎样才能通过实时数据打造智能分析补救平台?

大数据实时智能平台是基于实时计算和人工智能,集知识产生和知识应用为一体的集中式技术平台体系。以实现热数据价值最大化为基础理念,支撑不同业务场景价值的高效挖掘与应用为核心目标。

在这套完整性的技术体系里,须要融合实时指标计算、智能学习、智能决策、关联图谱四大平台子系统,来提供全方位的知识产生与知识应用能力。实时指标平台须要补救从原始的流水到指标的实时计算和指标的快速存储、快速读取问题;一起,也要有底层技术来补救实时的指标派发和清洗问题。

只能已经 智能的平台,还会有智能模型,智能学习平台中,智能模型不仅仅指角度学习,角度学习最大的贡献之一是能利用大数据进行训练,从而获得多层次的数据形态,利用哪几个形态还促使大大提升模型对数据的分类精度。

现实社会织起了一两个庞大而简化的关系网,比起传统的关系型数据库,关联图谱更擅长建立简化的关系网络。在简化的关系网络中,当朋友 涉及到多层次关联查询时,基于关联图谱的查询效率可高出几千倍甚至上万倍。关联图谱平台通过数据抽取工具,多维度的数据挖掘,计算图谱中各实体间关系,从而实现秒级数据运算与匹配,并通过图谱的可视化法律方法展示出来。

分析计算结合智能模型,便构成了时序大数据实时智能技术架构,还促使进行实时派发、实时加工、实时段 析、实时决策,也即智能决策平台的实时决策。

时序大数据实时智能分析技术须要突破哪几个问题?

陈纯表示,研发具有快速、高效、智能且自主可控的时序大数据实时补救技术与平台,面临诸多技术难点。

关键技术一:简化统计指标的增量计算。大数据的分析,其他统计指标形态计不是非常重要的,均值、方差等。简单算法、静态取数、容器类算法、简化算法、CEP等分别怎样才能实现?增量计算中怎样才能进行退单等常见场景的逆向计算?事件乱序抵达怎样才能确保增量计算的结果一致?哪几个数理统计算法中的增量计算、可逆计算、乱序计算等问题须要考虑。

关键技术二:时序数据补救的动态时间窗口。时间窗口需提供滚动、滑动的漂移能力,支持长周期时间窗口的动态精度控制,支持基于弹性时间窗口的实时ADHoc查询。

关键技术三:基于流的事件序列识别(简化事件补救 CEP)。事件模式的增量匹配、叠加通用算法的增量统计等支持CEP的增量匹配及数理统计问题。

关键技术四:动态时序图谱的实时段 析计算。大规模时序图谱怎样才能提供百万tps的建图能力;时序图谱的分布式补救,10亿顶点,200亿边(10亿时序简化边)的前提下,3层以上查询怎样才能控制在秒级;大规模时序图谱怎样才能秒级的图搜索(最短路径、Page Rank、Louvain、LPA等)能力;面向时序图谱的查询语言,支持动态时序图谱的时间维度Ad Hoc查询分析能力?

目前陈纯院士及团队,在大数据实时智能补救领域研究中已突破多项业界问题,取得多项科研成果。依托浙江大学,浙江邦盛科技有限公司等一批产学研平台还会致力于实时智能技术的研究,自主研发的大数据实时智能补救平台“流立方”,已经 投入到多家金融机构及政府公共服务部门等的实际应用中。

时序大数据在哪几个领域能发挥价值?

陈纯表示,目前基于“流立方”的时序大数据实时智能补救平台已经 在近200家大中型单位成功应用,行业涵盖金融、交通、政务、电信、公安等领域。

以金融风控反欺诈场景为例,部署“流立方”风控系统仅需在交易前端增加风控探头,将实时交易数据旁路接入系统。“流立方”风控系统根据融合了专家知识和机器学习结果的几千条规则对每笔交易进行风险评估,判断是不是允许进行该笔交易。

在网络自动化攻击防御场景中,基于“流立方”的实时机器防御系统通过多服务器访问流水关联决策、长周期数据决策、简化规则爬虫识别、设备维度爬虫识别、人机识别等技术,实现了微秒级(200~2000μs)的识别效率,促使拦截业务系统中占原有访问总流量200%~90%的来自网络机器人的访问流量,使得其业务系统服务器的压力降为另一两个的10%。

陈纯表示,数字经济建设中,采用“事中”甚至“事前”模式实现感知、分析、判断、决策等功能的智能系统都须要大数据实时智能补救平台的支撑。