当数字经济成为高质量发展的核心力量,数据的重要性也被提升到了前所未有的高度。2014年,“大数据”首次出现在《政府工作报告》,2015年,国务院正式印发《促进大数据发展行动纲要》。2018年,随着新型智慧城市和数字城市的建设,各地的大数据和数字园区加速落地,大数据产业规模持续增长。相关数据显示,预计到2023年大数据产业规模会达到1万亿元,到2027年将达到1.8万亿元。
从具体行业应用来看,互联网、政府、金融和电信引领大数据融合产业发展,合计规模占比为77.6%。互联网、金融和电信三个行业由于信息化水平高、研发力量较强,在业务数字化转型方面处于领先地位。政府大数据成为近年来政府信息化建设的关键环节,与政府数据整合与开放共享、民生服务、社会治理、市场监管相关的应用需求持续火热。此外,工业大数据和健康医疗大数据作为新兴领域,数据量大、产业链延展性高,未来市场增长潜力大。
“与大数据时代同频共振,青云大数据一直在行动。从2014年至今,我们已经推出了近30款数据产品和服务,同时集成优秀的合作伙伴应用,形成了包括数据库与缓存、消息队列与中间件、大数据服务、数据仓库与BI、对象存储在内的数据产品生态。”青云QingCloud大数据产品经理刘雄风表示,“基于多年的深厚研发积累,我们构建了一个完整、可插拔、全流程的大数据平台。”
企业需求进阶,青云推出大数据工作台
在刘雄风看来,企业对大数据产品和服务的需求已经从“底层资源”上升到“数据层”,主要体现在三个方面:
第一是数据同步服务,云平台上已有的数据库、数据仓库、消息队列等服务中的数据,需要数据同步服务来打通彼此之间孤立关系,例如想通过Elasticsearch实现数据检索,就要先将MySQL中的数据导入到Elasticsearch,实现数据源与Elasticsearch数据同步。
第二是是实时计算,在IoT场景中,数据通过IoT采集网关,把数据统一采集到平台上之后,需要大数据平台对大量的设备数据、监控数据进行分析、挖掘,最终转化为设备报告和流程优化相关的信息和知识。反馈实时性越高,企业降本增效的效果就越好。因此,通过IoT平台采集设备数据、业务产生的结构化数据和日志数据,就需要实时计算的能力。例如,一些企业希望有独立的实时计算平台,而不是整合在QingMR中的Spark、Streaming或Flink等组件,以便在使用体验上更加专注。
第三是数据开发和作业运维调度,青云推出了QingMR开源大数据组件,解决了客户的运维和部署问题,但还无法满足数据开发和作业运维调度层面的需求。
除了数据集成、实时计算、统一监控和调度,企业还存在权限控制、数据仓库、数据服务等典型场景的需求。
基于此,青云推出了大数据工作台,希望打通大数据全链路,整合青云完整的数据产品和服务,为客户提供一站式智能大数据开发与治理平台,从而降低大数据使用门槛,将代码开发降到最低,让非技术人员也能进行大数据分析,并实现数据在云平台各产品之间快速流转,支撑上层业务,消除企业“数据孤岛”,实现数据的统一调度和计算,进而帮助企业挖掘数据价值,提升整体的数据洞察能力。在青云大数据工作台1.0版本中,主要具备“数据集成、数据加工、统一数据存储和服务”功能模块,为企业数据价值挖掘提供支持。
“5+5”,帮助企业快速发挥数据价值
从整体架构来看,青云大数据工作台自下而上具有五层架构:
第一层是云原生,基于云原生架构,支持容器化部署;第二层是全托管式计算引擎,提供全托管式计算引擎服务,以Flink流批一体的计算引擎为基础,兼容多种计算引擎为一体的计算资源服务,企业只需创建配置Flink资源即可使用,包括TaskNumber的数量、TaskManager和JobManager的CPU和内存设置,均可一键创建和管理,可以把计算资源全部托管给在线运维;第三层是全生命周期数据开发,支持向导式数据集成、可视化数据加工、调度管理、资源管理、网络管理等多种场景需求;第四层是高效的数据同步服务,兼容结构化、非结构化、半结构数据,对数据进行实时、增量、全量同步;第五层是应对丰富的业务场景,对BI商业智能分析、用户画像、增长分析、数据大屏等数据应用进行有效数据支撑。
在功能性上,青云大数据工作台可以从五个方面来看:
第一是数据上云,提供本地数据源上云服务,支持结构化数据、非结构化数据、半结构化数据,将数据安全地同步到运算过程,后续计算在云端完成,充分解放企业服务器压力。当前,青云大数据工作台支持MySQL、PostgreSQL、Kafka、S3、ClickHouse、HBase、HDFS、FTP共8种数据源,以及支持连接串模式数据源的创建,对接入的数据源能够进行列表展示和管理。
第二是数据开发,通过云上的大数据开发环境,将数据进行加工,支持实时处理、离线批量处理。企业可根据业务需求,选择“可视化算子拖拽、界面化SQL开发、Jar包提交”三种方式构建数据开发任务,满足多维度的开发者进行任务构建。其中,可视化拖拽是通过界面拖拽的方式部署每一个工作节点,让每一个节点既可以依赖上一个节点的输出,也可以依赖其他工作流的输出。SQL文本可支持深度开发场景,以及深度配置和调优,客户通过SQL文本的编辑和关键字的高亮,可以实时掌握所编辑语句的情况,再加上语法检查功能,就可以通过Flink SQL的方式进行数据加工。
第三是数据同步,将处理完的结果数据,根据数据特性,存储在不同的存储介质中,以备使用。数据源可以是消息队列Kafka、数据库MySQL等,目标数据源可以是消息队列Kafka、数据库MySQL、数据分析引擎Elasticsearch等。其中,数据同步的方式分为两种,一是向导式同步,通过便捷、简单和可视化的智能映射,快速按步骤完成数据的配置和数据集成的读取和写入。二是脚本式同步,以SQL文本的方式向客户提供,进行深度配置和调优。
第四是作业运维调度,大数据处理的核心是运行在Flink集群上的任务。青云大数据工作台自主研发的调度和任务管理模块,可以同时根据任务维护和资源分配维度进行分别监控,实时跟踪计算资源饱和度,提醒企业根据需求调整计算资源需求,助力全流程高并发处理。其中,任务管理模块可以对任务进行资源管理、函数管理和告警管理,支持对运维相关的日志进行记录,按照业务流程、操作方法和操作状态进行筛选,客户可以直接看到大数据工作台的任务运行状态。调度管理模块通过多元化调度策略,提供最小粒度为分钟级别的调度配置和调度周期,支持单次执行、立即执行和周期执行等调度配置。
第五是引擎资源管理,青云大数据工作台提供云端全托管Flink集群,几分钟内可以完成计算集群部署,具备云原生弹性扩容能力,节省资源,提高资源利用率,可提供细粒度资源管控,最小资源使用粒度为0.5 CU,能够精细化资源管控,支持按量和包年包月计费,适配不同需求,价格低廉,安全稳定。计算集群方面,支持对集群状态、集群版本、关联网络、参数信息等运维信息进行维护,并且提供Flink UI,支持客户进一步查看集群状态。集群创建方面,提供集群版本创建的选择,客户可自主调节集群配置,可以按照每CU每秒处理1.5万条数据为参考,自主配置需要处理的计算集群的大小。
“我们的大数据工作台采用云原生架构,没有基于传统的Hadoop体系的YARN来做资源调度,而是基于云原生里的Kubernetes实现资源的调度,聚焦于数据使用场景下,解决数据集成、流批一体计算、统一运维和统一数据服务共享的问题,通过一站式、便捷低成本的方式,帮助中小型企业快速发挥数据价值,构建‘云上数据中台’,并且可以跨云、跨容器、跨厂商运行。”刘雄风称。
“6+3”,让大数据开发与治理更高效、更可靠
产品特性方面,青云大数据工作台具备六大特点:
第一,开箱即用,几分钟即可完成环境准备和部署,即开即用、便捷高效;
第二,弹性扩容,具备云原生弹性扩容的能力,可以合理地节省资源,提高资源使用率,通过提供细粒度管控,最小资源使用的粒度只需要0.5CU,支持按量、包年包月计费;
第三,存算分离,与青云的对象存储服务无缝衔接,支持数据计算按需扩容;
第四,开放兼容,拥抱开源,兼容Apache Flink,支持平滑上云,通过内嵌的Connector可以无缝对接主流的数据产品和开源大数据生态组件,同时,客户可以将原有的大数据任务迁移到大数据工作台上,进行统一的调度和监控,节省运维和调度成本;
第五,安全可靠,按照云原生的架构模式进行设计,可以基于多种基础设施进行部署,内部按照功能模块以微服务的方式划分为多个组件,彼此之间相互隔离,所有的服务都具备高可用和高扩展能力,可以在部分节点故障的情况下保障服务的可用性和数据的可靠性;
第六,生态整合,除了大数据工作台本身提供的服务,还可以在云上与其他产品紧密整合,连通云平台上孤立的多种数据存储服务,让客户在云平台上的数据流转更加便捷。
未来,青云大数据工作台的功能规划将体现在三个方面:
一是数据治理,数据的统一处理是大数据工作台的第一步。尽管当前大数据工作台在数据开发层面支持流批一体引擎和可视化开发,能够满足大部分客户在数据开发层面的需求。但对于有一定数据开发沉淀的企业,会需要数据治理相关的能力,下一步将打通数据治理环节,形成统一的数据处理、治理平台。
二是数据资产,企业在做数据规划和设计时,往往希望整个数据的生命周期是明确的、清晰的,如果缺少数据组织和管理的方法,就有可能构建出依赖比较复杂、层级比较混乱的数据体系。因此,青云大数据工作台将会建立比较明确的数据资产体系,为客户在数仓构建中,提供引导式的帮助。
三是优化体验,青云大数据工作台面向的是数据开发多种角色,如数据开发工程师,数据运维工程师,数据架构师等,针对不同户的视角和操作,在客户体验,以及数据作业运行的稳定性、容错性等方面将会提升。
覆盖四大场景,与KubeSphere、IoT形成合力
在使用场景上,青云大数据工作台主要可以覆盖四个场景,分别是:精细化运营分析场景,主要针对中小型互联网或移动互联网企业,满足大数据支撑业务应用的需求,如用户画像、增长分析、数据大屏等;实时计算场景,满足实时数据有加工处理需求,例如IoT终端实时数据分析、实时客户日志分析、实时运营数据分析、实时风控等,客户通过消息队列进行统一的数据标准,经过大数据工作台的计算任务处理,可分为增量数据和全量数据,进行分类处理、分类展示和应用;可视化开发运维场景,面向学习和科研机构,当任务较多时,对大数据任务进行统一调度和运维,通过分工协作进行多维度计算,实现挖掘科研数据、数据处理、输出科研分析报告;构建数仓场景,可用于数据集成、实时或离线计算、数据存储等。
据了解,青云大数据工作台主要面向物联网、工业大数据等新兴领域,会在物料能耗优化、产线效率分析、故障定位、出库物流追踪、库存优化及产品质量追溯等方面,进行大数据的深入实时分析和计算。
刘雄风介绍称,青云提供的方案不止是大数据工作台的单一产品,而是与KubeSphere容器平台和IoT平台形成合力,组建了“大数据工作台+KubeSphere+IoT”三位一体技术方案。在方案架构上,上层是物联网平台,中间是大数据平台,底层是容器平台。其中,通过容器平台进行资源的保障,提供按需使用、弹性伸缩、一键扩容、在线运维的功能保障。在大数据平台层,提供数据处理能力,结合消息中间件、数据仓库、数据服务等云原生的产品组件,从横向数据流方面提供一站式的数据实时处理和输出能力。在物联网层,形成“云、网、边、端”统一管理、统一数据采集和统一边缘控制。
青云大数据工作台+KubeSphere+IoT“三位一体”技术方案
某中国环保企业下辖21个工厂,每个工厂有3000多个采集点,一个工厂每天会产生2.6亿条数据。如果每个工厂每秒传送数据0.5 MB,每天传送数据38GB,每年就是13.36TB,一个工厂一个表(分表)会有468亿单表数据。同时,数据类型较为多样化,包括整型、数值型、字符型、布尔型等,再加上网络环境高度隔离,通过企业局域网部署和实施,严格控制边界,不允许外部访问,造成了数据采集难度,主要的应用场景是实时数据分析、BI数据统计、全量历史大数据分析和业务系统的数据分析。
对此,青云将其若干工厂利用统一的VPN网关,通过边界路由进行实时工控数据归集,再通过EMQ消息队列传输,将数据传输到Kafka消息队列中。最后,经过大数据工作台进行实时处理和分发,以及数据处理和脱敏,把热数据进行数据仓库存储,全量数据进行对象存储,将数据进行应用和展示。
某工业自动化测试设备与整线系统解决方案提供商的数据源涉及多种维度,包括机加工设备、SMT设备、AGV、立库,以及可能会引入的各种新设备、质检相关的设备(三坐标、影像仪、无线卡尺等)。同时,还有一些运营相关的IoT数据,包括水电气、空调暖通、给排水、道闸门禁、温湿度等各类楼宇园区运营信息。因此,要支持不同采集策略,包括采集频次、数据留存时间等。
考虑到数据源不同,IoT平台可进行“云、网、边、端”的统一控制,客户可以将数据通过消息中间件统一传输至大数据工作台,再进行原始库数据集成的操作。数据存储到原始数据库后,客户可将原始库单独对外提供数据权限、数据存储和数据查询服务。对于原始库存储的数据,客户还能进行数据的二次加工,形成最终结果库,结果库同样可以对外提供数据权限、数据存储和数据查询的服务。
目前,青云关注的数智场景包括智慧工业、智慧政务、智慧零售、智慧校园。
“我们所追求的是帮助企业激活数据资产,释放数据价值。未来,青云大数据将会一如既往,洞察企业需求,创新完善技术、产品及方案能力,加速企业数智化进程。”刘雄风说。
评论