随着互联网技术及移动设备的普及,大量数据井喷式的产生和积累,如何有效地对海量数据进行计算及分析处理,将成为企业打通大数据与业务创新链路上的重要节点。

智能大数据平台USDP(UCloud Smart Data Platform )是 UCloud 基于多年大数据平台开发经验,自主研发的智能化、轻量级的大数据基础服务平台,提供一站式大数据集群管理和运维能力,能够帮用户快速构建起大数据的分析处理能力。USDP全面兼容开源生态,辅助企业用户快速实现大数据基础平台的建设和控制管理;结合灵活可靠的部署方式,构建海量数据的流批一体及数据湖仓一体架构,实现对数据质量、可用性、可靠性、安全性等多方面的数据治理体系建设.

01

数据计算、分析、治理面对的挑战

在新场景、新技术及新应用的推动下,数据量呈爆发式增长,在指数级增长的海量数据和类型多样的数据形式下,给企业的大数据处理能力带来了诸多挑战,企业需要从数据采集、存储、处理到数据展示及应用全链路构建或优化解决方案。

多源异构数据采集:针对数据源的结构化数据、半结构化数据、非结构化数据等多种数据源及数据类型,需要多种组件及工具进行多源异构数据集成。

流批一体化处理:全面运用大数据处理技术,由批处理场景演变为时效性更高的流处理场景,来保证业务决策的准确性和高效率,适应业务快速发展需要。

统一运维管理:为使数据驱动业务创新,面向不同场景需要快速构建并管理不同架构的大数据平台,让数据无缝进行流通、计算、处理及分析利用。

国产化信创:随着中国信息技术应用创新产业(信创)的快速发展,在积极参与信创产业发展的同时,大数据技术信创需求愈发凸显。

02

六大产品优势,快速构建大数据的分析处理能力

大数据业务系统作为企业信息系统的重要组成部分,近些年来亦成为信创的关注焦点之一。针对私有化部署场景,UCloud推出的一站式智能大数据平台 USDP,可灵活构建于 IDC 物理服务器、云 IaaS 虚拟化,依托于自研的 USDP Manager 管理工具,实现对多套大数据集群的管理,并可使用户独享大数据集群。支持开源 Hadoop 全生态,进行集群、服务、监控告警、故障诊断等智能化的运维和管理操作,从而协助用户轻松构建和管理大数据业务分析处理能力。

随着 USDP 在诸多行业及客户场景的运用,UCloud以用户需求为导向,不断完善产品设计和迭代更新, 全新推出智能大数据平台USDP 3.0,进行一系列功能及大数据生态升级,以更好地服务用户的数据处理和分析需求。

USDP 3.0具有以下核心能力:

Web 控制台,轻松管理大数据集群

USDP 集中化的管理控制台,在本次版本发布中,增加了集群管理视图功能,该视图使集群管理员对整个集群的服务状态一目了然;并可采取便捷的管理措施调整,保证系统的高可用和稳定性

在 USDP中,管理员可通过自动化向导的方式快速取得大数据服务对业务的支持;集中化的管理界面中,企业运营团队可以便捷地控制和调整服务配置和资源分配,以及一键开启/关闭 Kerberos,极大简化配置和管理的复杂性;自动化向导支持快速部署集群、扩展集群主机、给集群添加新的大数据服务,扩展服务实例等操作;结合预制的告警模板和自定义告警,使用户可以清晰掌握集群和集群中所有服务组件的运行状况。

一键开启或关闭 Kerberos 安全模式,为大数据服务的安全保驾护航

数据和服务的安全保障,一直是企业非常重视的问题。USDP 3.0具备大数据服务安全性保护能力,通过流程化配置,快速开启对集群服务的检测,结合细粒度的权限控制能力,使得大数据集群服务及数据的安全性整体上得到保护。

在 USDP 中,支持了向导化和自动化管理安全模式,通过 Kerberos 的运用,为集群中的用户、服务和主机提供身份认证和授权管理能力,其强大的安全性和跨平台支持特性,确保只有经过身份验证的用户才能访问受保护的资源,为集群免受未经授权的访问和攻击提供了强有力的保护,帮助集群实现高度的安全性和可靠性。集群中的各个组件和服务(如 HDFS、YARN 等)可以通过 Kerberos 进行认证和授权管理,从而保护数据和应用程序的安全性。助力企业提升管理效率和信息安全水平。

大数据集群平滑升级,为需求升级提供有力支撑

集群的持续平滑升级能力,是保障用户基于该平台构建和管理的大数据服务,并获得持续维护和升级的重要支撑,平台及服务的灵活扩展能力,是应对随业务需求不断变化的架构优化的迫切需要

企业在大数据相关业务方面的不断拓展和深入,数据类型变得更加丰富,数据量级爆发式增长,对数据处理时效的需求不断提高。因此,对于企业前期围绕数据仓库技术构建的大数据平台系统也带来了更高要求,亟需进行系统性升级和技术架构拓展,以满足企业业务持续发展的需要。

USDP 支持集群的持续升级和组件特性等持续拓展。用户可灵活选择大数据平台架构,无论是数仓架构的优化、流式计算的引入,甚至向流批一体架构、湖仓一体等架构演进,通过USDP 都能获得支撑。

配置角色组管理,有效提升资源利用率和管理效率

角色组的功能,是将服务配置按实例角色类型分配给相应的角色组,组中各个角色继承这个组配置,助力大规模分布式服务便捷管理;根据集群主机环境、服务的特殊要求,为不同的主机或服务自定义分配不同的角色组,从而达到资源利用率和管理效率的有效提升。

UDH 更新及发布,多版本可灵活选择

UCloud 大数据组件发行套件,集成了丰富的开源项目,使企业可灵活构建一个功能先进的大数据系统;套件提供了强大的自动部署、管理和监控工具,便于用户操作维护大数据集群;套件中包含了更多的补丁和功能特性,为分布式大数据系统提供稳定性和性能保障。本次 UDH v3.0.0 的发布中,使其囊括的数据采集工具、流批计算引擎、调度系统、存储系统等服务,可全面兼容 Hadoop 3.3.4 版本生态。

宿主环境的修复能力,为运维人员减负

大数据集群宿主环境的修复及初始化能力,大大简化了基础运维在搭建大规模集群前,所需要进行的繁琐的基础设施环境准备工作;自动化修复工具良好的幂等性支持,能有效控制手动运维的出错概率,极大地降低运维人员的工作量和维护成本,保障了系统稳定性、可靠性及安全性。通过工具自动化的能力实现快速部署、配置、升级等复杂操作,使用户更加专注于数据分析业务的推进。

03

关键应用场景

1) 离线/实时数仓架构场景

离线数仓将数据从源系统中抽取出来,经过清洗、转换和加载(ETL)等步骤,使数据按照一定的规则组织到数据仓库中,再通过报表等方式对数据进行分析和挖掘。而离线数仓所擅长处理的大规模数据能力,却不可避免的带来一定的数据延迟性,而实时数仓解决了这一问题。

在实时数仓中,以实时或近乎实时的方式处理数据,将数据通过流式处理引擎(例如 Kafka、Flink 等)实时抽取、清洗、转换和加载到数据仓库中,再通过可视化工具等方式对数据进行实时监控和分析。基于USDP 中丰富的大数据技术的选择,企业可根据自身的发展需要,灵活搭建并不断优化整合自己的大数据平台架构,构建适宜的数仓架构场景

2) 流批一体架构场景

流批一体架构的思想是将流处理和批处理整合在一起,提供更加全面和高效的实时数据分析能力。如使用 Flink 引擎及 Kafka 消息队列等引擎和工具的组合架构,可以在实时数据流中进行复杂的事件驱动处理,并兼顾批处理任务。

依托于 Flink 引擎提供的丰富的流处理和批处理 API,和强大的状态管理和容错能力,使得流批一体架构可以更加可靠和高效地处理数据。在减少架构的复杂性和维护成本的同时,使企业达到更加灵活地处理数据的目的,并更好地适应业务需求的变化。而 USDP 中提供了丰富的大数据生态服务、工具和框架的支持,能很好帮助企业构建灵活且复杂的大数据处理架构。

3) 数据湖/湖仓一体架构场景

在将数据湖和数据仓库的优点深度结合的“湖仓一体”数据架构中,以多种格式的数据统一存储为基础,可很好的避免数据冗余和一致性问题;统一高效的数据处理和清洗带给数据质量和可用性有力保障;在该架构的支撑下,企业可开展如批处理、流处理、实时处理等多种模式的数据分析方式,借助 SQL 查询分析、OLAP 分析、数据挖掘、机器学习来满足应用的分析需求;通过该架构,更有利于企业实现数据的管理和治理,从而提高数据的可靠性和可信度。

Hadoop 生态系统、HBase、Hive 等存储框架、Kafka 流处理平台、Presto 查询引擎、Flink/Spark 等流/批处理框架、以及 Hudi、Iceberg 等引擎和存储格式,正是构建湖仓一体架构所需要的,USDP 可以有效解决这些工具、框架和服务的相互兼容问题,以及统一的管理和监控维护,给企业带来丰富且便捷的支持,以满足企业对数据的各种需求。

04

落地案例

USDP 智能大数据平台的发布,将致力于帮助企业快捷构建和管理大数据业务的分析处理能力,提升数据分析管理能力,释放数据价值,驱动业务创新。当下 USDP 大数据平台已在多个行业客户案例中落地,基于一站式数据处理能力,支撑用户业务创新:

某能源行业大数据系统需要对电力数据进行采集和分析,对数据的采集频度、精度及延迟要求较高,对于大数据基础平台架构的稳定性和性能要求非常高。UCloud 为用户提供优钛私有云及 USDP 智能大数据平台,共同承载大数据分析处理和数据业务应用。如通过USDP 采集耗电数据,通过数据处理算法,对采集上来的异常数据进行修正,实现耗电趋势分析,在不断累积的数据基础上,进行数据模型训练,实现电量精准预测。

航天科技某研究所质量精益分析系统,基于科研产品研制过程数据,通过全链路生产数据的集成,打通信息链,提供产品生产数字化履历、质量问题复查、设计特性分析、可靠性量化评估、产品质量状况异常等业务应用功能。采用 USDP 构建一站式大数据基础平台,由源数据层、数据存储层及数据处理分析层构成,进行数据集成、接入和预处理,结合数据分析和展现应用层实现数据的具体利用,发挥数据价值,提升产品研制的质量。

未来,USDP 大数据团队将密切关注并紧跟大数据技术生态和趋势,结合用户需求和场景提供更多大数据场景组件和最佳实践方案,为企业提供更多可靠、安全、可扩展的大数据分析处理功能