湖仓一体技术解读,巨杉数据库湖仓一体打造多模数据融合管理方案
IDC研究报告显示,到2024年,全球数据总量将超过145ZB,且每年以22%的速度持续增长。其中,非结构化数据的规模尤其明显。在金融银行业中,对非结构化数据的利用,已经成为提高业务效率和提升盈利能力的有效方法。SequoiaDB从「多模数据湖」、「实时数据湖」发展到「湖仓一体」架构,为客户提供「数据核心」所需的全量数据存储,实时对客服务,及基于统一数据源的分析能力,以湖仓一体技术充分激活客户的离线数据。
数据来自IDC
传统数据存储架构的局限性
随着移动互联网的飞速发展和企业数字化转型的深入,金融银行业的应用场景不断丰富,非结构化数据已经深入到日常业务办理的各个环节中并发挥重要作用。
一直以来,企业内容管理系统以国外ECM软件为主流, 典型产品如IBM CM、Filenet及EMC documentum等,其底层均采用集中式数据存储架构。该架构无论从性能、扩展性,还是维护成本方面,遇到了严峻的挑战,已经无法适应新时代内容数据的管理需求。
架构复杂 & 成本高昂
并发性、扩展性局限
高可用、容灾能力不足
此外,也有国内开发商采用『关系型数据库+对象存储』方案,来构建内容管理系统,例如『MySQL+Ceph及其衍生品』。相比于前一种方案,存储容量和扩展性得以增强,成本有所降低。但同样无法解决复杂的技术栈带来的学习成本高、难于维护的问题。
巨杉数据库 - 多模数据湖方案
巨杉数据库深耕金融银行业,聚焦于从 “数据湖” 到 “湖仓一体” 的技术架构,针对业界对海量非结构化数据存储管理的需求,提出“多模数据湖”技术方案。
「多模数据湖」,是一种全量、即时使用、高性能的「一站式」数据存储方案。它强调采用多模、高扩展的分布式数据库,作为内容管理平台的存储底座,实现各类数据的统一存储(结构化、非结构化、半结构化)。通过丰富、灵活的访问接口,提供多样化的数据处理及服务能力,灵活应对海量非结构化数据的应用场景。
巨杉「多模数据湖」技术架构
引擎级多模 & 丰富的开发接口
提供引擎级多模能力,支持结构化、非结构化、半结构化数据的统一存储。同时提供了丰富的开发接口,结构化数据兼容SQL语法,非结构化数据支持S3、原生API、RESTful协议等数据访问接口,可帮助企业降低业务系统的开发难度,提升开发效率。
超大容量 & 在线弹性扩容
支持百PB级存储容量,支持在线水平扩展,轻松应对数据爆发式增长,可灵活适用于不同规模、不同类型的非结构化数据应用场景。
高性能、低成本
保障企业内容数据全量在线,支持多策略分区管理及分域缓存,采用资源池化的存储引擎层,提升海量数据管理效率及处理性能,大幅降低硬件及运维成本,TCO只为传统ECM方案的1/3。
高可用、容灾
采用多副本技术,支持多种级别的容灾部署形态,如同城双中心、同城三中心、两地三中心及三地五中心等,根据实际业务及监管要求,最大程度提升系统可用性和容灾能力,降低RTO/RPO。
数据管理
数据库层支持冷热数据分层管理、多租户分域管理,支持服务器差异化部署,实现成本与性能兼顾。服务管理层提供多项内容管理特性,支持如数据生命周期管理、权限管理、对象版本控制、历史版本回溯等,进一步提升数据安全性,帮助企业提升数据治理水平。
分类传统ECM
方案RDBMS+对象存储
方案巨杉数据库
「多模数据湖」方案
复杂性高高低
运维难度高高低
扩展性低中高
性能中中高
自主可控低中高
典型案例
目前,巨杉已经和众多合作伙伴一起,基于湖仓一体「多模数据湖」存储底座,帮助超过100家金融客户,构建全类型内容管理平台,支撑众多的音视频管理、双录系统、柜面无纸化等业务系统。
某股份制银行,基于巨杉「多模数据湖」构建的新一代湖仓一体内容管理平台,已完成超过120个业务系统的接入,容量达840TB,集群规模135台服务器,现已持续稳定运行超过6年,接入系统如零售信贷、征信、单证、无纸化、会计档案、流程银行等。
某省农信内容管理平台,已实现全社近60%的非结构化数据的纳管,接入信用卡、双录、集中作业、信贷、征信、无纸化、国结等44个业务系统,更多系统仍在规划接入中。平台上线已超过3.5年,容量达350TB。
结语
巨杉数据库基于湖仓一体架构致力于为金融银行业客户,解决海量非结构化数据在存储、管理时面临痛点与挑战,实现降低成本、提升效率、提升用户体验的同时,提高数据治理水平,进一步盘活数据资产价值,为业务提供高价值的信息输入。
未来,巨杉将与合作伙伴紧密携手,以湖仓一体架构为企业构建新一代内容管理平台,提供优质的产品、技术服务及生态支持,在数字化转型过程中,以湖仓一体技术共同为客户提升数据价值。