星河大数据平台软件系统。
星河-大数据平台
大数据平台是一个通用的离线数据存储和分析处理平台,业务人员借助平台自助式进行线上数据导入导出、查询、分析处理,提升业务开发效率。同时大数据平台作为基础,为上层的系统,如数据仓库、机器学习平台、指标平台等提供服务。
产品功能
数据交换
线上的各种运营数据库中的数据通过数据交换导入大数据平台存储,然后进行处理分析,结果在内部暂存,再通过数据交换导出到线上数据库,供线上使用。
数据开发
支持SQL代码、Spark代码、PySpark代码进行查询和分析,方便数据分析师进行探索式的数据挖掘。
数据管理
支持对数据生命周期、血缘、数据产出、表和列权限控制等功能,支持存储结构化和半结构化数据存储。
任务调度
业务人员开发的SQL代码、Spark代码、PySpark代码可以进行周期性调度。调度的任务间可以通过依赖指定形成任务流,完成复杂的工作。
数据质量监控
全程监控数据加工流程,根据质量规则及时发现问题,并通过报警通知负责人及时处理。
数据保护伞
数据安全管理,包括数据发现、数据访问、数据风险、数据审计和规则配置等功能。
应用场景
数据开发与管理
基于海量数据的一站式开发、管理平台。
产品优势
可靠性
平台经过多行业多业务场景多年的积累,历经数十次的迭代优化,稳定性已经得到了很好的验证,实时计算接口响应可做到小于200ms以内结果返回。
高数据处理效率
计算引擎底层以Spark为主,在开源spark基础上,补充升级了catalyst计算引擎的优化自主开发,能够快速实现对于PB级数据的高效处理,数据处理效率在风控领域得到了广泛应用。
高兼容性
平台可兼容客户已经建设的大数据集群,包括cdh、华为FI、星环TDH等,可以快速对接原有平台,原有平台的数据不需要迁移。
易用性强
平台降低了大数据和机器学习的使用门槛,大量使用托拉拽的模式实现数据开发和数据分析。不仅仅满足开发人员的使用,运维、数据分析人员也可以在平台上快速操作所需数据。
高安全性
智能识别敏感数据,对敏感数据脱敏处理;监控数据安全,用户可自定义查看数据访问情况。