聚人动力大数据管理平台BigData Platform(Incebo BDP)
平台功能总览:
- 快速部署:通过光盘快速部署集群系统,通过简单易用的WEB页面视图方式维护,通过平台管理随时增加、删除、编辑集群节点;
- 集群监控:提供清晰直观的系统物理资源、计算任务的监测工具;
- 数据管理:提供数据可视化界面、数据质量审核功能和访问权限管理;
- 丰富API:平台提供简单易用、易开发的API接口。
聚人动力BigData Platform优点
- 功能强大:具有存储,处理和分析全量数据的优势;
- 高效:使计算和数据相结合,以提高运营效率;
- 简单:易于部署和集中管理与运维;
- 兼容:高可扩展和充分利用现有的IT投资降低TCO;
- 经济:比传统解决方案有高达90%以上的成本效益;
- 灵活:支持任何类型的数据存储和不同的计算框架,包括自由文本搜索,交互式SQL,批量处理,机器学习算法和统计计算。
- 企业就绪:配备关键能力,以支持关键任务业务;
产品功能列表:
基于CDH4 |
||
核心 |
Hadoop |
具有可以部署在低廉的X86服务器架构上的分布式文件系统(Hadoop Distributed File System),简称HDFS,具有高容错、高性能、高稳定、可靠、高效、可伸缩的特点,可管理PB级海量数据的大数据应用平台。它的成本比较低,任何政府机构、公司企业和个人都可以使用。 |
Flume |
高可用和高可靠的分布式海量日志采集、聚合和传输系统,支持在日志系统中定制各类数据发送方,用于采集和收集数据。 |
|
Hive |
基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 |
|
Mahout |
机器学习分布式算法库 |
|
Oozie |
工作流的安装部署、参数配置、作业日志监控 |
|
Pig |
海量数据并行计算分析平台,它提供了一个简单的类SQL操作和编程接口,Pig编译器会把类SQL的数据分析请求转换为经过优化处理的MapReduce任务。 |
|
Sqoop |
将Hadoop HDFS和关系型数据库中的数据相互转移的工具,支持:MySQL ,Oracle ,Postgres等。 |
|
Zookeeper |
高有效和高可靠的协同工作系统,用来Leader选举、配置信息维护、分布式独享锁、队列的接口等服务。 |
|
HBase |
高可靠性、高性能、面向列、可伸缩的分布式存储系统数据库,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 |
|
HDFS为HBase提供了高可靠性的底层存储支持,HBase位于结构化存储层;HBase利用MapReduce来处理海量数据,为HBase提供了高性能的计算能力;再利用Zookeeper作为协同服务,它为HBase提供了稳定服务和故障转移机制;Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。此外,Hive和Pig还为HBase提供了高层语言支持,使得在HBase上进行数据计算和分析变的非常简单。 |
||
Impala |
运行在Hadoop之上的大规模并行处理(MPP)的RTQ(实时查询引擎),通过可扩展的并行数据库技术,使用户能够低延迟的利用SQL查询数据。 |
|
集群运维管理 |
||
平台管理 |
部署与配置 |
BDP和操作系统一键安装部署、各组件的参数配置和角色配置等。 |
服务管理 |
集群运行服务的管理,包括运行时间、运行成功、运行失败、报错告警、重新启动等。 |
|
诊断 |
系统告警与诊断建议 |
|
API接口 |
通用和公开的Hadoop API接口,以及BDP平台的数据接口 |
|
滚动更新/重新启动 |
平台性能实时更新和重启功能 |
|
SNMP支持 |
支持SNMP协议 |
|
LDAP集成和迁移 |
同步、配置、更新、权限管理等 |
|
配置历史记录及恢复 |
可视化的平台参数配置记录及恢复窗口 |
|
操作报告 |
提供BDP平台操作日志查询功能:集群各节点的起停时间、任务的运行情况、用户登录系统的操作日志记录等。 |
|
灾难恢复 |
建立数据备份和灾难恢复机制 |
|
集群数据管理 |
||
数据管理 |
数据质量审核 |
HDFS、HBase、Hive在使用新数据之前,用户要确认、更正错误数据,并在数据启用后提供编辑数据的工具。数据质量审核分析通常首先进行数据质量审核,即在BDP平台中进行数据准确性和完整性方面的校验。 |
访问权限管理 |
基于系统的安全规则或安全策略,由系统管理员授权通过用户名和密码登录,用户只能访问和操作被授权的数据。 |
|
集群监控管理 |
||
集群监控 |
Hadoop监控 |
1、Hadoop的HDFS在各个节点中的使用情况(块的大小,容量的大小等) 2、MapReduce的运行情况(各个节点的Map完成情况、Reduce完成情况等) 3、Job Tracker的运行情况 |
HBase监控 |
1、HBase各个节点的运行情况 2、HBase远程过程调用情况 3、HBase表可视化 4、从HBase表可视化中查询数据 |
|
Hive监控 |
1、授权 2、查看Schema,界面中显示的是当前可以使用的数据库信息 3、创建会话 4、查看系统诊断信息,可以看到系统的相关诊断信息 5、查看会话 6、列出正在运行的Jobs |
|
集群整体监控 |
关于集群最近一小时的CPU、内存、网络、负载情况 |
|
单节点监控 |
各个节点的系统情况、JVM情况以及CPU、内存、网络、负载情况 |
|
集群运维管理 |
||
集群管理 |
节点基本管理 |
集群节点增加、编辑、删除和节点的启动与关闭 |
节点角色管理 |
Hadoop、Hbase、Zookeeper、Flume等的角色管理与分配 |
|
节点配置管理 |
管理选中节点的Hadoop、HBase、Hive、Zookeeper、Flume等配置 |
|
节点互信管理 |
建立集群各节点之间的互信 |
|
集群帐号管理 |
在每个节点中建立启动集群的帐号 |
|
集群时间管理 |
节点间时间同步,保证组件和服务可以正常启动 |
|
BDP平台工具包 |
||
工具集 |
BDP平台管理工具包 |
维护平台和节点所需的工具软件。 |