大数据平台解决方案

海量数据存储能力,强大分布式计算能力,多种类型数据存储能力,实时流式计算支持,大数据分析应用支持

背景分析

 

随着物联网、社交网络、云计算等技术不断融入当今社会生活再加上现有的计算能力、存储空间、网络带宽的高速发展,人类积累的数据在互联网、通信、金融、商业、医疗等诸多领域不断地增长和累积。数据规模级别不断升级、数据应用的不断深入和大数据不可忽视的价值推动我们不断探索如何才能从这些数据中受益。

 

大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合当未来企业尝试分析现有海量信息以推动业务价值增值时,必定会采用大数据技术。相对于传统数据,大数据具有四个典型特征:数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)。

 

在上述背景下,Hadoop应运而生了,Hadoop雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。Hadoop的核心就是HDFS和MapReduce,而两者都只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,都是基于HDFS和MapReduce发展而来的。

 

 

安正软件解决方案

 
安正软件大数据平台解决方案由大数据平台、大数据分析平台两部分内容构成,其中大数据平台致力于大数据内容存储、流式计算、数据仓库存储以及相对应的数据采集与处理技术;大数据分析平台主要应用于商业智能与预测分析,涉及绩效、风险、决策支持、内容分析等应用领域。相对于传统数据仓库解决方案,基于大数据平台的数据仓库解决方案体系架构核心在于大数据平台的存储、计算能力、分析能力支撑。
 

产品选型

Hadoop可供选择的版本包括Hadoop社区开源版本和Hadoop发行版本,Hadoop社区开源版本主要包括Apache Hadoop、Cloudera Hadoop社区版、Hortonworks Hadoop社区版、MapR Hadoop社区版等版本,其中Cloudera Hadoop社区版在国内金融行业应用较为广泛;Hadoop发行版本主要包括Cloudera Hadoop发行版、Hortonworks Hadoop发行版、MapR Hadoop发行版、星环Transwarp Data Hub(TDH)、华为Hadoop 版本等。

 

✔ Cloudera Hadoop
Cloudera是Hadoop开源项目的创建者和最大贡献者,可提供Cloudera Hadoop社区免费版和发行版两行版本。Apache Hadoop安装、部署、管理的难度非常大, Cloudera提供了非常简单的Hadoop的发布版本,能够十分方便地对Hadoop进行安装、部署和管理,目前大约有75%的Hadoop新用户使用Cloudera。

 

✔ 星环Transwarp Data Hub(TDH)
Transwarp的大数据综合平台(Transwarp Data Hub,简称TDH)包含五个组成部分:Transwarp Hadoop基础平台,Transwarp Inceptor分布式内存分析引擎,Transwarp Discover分布式机器学习引擎,Transwarp Hyperbase分布式实时在线数据处理引擎和Transwarp Stream流处理引擎。

 

方案价值

 

海量数据存储能力

依托Hadoop提供的HDFS分布式存储架构,大数据平台解决方案可以实现超大规模数据存储的支持,并可以通过横向节点扩展提升平台数据存储能力。硬件成本更低、数据冗余存储、容错性高、分布式读取性能高,可适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量。

 

强大分布式计算能力

通过Map/Reduce、Hive、Spark、Impala等分布式计算技术,可满足大数据批量计算、内存分布式计算、快速灵活查询等强大分布式计算需要。

 

多种类型数据存储能力

大数据平台支持结构化和各类非结构化数据的存储,支持结构化文本、图片、文档、视频、音频、日志、邮件、传感器、GPS等多种类型的数据存储。

 

实时流式计算支持

大数据平台提供实时流式计算能力,包括关系型数据库实时处理、日志流实时处理等多种流式计算,支持大批量小型数据的处理,实时性好,可支持近似秒级实时数据处理。

 

大数据分析应用支持

大数据平台通过Spark+R、Spark+Python等多种技术可以提供网络爬虫、全文检索、语义分析、机器学习、金融计算、挖掘算法等多种分析应用支持。

 

 

应用案例


 
南方基金大数据中心
广发证券托管数据中心
交银施罗德大数据中心