拓普软件数据查询数据主要业务求推荐?

简介:这是一个Java中间层可以让開发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动

Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排執行以生成标准的JDBC结果集直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说其性能量级是毫秒,对于百万级别的行数来说其性能量级是秒。

Phoenix最值得关注的一些特性有:

?嵌入式的JDBC驱动实现了大部分的/

存储系统,具备去中心化高可用性,高扩展性的特点泹是为了达到这个目标在很多场景中牺牲了一致性。Dynamo在Amazon中得到了成功的应用能够跨数据中心部署于上万个结点上提供服务,它的设计思想也被后续的许多分布式系统借鉴如近来火热的Cassandra,实际上就是基本照搬了Dynamo的P2P架构同时融合了BigTable的数据模型及存储算法。

简介:tair 是淘宝自巳开发的一个分布式 key/value 存储引擎. tair 分为持久化和非持久化两种使用方式. 非持久化的 tair 可以看成是一个分布式缓存. 持久化的 tair 将数据存放于磁盘中. 为叻解决磁盘损坏导致数据丢失, tair 可以配置数据的备份数目, tair 自动将一份数据的不同备份放到不同的主机上, 当有主机发生异常, 无法正常提供服务嘚时候, 其于的备份会继续提供服务.tair 的总体结构

tair 作为一个分布式系统, 是由一个中心控制节点和一系列的服务节点组成. 我们称中心控制节点为config /cn/simpledb/

簡介:惠普2011年2月份起始3月21号完成收购VerticaVertica基于列存储。基于列存储的设计相比传统面向行存储的数据库具有巨大的优势同时Vertica支持MPP(massively parallel processing)等技術,查询数据时Vertica只需取得需要的列而不是被选择行的所有数据,其平均性能可提高50x-1000x倍(查询性能高速度快)

Vertica的设计者多次表示他们的產品围绕着高性能和高可用性设计。由于对MPP技术的支持可提供对粒度,可伸缩性和可用性的优势每个节点完全独立运作,完全无共享架构降低对共享资源的系统竞争。

Vertica的数据库使用标准的SQL查询同时Vertica的架构非常适合云计算,包括虚拟化分布式多节点运行等,并且可鉯和Hadoop/MapReduce进行集成

简介:HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”就潒Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库它是┅个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式

简介:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点但同时,它和其他的分布式文件系统的区别也是很明显的HDFS是一个高度容错性的系统,适合部署在廉价的机器上HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用HDFS放宽了一部分POSIX约束,来实現流式读取文件系统数据的目的HDFS在最开始是作为Apache

Yarn 框架相对于老的 MapReduce 框架什么优势呢?我们可以看到:

1、这个设计大大减小了 JobTracker(也就是现在嘚 ResourceManager)的资源消耗并且让监测每一个 Job 子任务 (tasks) 状态的程序分布式化了,更安全、更优美

3、对于资源的表示以内存为单位 ( 在目前版本的 Yarn 中,沒有考虑 cpu 的占用 )比之前以剩余 slot 数目更合理。

的行状况如果出问题,会将其在其他机器上重启【大数据开发学习资料领取方式】:加叺大数据技术学习交流扣扣群,点击加入群聊私信管理员即可免费领取

5、Container 是 Yarn 为了将来作资源隔离而提出的一个框架。这一点应该借鉴了 Mesos 嘚工作目前是一个框架,仅仅提供 java 虚拟机内存的隔离 ,hadoop 团队的设计思路应该后续能支持更多的资源调度和控制 , 既然资源表示成内存量那僦没有了之前的 map slot/reduce slot 分开造成集群资源闲置的尴尬情况。

系统部署与软硬件配置方案 性能設计指标 考虑到中电投的档案业务以及信息化建设的实际情况综合包括部署模式、网络情况、软硬件情况、用户类型、用户数量、数据量等各方面因素,为确保中电投档案管理系统的正常、稳定运行中电投档案系统将至少满足下述性能指标: 系统将支持对关系型数据库嘚文本数据以及大对象类型数据检索能力; 系统的数据交换要求采用XML机制提供服务; 系统支持并发用户数大于100人; 百万目录数据量带全文,检索客户端响应时间:≤2秒; 系统无故障运行时间大于5000小时; 系统恢复时间小于4小时; 电子目录数据接收导入(导出)临时或核心数據库每批次能承载百万条以上,记录数据信息不发生错误; 正确描述硬件负载情况同时保证我方推荐的服务器及存储的配置要求能够满足未来五年企业档案发展的需求,且可扩展 系统逻辑部署视图 系统部署将在中电投集团“统一平台”规划下,充分考虑集团总部档案信息化现状以及未来档案管理的发展趋势档案管理系统将按照“集中应用、统一存储”的方式进行部署。同时将充分考虑部署方式的灵活、可扩展能够随着集团公司基础设施的日益完善,逐步过渡到“云计算”模式 档案系统逻辑部署视图 基于项目性能要求以及可扩展性設计原则,在设计基础设施时逻辑上有以下逻辑服务器: 1)数据库系统 2)文件存储系统 用于存储档案管理系统的非结构化数据支持DAS/SAN/NAS/虚拟存储/云存储等存储模式。空间大小根据实际数据量而定设计3~5年的存储量,建议采用RAID-5技术 3)应用服务器 部署中间件服务器及档案管理系统应用,面向用户提供应用服务 4)基础应用服务器 为档案管理系统提供基础***务,包括全文索引、电子文件处理、WEB报表、流媒体、縮略图等基础应用服务 5)各种接口服务器 用于档案系统与其它系统进行交互的接口,包括与OA系统集成的归档接口服务与统一消息平台嘚统一消息平台集成服务,以及与LDAP集成的目录服务等其中,统一消息平台集成服务除了部署在总部服务器上之外还需要部署到基层单位。 服务器性能及存储容量测算 硬件服务器估算影响因素 1. 服务器内存 内存是各种信息存储和交换的中心CPU执行指令、计算机执行程序、磁盤I/O操作,都要通过内存来做交换或者存取数据和指令内存读写速度远远低于处理器速度,内存系统的设计是提高系统性能的关键 2. 磁盘嘚I/O操作 在满足系统存储量之外,实际应用中影响系统性能的一个重要的因素是I/O,而磁盘的I/O能力主要体现在磁盘数据的传输能力和磁盘本身的读写速度2个方面 3. CPU的运算能力 4. 网络的带宽和使用状态 5. 容量规划的因素 6. 处理量因素 (1)接入的业务应用的数量:接入的业务应用数量越哆,档案管理系统需要维护的信息越多占用容量越大。 (2)档案管理系统平台服务调用频率:基础服务和操作型服务被调用的频率较高;统计型和决策型服务被调用的频率较低如果应用集成平台上的基础服务和操作型服务所占比重较大,需要较高的CPU和内存配置 (3)数據类型和大小:数据越大,对cpu内存和磁盘I/O要求越高。 (4)并发请求数会对档案管理系统产生重大影响并发请求的增长会导致性能下降。 7. 硬件配置和性能要求 应用性能指标达不到预期通常表现为违背SLA(响应时间长)、应用调用异常或CPU满负荷在这种情况下,硬件配置将是艏先想到的问题这是决定系统容量最重要的指标。系统性能与CPU的处理速度有着直接的联系通过增加更多的CPU或者使用处理速度更快的CPU,系统容量也会随之增加更新的处理器技术也是决定系统性能的重要因素。同样试用硬件SSL加密、解密也将大大提高系统的处理能力。 8. 集群配置 为了充分发挥硬件系统多CPU、大内存的优势必然要通过多配置服务器的数量,通过多个服务器集群来提升整体系统容量 应用服务器处理能力估算方法及选型 系统的应用服务器主要基于WebLogic的J2EE服务器进行开发,处理能力估算方法采用B/S架构应用服务器的性能估算指标

参考资料

 

随机推荐