首页数据库分布式数据库hbase,为什么说HBase是列式数据库

分布式数据库hbase,为什么说HBase是列式数据库

编程之家2023-10-21102次浏览

大家好,感谢邀请,今天来为大家分享一下分布式数据库hbase的问题,以及和为什么说HBase是列式数据库的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!

分布式数据库hbase,为什么说HBase是列式数据库

Hbase和传统数据库的区别

HBase与传统关系数据库的区别?

答:主要体现在以下几个方面:1.数据类型。关系数据库采用关系模型,具有丰富的数据类型和储存方式。HBase则采用了更加简单的数据模型,它把数据储存为未经解释的字符串,用户可以把不同格式的结构化数据和非结构化数据都序列化成字符串保存到HBase中,用户需要自己编写程序把字符串解析成不同的数据类型。

2.数据操作。关系数据库中包含了丰富的操作,如插入、删除、更新、查询等,其中会涉及复杂的多表连接,通常是借助多个表之间的主外键关联来实现的。HBase操作则不存在复杂的表与表之间的关系,只有简单的插入、查询、删除、清空等,因为HBase在设计上就避免了复杂的表与表之间的关系,通常只采用单表的主键查询,所以它无法实现像关系数据库中那样的表与表之间的连接操作。

3.存储模式。关系数据库是基于行模式存储的,元祖或行会被连续地存储在磁盘页中。在读取数据时,需要顺序扫描每个元组,然后从中筛选出查询所需要的属性。如果每个元组只有少量属性的值对于查询是有用的,那么基于行模式存储就会浪费许多磁盘空间和内存带宽。HBase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的,它的优点是:可以降低I/O开销,支持大量并发用户查询,因为仅需要处理可以回答这些查询的列,而不是处理与查询无关的大量数据行;同一个列族中的数据会被一起进行压缩,由于同一列族内的数据相似度较高,因此可以获得较高的数据压缩比。

4.数据索引。关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据访问性能。与关系数据库不同的是,HBase只有一个索引——行键,通过巧妙的设计,HBase中所有访问方法,或者通过行键访问,或者通过行键扫描,从而使整个系统不会慢下来。由于HBase位于Hadoop框架之上,因此可以使用Hadoop MapReduce来快速、高效地生成索引表。

6.数据维护。在关系数据库中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。而在HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有的版本仍旧保留。

分布式数据库hbase,为什么说HBase是列式数据库

7.可伸缩性。关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。相反,HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的,因此能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩。

但是,相对于关系数据库来说,HBase也有自身的局限性,如HBase不支持事务,因此无法实现跨行的原子性。

注:本来也想来问这个问题,然后复制一下的。结果找不到,只好自己手打了,麻烦复制拿去用的同学点下赞呗。

为什么说HBase是列式数据库

Hbase是一个面向列存储的分布式存储系统,它的优点在于可以实现高性能的并发读写操作,同时Hbase还会对数据进行透明的切分,这样就使得存储本身具有了水平伸缩性。

通常,顺序读取数据要比随机访问更快。而且,硬盘寻址时间的提升比起CPU速度的进步要慢得多(参看摩尔定律),在使用硬盘作为存储媒介的系统上这种情况很可能还会持续一段时间。

下面简单罗列了一些选择行数据库还是列数据库的权衡依据。当然,如果能够把数据全放在内存中,那么使用内存数据库性能会更好。

分布式数据库hbase,为什么说HBase是列式数据库

特点:

因为硬盘寻址时间相较于计算机上其他部件的运行速度来说不是一般的慢,所以常用相同工作负载下的硬盘访问性能来比较行数据库和列数据库。

在只需要根据某几列来聚合数据的时候按列的数据组织方式更有效。因为这样只需要读取一部分数据,要比读取全部数据更快。

当只需要修改某一列值的时候按列的数据组织方式更有效。因为可以直接找到某列数据并改,而与行中的其他列无关。

hbase虚拟分布式模式需要多少个节点

Copyright© 1999-2020, CSDN.NET, All Rights Reserved

登录

HBase实战+权威指南

《HBase实战》是一本基于经验提炼而成的指南,它教给读者...在HBase中集成用于海量并行数据处理任务的Hadoop的MapReduce框架;助你了解如何调节集群、设计模式、拷贝表、导入批量数据、删除节点以及其他更多的任务等。

HBase

hbase权威指南

《HBase权威指南》探讨了如何通过使用与...在HBase中集成MapReduce框架;了解如何调节集群、设计模式、拷贝表、导入批量数据和删除节点等。《HBase权威指南》适合使用HBase进行数据库开发的高级数据库研发人员阅读

hbase

浅谈HBase的数据分布_weixin_34337381的博客-CSDN博客

本文从数据分布问题展开,介绍HBase基于Range的分布策略与region的调度问题,详细讨论了rowkey的比较规则及其应用,希望能够加深用户对HBase数据分布机制和rowkey的理解,...

Hbase超详细架构解析_weixin_33767813的博客-CSDN博客

注意:client访问hbase上的数据时不需要Hmaster的参与,因为数据寻址访问zookeeper和HregionServer,而数据读写访问HregionServer。Hmaster仅仅维护table和region的元数据信...

Apress- Pro Hadoop

这两个函数由程序员提供给系统,下层设施把Map和Reduce操作分布在集群上运行,并把结果存储在GFS上。 3、BigTable。一个大型的分布式数据库,这个数据库不是关系式的数据库。像它的名字一样,就是一个巨大的表格...

Hadoop

分布式协调工具-ZooKeeper实现动态负载均衡

在分布式环境中,相同的业务应用分布在不同的机器上,有些业务逻辑(例如一些耗时的计算,网络I/O处理),往往只需要让整个集群中的某一台机器进行执行,其余机器可以共享这个结果,这样可以大大减少重复劳动,提高...

Hbase概念详解_fenglei0415的博客-CSDN博客

所以,HBase在表的设计上会有很严格的要求。架构上,HBase是分布式数据库的典范,这点比较像MongoDB的sharding模式,能根据键值的大小,把数据分布到不同的存储节点上...

面试题_HBase_qq_40822132的博客-CSDN博客

物理模型:整个hbase表会拆分成多个region,每个region记录着行键的起始点保存在不同的节点上,查询时就是对各个节点的并行查询,当region很大时使用.META表存储各个...

论文研究-文本挖掘中一种基于参数估计的语句分块方案研究.pdf

该方法要求生成并存储大量词组频率数据,并在每次迭代时支持计算节点快速访问数据。实验评估表明,该方案显著降低了远程数据库查询次数,其端到端应用运行时间要比只基于HBase的原始分布式部署快出6倍。

数据集参数估计文本挖掘幂律

2017最新大数据架构师精英课程

57_hadoop伪分布模式8 I/ e; `1 Y$ b+ p1 R5 ^ 58_编写分发脚本-xcall-rsync1 X% G: Y' Q;}5 I$ [ 59_hadoop完全分布式-hdfs体验 60_hadoop的架构原理图 61_临时文件 62_hadoop的简单介绍, p5 P$@+ O2 V. p} 63_...

Hbase史上最详细原理总结_二十-CSDN博客

表在行的方向上分割为多个Region; Region是Hbase中分布式存储和负载均衡的最小单元,不同Region分布到不同RegionServer上。 Region按大小分割的,随着数据增多,Region...

分布式开源数据库_HBase入门介绍_aa_maple的博客-CSDN博客

Hbase与HDFS是什么关系

HDFS是GFS的一种实现,他的完整名字是分布式文件系统,类似于FAT32,NTFS,是一种文件格式,是底层的,Hadoop HDFS为HBase提供了高可靠性的底层存储支持。

HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统。

扩展资料:

Hadoop中各模块的作用:

1、Hadoop HDFS为HBase提供了高可靠性的底层存储支持。

2、Hadoop MapReduce为HBase提供了高性能的计算能力。

3、Zookeeper为HBase提供了稳定服务和failover机制。

4、Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变得非常简单。

5、Sqoop则为HBase提供了方便的RDBMS(关系型数据库)数据导入功能,使得传统数据库数据向HBase中迁移变得非常方便。

参考资料来源:百度百科-HBase

好了,关于分布式数据库hbase和为什么说HBase是列式数据库的问题到这里结束啦,希望可以解决您的问题哈!

8核16g服务器,服务器8核16g算高配吗戴尔服务器总代理?戴尔笔记本怎么连接代理