Hive数据库:完整表结构汇总(hive数据库的全部表结构)

Hive数据库是一个基于Hadoop的数据仓库,可以处理大规模的结构化和半结构化数据。在Hive中,使用类似SQL语言的HQL(Hive Query Language)进行查询和操作数据,同时它还提供了自己的JDBC和ODBC驱动程序,可以与各大商业BI软件、ETL工具等进行数据交互。本文将Hive数据库中的完整表结构,包括Hive表、分区表、内部表和外部表。

成都创新互联服务项目包括巴青网站建设、巴青网站制作、巴青网页制作以及巴青网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,巴青网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到巴青省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!

一、Hive表

Hive表是最基本的表类型,数据存储在Hive的文件系统上,默认是HDFS。Hive表的结构包括表名、列名、数据类型、约束和分隔符等。

① 表名:表名是Hive中区分表的唯一标识符,它由字母、数字和下划线组成,不能以数字开头。

② 列名:列名是表中的字段名称,可以由字母、数字、下划线组成,不能包含特殊字符。

③ 数据类型:Hive支持多种数据类型,包括数值型、字符型、日期型等。

④ 约束:约束用于保护表中的数据完整性,包括主键、外键、唯一性约束等。

⑤ 分隔符:分隔符用于分隔每个字段。默认情况下,Hive使用制表符分隔符。

二、分区表

分区表是在Hive表的基础上按照一个或多个列进行分区的,分区表可以提高查询效率,并减少数据扫描的范围。在分区表中,每个分区都有自己的目录和数据文件。

① 分区列:分区列是指按照哪个列进行分区。可以按照日期、地区等列进行分区,以提高查询效率。

② 分区路径:分区路径指的是每个分区的目录路径,可以是绝对路径或相对路径,也可以是由Hive环境变量定义的路径。

③ 分区数量:分区数量指的是表中分区的个数,数量越多,查询效率越高。

三、内部表

内部表也是基于Hive表的一种类型,区别在于内部表的数据存储在Hive的默认文件系统中,即HDFS。在内部表中,数据和元数据都存储在Hive的内部数据库中。

① 库名:库名指的是内部表所在的库名,每个库都是一个命名空间。

② 表名:表名指的是内部表的名称,必须唯一。

③ 数据存储:内部表的数据存储在Hadoop分布式文件系统中。每张表有它自己的文件目录以及文件。这个表的存储路径可以进行配置。

四、外部表

外部表也是基于Hive表的一种类型,与内部表不同的是,外部表的数据存储在Hive之外的文件系统中,如本地文件系统、Hadoop分布式文件系统等。在外部表中,数据和元数据都存储在Hive的内部数据库中。

① 表名:表名指的是外部表的名称,必须唯一。

② 数据存储:外部表的数据存储在Hadoop分布式文件系统中。这个表的存储路径需要在创建外部表时指定。

③ 分隔符:外部表的分隔符和内部表类似,也是用于分隔每个字段的符号。

本文了Hive数据库中的完整表结构,包括Hive表、分区表、内部表和外部表。Hive表是最基本的表类型,分区表可以提高查询效率,内部表的数据存储在Hive的默认文件系统中,而外部表的数据存储在Hive之外的文件系统中。通过对这些表的结构和特点的了解,可以更好地使用Hive处理大规模的结构化和半结构化数据。

相关问题拓展阅读:

  • hive优化中 :好的模型设计事半功倍 怎么理解?
  • hive是怎么建表中用到其他表时怎么用

hive优化中 :好的模型设计事半功倍 怎么理解?

1 索引

Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。

Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。

hive索引的原理是建立索引表,索引表的基本包含几列:1. 源表的索引列;2. _bucketname hdfs中文件地址 3. 索引列在hdfs文件中的偏移量。

原理是通过记录索引列在HDFS中的偏移量,精准获取数据,避免全表扫描。

2 分区

为了对表进行合理的管理以及提高查询效率,Hive可以将表组织成“分区”。

分区是表的部分列的,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助。

庞大的数据集可能需要耗费大量的时间去处理。在许多场景下,可以通过分区的方法减少每一次扫描总数据量,这种做法可以显著地改善性能。

3 分桶

在分区数量过于庞大以至于可能导致文件系统崩溃时,我们就需要使用分桶来解决问题了蚂梁团。

分区中的数据可以被进一步拆分成桶,不同于分区对列直接进行拆分,桶往往使用列的哈希值对数据打散,并分发到各个不同的桶中从而完成数据的分桶过程。

分区和索引的区别:

分区是直接分割数据库,而索引是建立索引表,需要额外维护索引表

分区和分桶的区别:

分桶,是对列更细粒度的划分,分区是根据某一规则对列进行划分,比如根据日期对列进行划分,由于渣纳程序不同日期产生的数据容量可能,就会造成顶峰和低峰时段,列分区的不均匀闷橘。

分桶hive使用对分桶值进行hash,并用hash结果除以桶的个数做取余运算的方式来分桶,保证了每个桶中都有数据,但每个桶中的数据条数不一定相等,这样保证了数据的均衡。

这时,在大数据量的情况下,查询速率尤为明显,因为分桶数据更加均匀,不会造成单个查询速度过慢的情况。

分区,索引,分桶均可优化数据结构,由于hive就是映射大数据储存仓库的工具,如果不合理优化hive数据表结构,每次查询都全表扫描,速度太慢了,数据越大,全表扫描越费时

hive是怎么建表中用到其他表时怎么用

1.创建表的语句:Create TABLE table_name , …)> , …)> , …)> INTO num_buckets BUCKETS>

稍微解释下

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常。EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数 据会被一起删除,而外部表只删除元数据,不删除数据。如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。如果数据需要压缩,使用 STORED AS SEQUENCE 。有 分区的表可以在创建的时候使用 PARTITIONED BY 语升态句。一个表可以拥有一个或者多个分区,哗带每一个分区单吵芦源独存在一个目录下。而且,表和分区都可以对某个列进行 CLUSTERED BY 操作,将若干个列放入一个桶(bucket)中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。

创建普通的表:create table test_table (id int,name string,no int) row format delimited fields terminated by ‘,’ stored as textfile;

//指定了字段的分隔符为逗号,所以load数据的时候,load的文本也要为逗号,否则加载后为NULL。hive只支持单个字符的分隔符,hive默认的分隔符是\001

创建带有partition的表:create table test_part (id int,name string,no int) partitioned by (dt string) row format delimited fields terminated by ‘\t’ stored as textfile ;

用创建用\t作分隔符的表,PT为分区字段,

加载如下:

load data local inpath ‘/home/zhangxin/hive/test_hive.txt’ overwrite into table test_part partition (dt=”);

//local是本地文件,注意不是你电脑上的文件,是hadoop所在的本地文件

//如果是在hdfs里的文件,则不需要local。 overwrite into是覆盖表分区,仅仅是这个分区的数据内容,如果是追加,则不需要overwrite

创建external表:(外部表)create external table test_external (id int,name string,no int) row format delimited fields terminated by ‘,’ location ‘/home/zhangxin/hive/test_hive.txt’;

//用逗号分隔的表,且无分区, location后是外部表数据的存放路径

hive数据库的全部表结构的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于hive数据库的全部表结构,Hive数据库:完整表结构汇总,hive优化中 :好的模型设计事半功倍 怎么理解?,hive是怎么建表中用到其他表时怎么用的信息别忘了在本站进行查找喔。

成都创新互联科技有限公司,是一家专注于互联网、IDC服务、应用软件开发、网站建设推广的公司,为客户提供互联网基础服务!
创新互联(www.cdcxhl.com)提供简单好用,价格厚道的香港/美国云服务器和独立服务器。创新互联——四川成都IDC机房服务器托管/机柜租用。为您精选优质idc数据中心机房租用、服务器托管、机柜租赁、大带宽租用,高电服务器托管,算力服务器租用,可选线路电信、移动、联通机房等。

文章标题:Hive数据库:完整表结构汇总(hive数据库的全部表结构)
网址分享:http://www.shufengxianlan.com/qtweb/news43/52893.html

网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联