走近大数据之Hive入门_学习笔记

首页免费课走近大数据之Hive入门笔记

走近大数据之Hive入门

                
                赵强老师
            数据库工程师

                    查看讲师更多课程 
                    赵强老师讲师的其他课程
                
Oracle高级查询
初级·62756
免费课程
                                
Oracle触发器
初级·36826
免费课程
                                
Oracle存储过程和自定义函数
初级·56231
免费课程
                                
Oracle数据库开发必备利器之PL/SQL基础
初级·74917
免费课程
                                
                难度初级
            
                时长 2小时21分
            
                学习人数
            
综合评分9.83
                            98人评价
                        查看评价
                                10.0
                                内容实用
                            
                                9.8
                                简洁易懂
                            
                                9.7
                                逻辑清晰

最热最新

那一大剑的风情 01:23

解析器，编译器，优化器

查看全部

1 采集收起来源：Hive的体系结构之HQL的执行过程
2018-10-27
慕粉2206434494
Hive的数据存储
- 基于HDFS(Hadoop的数据仓库)
- 没有专门的数据存储格式
- 存储结构主要包括：数据库，文件，表，视图
- 可以直接加载文本文件（.TXT文件等）
- 创建表时，指定Hive数据的列分割符与行分隔符
- 表
1. table 内部表
2. Partiton 分区表
3. External Table 外部表
4. Bucket Table 桶表
- 视图
查看全部

1 采集收起来源：Hive的数据存储
2018-05-22
山羊菌

桶表(Bucket Table) 桶表是对数据进行哈希取值，然后放到不同文件存储。也就是说，桶表中的数据，是通过哈希运算后，将其打散，再存入文件当中，这样做会避免造成热块，从而提高查询速度。桶表创建--案例 >create table bucket_table (sid int, sname string, age int) clustered by (sname) into 5 buckets; //创建一个桶表，这个桶表是以sname作为哈希运算，运算后的结果放到5个桶中

查看全部

1 采集收起来源：Hive的数据模型之桶表
2018-03-22
山羊菌

Hive管理 (hive中的数据对应与hadoop hdfs中的一个文件夹) CLI(命令行方式) 直接输入hive，可进入CLI: >hive 以静默模式进入hive: >hive -S 不进入hive交互模式: >hive -e 'show tables'; >hive -e 'select * from test1'; 清屏: Ctrl + L 或者 !clear; 查看数据仓库中的表: show tables; 查看数据仓库中的内置函数: show functions; 查看表结构: desc <表名>; >desc test1; 查看HDFS上的文件: dfs -ls <目录>; >dfs -lsr /user; 执行Linux操作系统命令: !<命令> >!pwd 执行HQL语句: select *** from ***; >select * from test1; //这条语句不会转换成mapreduce作业 >select name from test1; //这时hive会将这条sql语句，解析成一个mapreduce作业，并提交到hadoop上进行执行。(我们在hive中执行的select语句，绝大多数，会被解析成mapreduce作业，进行执行) 执行SQL脚本: source <SQL文件>; >source /root/my.sql; //前提条件是root目录下，有my.sql这个文件

查看全部

1 采集收起来源：Hive的管理之CLI方式
2018-03-22
山羊菌 02:43

Hive的元数据 -Hive将元数据存储在(metastore),支持mysql，derby等数据库 -Hive中的元数据(数据的数据)包括表的名字，表的列和分区及其属性，表的属性(是否为外部表),表的数据所在目录。

查看全部

1 采集收起来源：Hive的体系结构之元数据
2017-11-06
山羊菌

HIVE HIVE时建立在Hadoop的HDFS之上的数据仓库的基础架构，也就是说，HIVE中的数据保存在HDFS之上。 Hive 可以进行ETL Hive定义了简单的类似SQL的查询语言，称为HQL HIVE允许开发者自定义mapper和reduce来处理内建的mapper和reducer无法完成的复杂分析工作。 Hive是SQL解析引擎，他将SQL语句转移成MapReduce JOB，然后在Hadoop中执行。 Hive的表其实就是HDFS的目录/文件

查看全部

1 采集收起来源：什么是Hive
2017-11-06
炅93

Hive是建立在Hadoop HDFS上的数据仓库基础架构 Hive可以用来进行数据提取转化加载（ETL） Hive定义了简单的类似SQL查询语言，称为HQL它允许熟悉SQL的用户查询数据 Hive允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作 Hive是SQL解析引擎，他将SQL语句转移成M/R Job然后在Hadoop执行 Hive的表其实就是HDFS的目录/文件

查看全部

1 采集收起来源：什么是Hive
2017-06-23
慕妹4223101 05:15

varchar（20），表明字符串最大长度是20个字符； char（20），表明字符串长度是20个字符。

查看全部

1 采集收起来源：Hive的数据类型之基本数据类型
2017-05-30
慕粉2206263539 05:15

修改文件立即生效

查看全部

1 采集收起来源：Hive安装之嵌入模式
2017-04-09
曹勇0 00:04

fen

查看全部

1 采集收起来源：Hive的数据模型之分区表
2016-11-26
缘丞 02:18

新版地址：http://hive.apache.org/ 老版地址：http://archive.apache.org/ hive默认的安装包里没有基于hive的图形化工具，需要我们自己下载源码，自己的打包使用

查看全部

1 采集收起来源：Hive的安装模式
2016-09-19
kevin00012

Hive 概念 Hive 的数据存储基于 HDFS Hive 中的表—HDFS 里的目录 Hive 中的表的数据—HDFS 目录下的文件 Hive 中的行列—HDFS 文件中的行列 Hive 的用户接口有三个：Shell、Web、JDBC/ODBC。 Hive 将元数据存储在数据库中（MetaStore），只支持 MySQL、Derby（默认，一次只能打开一个会话，不推荐）作为存储引擎；元数据包括表的名字、列、分区、是否为外部表以及数据所在目录等。 Hive 的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成。（包含 * 查询，但select * from table 不会生成 MapReduce 任务） Hive 中的解释器、编译器、优化器完成 HQL 查询语句并生成查询计划；生成的查询计划存储在 HDFS 中，并随后由 MapReduce 调用执行，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。（简单来说就是把类 SQL 语句转化为 MapReduce 任务运行，高延迟） Hive 在导入数据过程中不会对数据做任何修改，只是将数据移至 HDFS 目录中，所有数据都是在导入时确定。（纯移动/复制操作）因此 Hive 并不提供实时的查询和基于行级的数据更新操作，不适合联机事务处理（低延迟）。 Hive 没有定义专门的数据格式，因此创建表时，指定Hive数据的列分隔符与行分隔符，Hive即可解析数据。列分割符:‘,’ ‘\t’(TAB) ‘\040’(空格) [ASCII码表] 行分隔符: ‘\n’(ENTER) 文件格式：TextFile(数据是纯文本)、SequenceFile(若需要压缩) Hive 中的数据模型有4种：Table(内部表)、Partition(分区表)、External Table(外部表)、Bucket(桶表) Hive 是 SQL 解析引擎，它将 SQL 语句转译成 Map/Reduce Job 然后在 Hadoop 执行；能够用类 SQL 的方式操作 HDFS 里面数据一个数据仓库的框架，这个类 SQL 我们称之为 HQL（Hive Query Language）。

查看全部

1 采集收起来源：总结
2016-09-09
qq_Fay_0 00:26

分区表 create table partition_table(sid int ,sname string) partitioned by(gender string) row format delimited fields termimated by ','; insert into table partition_table partition(gender='M') select sid,sname from t1 where gender ='M'; insert into table partition_table partition(gender='F') select sid,sname from t1 where gender ='F';

查看全部

1 采集收起来源：Hive的数据模型之分区表
2016-08-23
慕慕000

!clear 清屏（!执行linux系统命令） dfs -ls / 查看hdfs根目录文件 dfs -lsr / 递归查询 desc 表名查看表结构

查看全部

1 采集收起来源：Hive的管理之CLI方式
2016-08-17
happy12505 01:10

Hive元数据：存储在数据库中，比如MySQL、derby等元数据：包括表的名字、列的名字、分区的名字、及其属性。表的属性（是否为外部表），hive的表的存储位置也会存储在元数据中，对于hdfs的目录和文件。元数据被默认创建在derby数据库中，以表的形式保存数据。表的元信息、列元信息

查看全部

1 采集收起来源：Hive的体系结构之元数据
2016-07-08