走近大数据之Hive入门_学习笔记

首页免费课走近大数据之Hive入门笔记

走近大数据之Hive入门

                
                赵强老师
            数据库工程师

                    查看讲师更多课程 
                    赵强老师讲师的其他课程
                
Oracle高级查询
初级·62746
免费课程
                                
Oracle触发器
初级·36823
免费课程
                                
Oracle存储过程和自定义函数
初级·56226
免费课程
                                
Oracle数据库开发必备利器之PL/SQL基础
初级·74906
免费课程
                                
                难度初级
            
                时长 2小时21分
            
                学习人数
            
综合评分9.83
                            98人评价
                        查看评价
                                10.0
                                内容实用
                            
                                9.8
                                简洁易懂
                            
                                9.7
                                逻辑清晰

最热最新

幕布斯5015743

1. 数组类型：create table student(sid int, sname string, grade array<float>); 插入数据：{1, Tom, [80, 90, 75]} 2. 集合类型：create table student1(sid int, sname string, grade map<string, float>); 插入数据：{1, Tom, <'大学语文', 85>} 3. create table student3(sid int, sname string, grades array<map<sring, float>>); 插入数据：{1, Tom, [<'大学语文',80>,<'大学英语',90>]} 4. 结构类型：create table student4(sid int,info struct<name:string,age:int,sex:string>); 插入数据：{1,{'Tom',10,'男'}}

查看全部

3 采集收起来源：Hive的数据类型之复杂数据类型
2018-03-22
qq_Fay_0

视图操作和表一样，Hive中的视图不存储数据，只是虚表。oracle和mysql中有一种物化视图，是存储有实际数据的，能提高查询效率。视图是一种虚表，是一个逻辑概念，可以跨越多张表视图建立在已有表的基础上，这些表称为基表视图可以简化复杂的查询 create view empinfo as select e.empno,e.ename,e.sal,e.sal*12 annlsal,d.dname from emp e,dept d where e.deptno=d.deptno;

查看全部

3 采集收起来源：Hive的数据模型之视图
2016-08-23
幕布斯5015743

Hive的数据模型 *分区表（Partition） -Partition对应于数据库的Partition列的密集索引 -在Hive中，表中的一个Partition对应于表下的一个目录，所有的Partition的数据都存储在对应的目录中 *创建分区表 create table partition_table (sid int, sname string) partitioned by (gender string) row format delimited fields terminated by ','; *插入内容 insert into table partition_table partition(gender = 'M') select sid, same form sample_data where gender = 'M'; insert into table partition_table partition(gender = 'F') select sid, same form sample_data where gender = 'F'; 使用explain查询SQL语句的执行计划： explain select * from sample_data where gender='M'; explain select * from partition_table where gender='M';

查看全部

3 采集收起来源：Hive的数据模型之分区表
2016-05-16
Nic

1.create table t1(tid int,tname string, age int); --默认存储在 '/user/hive/warehouse' 2.指定存储目录：create table t2(tid int,tname string,age int) location '/mytable/hive/t2'; 3.指定分隔符：create table t1(tid int,tname string, age int) row format delimited fields terminated by ','; 4.使用查询语句创建新表：create table t4 as select * from sample_data; 5.查看t4表的文件：hdfs dfs -cat /user/hive/warehouse/t4/000000_0 6.create table t5 row format delimited fields terminated by ',' as select * from sample_data; 7.alter table t1 add columns(english int); 8.查看表结构：desc t1; 9.drop table t1;

查看全部

2 采集收起来源：Hive的数据模型之内部表
2015-08-18
1786078681

按照老师的步骤，真是做不出来啊……create table test1(id int,tname string); 后面报个错 Specified key was too long; max key length is 767 bytes

查看全部

2 采集收起来源：Hive安装之远程模式和本地模式
2015-08-18
qq_大飞_3

外部表：指向已经在hdfs中存在的数据，可以创建Partition 它和内部表在元数据的组织上是相同的，而实际数据的存储则又较大的差异外部表只有一个过程，加载数据和创建表同时完成，并不会移动到数据仓库目录中，只是与外部数据建立个链接。当删除一个外部表时，仅删除该链接。 HIVE仓库，创建外部表，只需要指明列的名字、类型就行，因为其存在外部，不需要知道其来源，但需要指明location，其指向hdfs中的数据。 HDFS文件系统，里面有若干文件，保存了若干了表的数据 1.创建若干文件，放入hdfs中 2.建立外部表，指向创建的文件 create external table external_student (sid int, sname string, age int) row format delimited fields terminated by ',' // 列之间的分隔符 location '/input'; 这张表会指向创建的文件

查看全部

2 采集收起来源：Hive的数据模型之外部表
2015-08-12
zhaohui886

转发按时发达

查看全部

2 采集收起来源：课程概述
2015-07-19
慕仔2062751

1-2数据仓库简介数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合，它用于支持企业或组织的决策分析处理。面向主题：例如商品的推荐系统也是基于数据仓库所做出的一个系统。所关注的主题就是商品的信息。集成：数据仓库的数据来自于分散的操作性的数据。我们把分散的操作性的数据从原来的数据中抽取出来，进行加工和处理，然后满足了一定的要求，这样的数据才能够进入我们的数据仓库。原来的数据可能来自于Oracle、Mysql等关系型数据库也可能来自于文本文件或者其他的系统。我们把不同的数据集成起来就形成了我们的数据仓库。不可更新：数据仓库主要是为了决策分析所提供数据。所以所涉及到的操作主要包括数据的查询，我们一般都不会在数据仓库做数据的删除和更新，因为数据仓库就是作查询操作，并且数据仓库的数据随时间的推移不产生变化的数据的集合。

查看全部

2 采集收起来源：数据仓库简介
2018-03-04
山羊菌

内部表(Table) -与数据库的Table在概念上类似 -每一个Table在Hive中都有一个相应的目录(HDFS上的目录)存储数据 -所有的Table数据(不包括External Table)都保存在这个目录(HDFS目录)中 -表的元数据信息，存储在元数据数据库中(mysql) -删除表后，元数据和数据都会被删除创建表--案例: >create table t1 (t1 int, tname string, age int); 在hive中创建一张表，如果不指定表所保存的位置，那么这张表会创建在HDFS文件系统中的/user/hive/warehouse目录下 >create table t2 (tid int, tname string, age int) location '/mytable/hive/t2'; 指定表的位置为HDFS中的/mytable/hive/t2 >create table t3 (tid int, tname string, age int) row format delimited fields terminated by ','; 表示以csv文件格式存储,因为csv存储的分隔符为逗号 //row format 指定表示行的格式加入数据--案例: >create table t4 as select * from sample_data; //采用sample_data查询的集合来创建t4表 //查看HDFS中的文件发现，t4表中数据与数据之间没有分隔符这里我们同样可以指定分隔符: >create table t4 row format delimited fields terminated by ',' as select * from sample_data; //采用sample_data查询的集合来创建t5表，并以','为分隔符在一张表上加入新的列---案例: >alter table t1 add columns(english int); 删除一张表--案例: drop table t1; //当删除一张表时，它会把对应的文件放入HDFS的回收站中，所以删除之后 //我们可以利用一定的方式恢复表中的数据

查看全部

2 采集收起来源：Hive的数据模型之内部表
2018-03-22
山羊菌

数据仓库本质上就是一个数据库。但是数据仓库还是有别于传统的数据库: 数据仓库是一个面向主题的(按照一定主题进行组织的)，集成的(数据来自于分散的操作性的数据)，不可更新的(主要数据查询)，随时间不变化的数据集合，他用于支持企业或组织的决策分析处理。 OLTP:面向事物，操作频率高 OLAP:面向查询，基于历史数据，从而进行数据挖掘星形模型 => 雪花模型

查看全部

2 采集收起来源：数据仓库简介
2018-03-22
qq_獨享_0

Hive是建立在Hadoop HDFS（Hadoop分布式文件系统）上的数据仓库基础架构，可以用了进行数据的提取转化加载（ETL）。Hive定义了类SQL查询语句，称为HQL Hive允许MapReduce开发者自定义Mapper和Reducer来完成复杂操作。实际上，Hive是通过SQL解析引擎（或者准确的说是HQL解析引擎）将一个查询语句转换成了map和reduce程序，然后放在Hadoop上执行，并把执行结果返回给用户。 Hive数据仓库的建立工具。 Hive中的表就是HDFS的目录和文件，HIVE的数据就是HDFS的数据。

查看全部

1 采集收起来源：什么是Hive
2016-04-23
qq_獨享_0

星型模型：一个主题，其他都是围绕主体的信息。雪花信息：多个主题，没一个主题可能都有其他的信息围绕。

查看全部

1 采集收起来源：数据仓库简介
2016-04-23
qq_獨享_0

数据仓库的建立：（1）抽取（Extract），从数据源中提取数据；（2）转换（Transfrom），将数据格式转换成数据仓库符合的类型；（3）装载（Load），将满足格式的数据存于数据仓库数据仓库的结构：（1）数据源（2）数据存储管理（ETL）（3）数据仓库引擎（里面有很多服务器，不同的服务器提供不同的服务例如：数据查询，数据报表，数据分析等）（4）前端展示，即把查询结果，报表，分析结果等在前段呈现

查看全部

1 采集收起来源：数据仓库简介
2016-04-23
qq_獨享_0

数据仓库也是一种数据库，但有以下特点：（1）是面向主题的，即有一个主要的内容类别；（2）是集成的，即可以从多处取数据集成，例如从某文本，oracle，mysql等数据源中获取（3）不可更新更改，删除操作，一般只是为了满足做数据分析而进行数据的查询操作。（这一点不同于普通数据库）

查看全部

1 采集收起来源：数据仓库简介
2016-04-23
藏红 03:36

Hive的体系结构

查看全部

1 采集收起来源：Hive的体系结构
2015-10-03