为了账号安全,请及时绑定邮箱和手机立即绑定
  • 解析器,编译器,优化器
    查看全部
  • Hive的数据存储

    • 基于HDFS(Hadoop的数据仓库)

    • 没有专门的数据存储格式

    • 存储结构主要包括:数据库,文件,表,视图

    • 可以直接加载文本文件(.TXT文件等)

    • 创建表时,指定Hive数据的列分割符与行分隔符

    1. table 内部表

    2. Partiton 分区表

    3. External Table 外部表

    4. Bucket Table 桶表

    • 视图




    查看全部
    1 采集 收起 来源:Hive的数据存储

    2018-05-22

  • 桶表(Bucket Table) 桶表是对数据进行哈希取值,然后放到不同文件存储。也就是说,桶表中的数据,是通过哈希运算后,将其打散,再存入文件当中,这样做会避免造成热块,从而提高查询速度。 桶表创建--案例 >create table bucket_table (sid int, sname string, age int) clustered by (sname) into 5 buckets; //创建一个桶表,这个桶表是以sname作为哈希运算,运算后的结果放到5个桶中
    查看全部
  • Hive管理 (hive中的数据对应与hadoop hdfs中的一个文件夹) CLI(命令行方式) 直接输入hive,可进入CLI: >hive 以静默模式进入hive: >hive -S 不进入hive交互模式: >hive -e 'show tables'; >hive -e 'select * from test1'; 清屏: Ctrl + L 或者 !clear; 查看数据仓库中的表: show tables; 查看数据仓库中的内置函数: show functions; 查看表结构: desc <表名>; >desc test1; 查看HDFS上的文件: dfs -ls <目录>; >dfs -lsr /user; 执行Linux操作系统命令: !<命令> >!pwd 执行HQL语句: select *** from ***; >select * from test1; //这条语句不会转换成mapreduce作业 >select name from test1; //这时hive会将这条sql语句,解析成一个mapreduce作业,并提交到hadoop上进行执行。(我们在hive中执行的select语句,绝大多数,会被解析成mapreduce作业,进行执行) 执行SQL脚本: source <SQL文件>; >source /root/my.sql; //前提条件是root目录下,有my.sql这个文件
    查看全部
  • Hive的元数据 -Hive将元数据存储在(metastore),支持mysql,derby等数据库 -Hive中的元数据(数据的数据)包括表的名字,表的列和分区及其属性,表的属性(是否为外部表),表的数据所在目录。
    查看全部
  • HIVE HIVE时建立在Hadoop的HDFS之上的数据仓库的基础架构,也就是说,HIVE中的数据保存在HDFS之上。 Hive 可以进行ETL Hive定义了简单的类似SQL的查询语言,称为HQL HIVE允许开发者自定义mapper和reduce来处理内建的mapper和reducer无法完成的复杂分析工作。 Hive是SQL解析引擎,他将SQL语句转移成MapReduce JOB,然后在Hadoop中执行。 Hive的表其实就是HDFS的目录/文件
    查看全部
    1 采集 收起 来源:什么是Hive

    2017-11-06

  • Hive是建立在Hadoop HDFS上的数据仓库基础架构 Hive可以用来进行数据提取转化加载(ETL) Hive定义了简单的类似SQL查询语言,称为HQL它允许熟悉SQL的用户查询数据 Hive允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作 Hive是SQL解析引擎,他将SQL语句转移成M/R Job然后在Hadoop执行 Hive的表其实就是HDFS的目录/文件
    查看全部
    1 采集 收起 来源:什么是Hive

    2017-06-23

  • varchar(20),表明字符串最大长度是20个字符; char(20),表明字符串长度是20个字符。
    查看全部
  • 修改文件立即生效
    查看全部
  • fen
    查看全部
  • 新版地址:http://hive.apache.org/ 老版地址:http://archive.apache.org/ hive默认的安装包里没有基于hive的图形化工具,需要我们自己下载源码,自己的打包使用
    查看全部
    1 采集 收起 来源:Hive的安装模式

    2016-09-19

  • Hive 概念 Hive 的数据存储基于 HDFS Hive 中的表—HDFS 里的目录 Hive 中的表的数据—HDFS 目录下的文件 Hive 中的行列—HDFS 文件中的行列 Hive 的用户接口有三个:Shell、Web、JDBC/ODBC。 Hive 将元数据存储在数据库中(MetaStore),只支持 MySQL、Derby(默认,一次只能打开一个会话,不推荐)作为存储引擎;元数据包括表的名字、列、分区、是否为外部表以及数据所在目录等。 Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成。(包含 * 查询,但select * from table 不会生成 MapReduce 任务) Hive 中的解释器、编译器、优化器完成 HQL 查询语句并生成查询计划;生成的查询计划存储在 HDFS 中,并随后由 MapReduce 调用执行,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。(简单来说就是把类 SQL 语句转化为 MapReduce 任务运行,高延迟) Hive 在导入数据过程中不会对数据做任何修改,只是将数据移至 HDFS 目录中,所有数据都是在导入时确定。(纯移动/复制操作) 因此 Hive 并不提供实时的查询和基于行级的数据更新操作,不适合联机事务处理(低延迟)。 Hive 没有定义专门的数据格式,因此创建表时,指定Hive数据的列分隔符与行分隔符,Hive即可解析数据。 列分割符:‘,’ ‘\t’(TAB) ‘\040’(空格) [ASCII码表] 行分隔符: ‘\n’(ENTER) 文件格式:TextFile(数据是纯文本)、SequenceFile(若需要压缩) Hive 中的数据模型有4种:Table(内部表)、Partition(分区表)、External Table(外部表)、Bucket(桶表) Hive 是 SQL 解析引擎,它将 SQL 语句转译成 Map/Reduce Job 然后在 Hadoop 执行;能够用类 SQL 的方式操作 HDFS 里面数据一个数据仓库的框架,这个类 SQL 我们称之为 HQL(Hive Query Language)。
    查看全部
    1 采集 收起 来源:总结

    2016-09-09

  • 分区表 create table partition_table(sid int ,sname string) partitioned by(gender string) row format delimited fields termimated by ','; insert into table partition_table partition(gender='M') select sid,sname from t1 where gender ='M'; insert into table partition_table partition(gender='F') select sid,sname from t1 where gender ='F';
    查看全部
  • !clear 清屏(!执行linux系统命令) dfs -ls / 查看hdfs根目录文件 dfs -lsr / 递归查询 desc 表名 查看表结构
    查看全部
  • Hive元数据:存储在数据库中,比如MySQL、derby等 元数据:包括表的名字、列的名字、分区的名字、及其属性。表的属性(是否为外部表),hive的表的存储位置也会存储在元数据中,对于hdfs的目录和文件。 元数据被默认创建在derby数据库中,以表的形式保存数据。表的元信息、列元信息
    查看全部

举报

0/150
提交
取消
课程须知
1、熟练掌握Hadoop的体系结构,尤其是HDFS 2、熟悉Java编程 3、了解Linux的基本操作
老师告诉你能学到什么?
1、数据仓库简介 2、Hive是什么? 3、Hive的体系结构 4、Hive的安装与管理 5、Hive的数据类型 6、Hive的数据模型

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!