为了账号安全,请及时绑定邮箱和手机立即绑定
  • //TODO

    • 如何设计支持多种数据源的数据抽取方案

    • 如何构建数据采集的元数据信息

    • 如何通过元数据信息建立数据的血缘关系

    查看全部
  • 常见数据采集框架

    1)Apache Flume:分布式、可靠的、高可用的日志收集系统,支持多种数据来源,

    配置灵活。

    2)Gobblin:用来整合各种数据源的通用型ETL框架,理论上各种数据都可以在这里

    “一站式”解决整个ETL整个过程

    3)DataX:阿里开源的异构数据源同步工具,致力于实现关系数据库、HDFS、Hive、

    HBase、FTP等异构数据源的稳定数据同步。


    查看全部
  • 流程示意图:

    查看全部
  • OLTP&OLAP区别


    查看全部
    0 采集 收起 来源:Hive简介

    2020-04-13

  • sqoop import --connect jdbc:mysql://localhost:3306/sqooptest 

    --username root --password imooc@mysql --table testtable

    --driver com.mysql.jdbc.Driver --split-by id

    --num-mappers 1

    --target-dir /testtable


    sqoop export --connect jdbc:mysql://localhost:3306/sqooptest 

    --username root --password imooc@mysql --table testtable

    --export-dir /testtable



    查看全部
  • sqoop import:rdbms表中的每一行都被视为hdfs中的记录

    sqoop export:读取并按照指定分隔符解析数据插入到rdbms

    sqoop job:将sqoop导入导出流程保存成job,方便下次执行



    查看全部
    0 采集 收起 来源:Sqoop简介

    2020-03-05

  • create external table table2(
    id int,name string,interest array<string>,
    score map<string,string>)
    row format delimited fields terminated by ','
    collection items terminated by '-'
    map keys terminated by ':' location '/testtable';
    
    desc formatted table2;

    创建分区表

    create external table table2(
    id int,name string,interest array<string>,
    score map<string,string>)
    partitioned by (year int)
    row format delimited fields terminated by ','
    collection items terminated by '-'
    map keys terminated by ':' stored as textfile;
    
    load data local inpath 'root/testdata.txt' into table
    table3 partition(year=2018);
    
    show partitions tables;
    
    alter table table3 add partition(year=2019) 
    location '/testtable';
    
    show partitions table3;
    
    alter table table3 drop partition(year=2019);


    查看全部
  • create table table1(
    id int,name string,
    interest array<string>,
    score map<string,string>)
    row format delimited fields terminated by ','
    collection items terminated by '-'
    map keys terminated by ':' stored as textfile;
    
    load data local inpath '/root/testdata.txt' overwrite into
    table table1;


    查看全部
    0 采集 收起 来源:Hive内部表操作

    2020-03-05

  • 1234564899
    查看全部
    0 采集 收起 来源:SQL on Hadoop简介

    2019-11-21

  • 数据采集系统需求<br/>·数据源管理与状态监控<br/>·定时、实时、全量、增量等多模式的数据采集及任务监控<br/>·元数据管理、数据补采及数据归档
    查看全部
  • 常用数据采集框架<br/>·Apache Flume:分布式、可靠的、高可用的日志收集系统,支持多种数据来源,配置灵活<br/>·Gobblin:用来整合各种数据源的通用型ETL框架,理论上各种数据都可以在这里“一站式”解决ETL整个过程<br/>·DataX:阿里开源的异构数据源同步工具,致力于实现关系数据库、HDFS、Hive、HBase、FTP等异构数据源的稳定数据同步
    查看全部
  • 数据采集框架图

    查看全部
  • Sqoop 常用命令
    ·Sqoop Import:RDBMS表中每一行都被视为HDFS中的记录·Sqoop Export:读取并按照指定分隔符解析数据插入到RDBMS
    ·SqoopJob:将Sqoop导入导出流程保存成Job,方便下次执行

    查看全部
    0 采集 收起 来源:Sqoop简介

    2019-07-16

  • 列式存储优点
    ·查询时只需要读取查询所涉及的列,降低IO消耗,同时保存每一列统计信息,实现部分谓词下推
    ·每列数据类型一致,可针对不同的数据类型采用其高效的压缩算法·列式存储格式假设数据不会发生改变,支持分片、流式读取,更好的适应分布式文件存储的特性

    查看全部
  • 数据仓库
    ·数据仓库是将多个数据源的数据经过ETL处理之后,按照一定的主题集成起来提供决策支持和联机分析应用的结构化数据环境
    ·ETL:Extract(抽取)、Transform(转换)、Load(加载)

    查看全部
    0 采集 收起 来源:Hive简介

    2019-07-16

首页上一页12下一页尾页

举报

0/150
提交
取消
课程须知
本课程是对Presto的介绍与实战,课程的项目开发基于Python Flask框架,但对于Flask框架应用无过多介绍,需要同学有一定的了解,因Python代码本身相对简单,亦可边看代码边学。
老师告诉你能学到什么?
1、Hive的基本概念与基础操作 2、Sqoop的基础操作和Gobblin的设计方案 3、Presto的架构及代码操作

微信扫码,参与3人拼团

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!