-
//TODO
如何设计支持多种数据源的数据抽取方案
如何构建数据采集的元数据信息
如何通过元数据信息建立数据的血缘关系
查看全部 -
常见数据采集框架
1)Apache Flume:分布式、可靠的、高可用的日志收集系统,支持多种数据来源,
配置灵活。
2)Gobblin:用来整合各种数据源的通用型ETL框架,理论上各种数据都可以在这里
“一站式”解决整个ETL整个过程
3)DataX:阿里开源的异构数据源同步工具,致力于实现关系数据库、HDFS、Hive、
HBase、FTP等异构数据源的稳定数据同步。
查看全部 -
流程示意图:
查看全部 -
OLTP&OLAP区别
查看全部 -
sqoop import --connect jdbc:mysql://localhost:3306/sqooptest
--username root --password imooc@mysql --table testtable
--driver com.mysql.jdbc.Driver --split-by id
--num-mappers 1
--target-dir /testtable
sqoop export --connect jdbc:mysql://localhost:3306/sqooptest
--username root --password imooc@mysql --table testtable
--export-dir /testtable
查看全部 -
sqoop import:rdbms表中的每一行都被视为hdfs中的记录
sqoop export:读取并按照指定分隔符解析数据插入到rdbms
sqoop job:将sqoop导入导出流程保存成job,方便下次执行
查看全部 -
create external table table2( id int,name string,interest array<string>, score map<string,string>) row format delimited fields terminated by ',' collection items terminated by '-' map keys terminated by ':' location '/testtable'; desc formatted table2;
创建分区表
create external table table2( id int,name string,interest array<string>, score map<string,string>) partitioned by (year int) row format delimited fields terminated by ',' collection items terminated by '-' map keys terminated by ':' stored as textfile; load data local inpath 'root/testdata.txt' into table table3 partition(year=2018); show partitions tables; alter table table3 add partition(year=2019) location '/testtable'; show partitions table3; alter table table3 drop partition(year=2019);
查看全部 -
create table table1( id int,name string, interest array<string>, score map<string,string>) row format delimited fields terminated by ',' collection items terminated by '-' map keys terminated by ':' stored as textfile; load data local inpath '/root/testdata.txt' overwrite into table table1;
查看全部 -
1234564899查看全部
-
数据采集系统需求<br/>·数据源管理与状态监控<br/>·定时、实时、全量、增量等多模式的数据采集及任务监控<br/>·元数据管理、数据补采及数据归档查看全部
-
常用数据采集框架<br/>·Apache Flume:分布式、可靠的、高可用的日志收集系统,支持多种数据来源,配置灵活<br/>·Gobblin:用来整合各种数据源的通用型ETL框架,理论上各种数据都可以在这里“一站式”解决ETL整个过程<br/>·DataX:阿里开源的异构数据源同步工具,致力于实现关系数据库、HDFS、Hive、HBase、FTP等异构数据源的稳定数据同步查看全部
-
数据采集框架图
查看全部 -
Sqoop 常用命令
·Sqoop Import:RDBMS表中每一行都被视为HDFS中的记录·Sqoop Export:读取并按照指定分隔符解析数据插入到RDBMS
·SqoopJob:将Sqoop导入导出流程保存成Job,方便下次执行查看全部 -
列式存储优点
·查询时只需要读取查询所涉及的列,降低IO消耗,同时保存每一列统计信息,实现部分谓词下推
·每列数据类型一致,可针对不同的数据类型采用其高效的压缩算法·列式存储格式假设数据不会发生改变,支持分片、流式读取,更好的适应分布式文件存储的特性查看全部 -
数据仓库
·数据仓库是将多个数据源的数据经过ETL处理之后,按照一定的主题集成起来提供决策支持和联机分析应用的结构化数据环境
·ETL:Extract(抽取)、Transform(转换)、Load(加载)查看全部
举报