为了账号安全,请及时绑定邮箱和手机立即绑定

ETL入门

标签:
大数据

1.数据仓库与数据集市

       数据仓库是单一的,大量(历史性)数据的存储仓库,可用来支持企业决策。因此,它所涉及的数据涵盖了各种主题和各种业务领域,例如金融、物流、市场营销和客户支持。通常,一个数据仓库是不能被终端用户工具直接访问的。
       相反,一个数据集市可以由终端用户直接访问,并且是以特定的数据分析为目的的,例如零售或客户来电。

2.ETL、ELT和EII

       下图为一个典型的数据仓库架构:


webp

image.png

  • ETL是指从一个或多个数据源抽取数据,经过一个或多个转换步骤后,物理地存储到目标环境中,目标环境通常是数据仓库。

  • ELT同ETL在数据整合方法上略微不同。在ELT情况下,数据首先从源数据进行抽取、加载到目标数据库中,再转换为所需的格式。所有大数据量处理全部放在目标数据库中进行。

  • EII:虚拟数据整合,ETL和ELT都是以武力方式将数据从OLTP移动或复制到数据仓库。除了物理数据集成方式,还有虚拟数据集成方式也可以满足用户访问数据的要求。这种虚拟数据集成方式就是企业信息集成,也就是EII。这种方法的主要优点是数据永远都是最新的,以及不需要额外的存储层,没有冗余数据。以下为物理与虚拟方案的比较:


    webp

    image.png

3.增量数据捕获CDC

       辨别出哪些数据发生变化,并抽取那些自上次抽取后发生变化的数据的过程称为增量数据捕获,也叫CDC。
       在CDC处理方式上有两种基本分类,侵入式和非侵入式。侵入式是指CDC操作会对源系统有一定性能影响。不论以何种方式,只要对源系统执行了SQL语句,就是侵入式的。大部分的CDC方法都是侵入式的,只有一种不是。



作者:阿猫阿狗Hakuna
链接:https://www.jianshu.com/p/85ac22822ea2


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消