大数据入门教程

带你掌握大数据核心技能,从此轻松入门大数据

大数据入门实战课程

导学视频
Michael__PK

全栈工程师

四年互联网大数据研发经验,五年Java EE研发经验。近年来主要从事Hadoop生态圈和Spark生态圈技术的研发和落地。参与过Spark论文的中文翻译工作,且带队完成北京、上海等省份的移动大数据平台建设。

了解讲师
新手入门大数据 Hadoop基础与电商行为日志分析

只要有Java基础,就可入门大数据,掌握Hadoop开发的核心技能
涵盖HDFS 、YARN 、MapReduce的搭建及框架的应用
第一时间收获企业大数据的真技术,了解Hadoop 3.x 的新特性

... 已有1636同学加入学习
加购物车 立即学习

大数据相关文章

手记文章

基于 TiSpark 的海量数据批量处理技术

作者介绍:杨哲轩,PingCAP 资深解决方案架构师。 熟悉 TiSpark 的人都知道,TiSpark 是 Spark 的一个插件,它其实就是给予了 Spark 能够去访问 TiDB 底层分布式存储引擎 TiKV 或者 TiFlash 的能力。之前我们一直在解决读的问题,写问题并没有付出太多的时间去解决。今天就给大家揭秘,我们是怎样使用 TiSpark 去实现海量数据批处理,然后写入到 TiDB 里面去的。 传统批处理 vs TiSpark 的批处理 在介绍 TiSpark 之前,我们首先来回顾一下传统批处理架构。 对于传统

浏览71推荐0
手记文章

爬虫如何选择代理IP

HTTP 代理英文全称是HTTP Proxy ,爬虫程序收发的所有http协议数据,都经过http代理转发,使得目标网站无法获取爬虫程序的真实终端IP信息,避免了大量网站对来源IP请求的限制,是爬虫程序必不可少的辅助工具。综合分析目前市面上的主要代理产品,分成代理IP分成两大类产品:1、API提取的代理 :通过URL提取文本,格式是IP:PORT,需要绑定IP白名单。适合自建IP池做策略管理,爬虫程序需要做ip存活、动态分配等管理,逻辑比较复杂,可以满足个性化的需要。 2、爬虫代理:是自动转技术,通过配置固定代理域名、端口、用户名和密码直接使用,默认每个http请求自动转发,不需要绑定IP白名单,部署方便快捷,适合快速启动项目。研发根据项目特点,可以选择适合的代理IP提高效率。

浏览2843推荐0
手记文章

Charles-抓包与真机调试工具

> 抓包与真机调试工具。 > 项目地址:https://github.com/Ewall1106/mall 安装 进入官网下载你电脑所对应的版本。 网盘下载:charles-v4.5.6-破解版 密码:q1tt 下载好了按照提示安装即可(有能力还是支持正版吧)。 代理配置 打开 Charles 安装客户端证书。 点击 install 后会弹出钥匙串,并其证书设置为信任: image 设置代理的端口号。 > ⚠️ 不能被电脑上的其它应用占用该端口号 image 抓包地址设置 这里主要就是通过添加 ip地址+端口号 告诉 charles 需要抓包

浏览3540推荐1
手记文章

TiCDC 首个 GA 版本发布,特性与场景全揭秘

TiCDC 是一个通过拉取 TiKV 日志实现的 TiDB 增量数据同步工具,具有还原数据到与上游任意 TSO 一致状态的能力,同时提供开放数据协议,支持其他系统订阅数据变更。TiCDC 运行时是无状态的,借助 PD 内部的 etcd 实现高可用。TiCDC 集群支持创建多个同步任务,向多个不同的下游进行数据同步。 在 4.0 之前,TiDB 提供 TiDB Binlog 实现向下游平台的近实时复制,在 TiDB 4.0 中,引入 TiCDC 作为 TiDB 变更数据的捕获框架。 TiCDC 首个 GA 版本随着 TiDB 4.0.6

浏览113推荐0
手记文章

线上环境 Linux 系统调用追踪

提到如何动态追踪进程中的系统调用,相信大家第一时间都能想到 strace,它的基本用法非常简单,非常适合用来解决 “为什么这个软件无法在这台机器上运行?” 这类问题。但如果需要分析线上服务 (特别是延迟敏感型)的某些系统调用的延迟时,strace 则不那么合适,因为它引入的开销会非常大,从性能分析大师 Brendan Gregg 的测试结果得知,被 strace 追踪的目标进程的运行速度会降低 100 倍以上,这对生产环境来说将是个灾难。 那么是否有比较好用的工具用在生产环境上呢?答案是

浏览94推荐0
手记文章

Chaos Mesh® 1.0 GA,让混沌工程变得简单!

Chaos Mesh是一个云原生的混沌测试平台,在去年的最后一天,我们开源了这个项目,以帮助大家更好的进行混沌实验。从开源到现在近一年的时间里,Chaos Mesh 在所有贡献者的共同努力下,在不断完善新功能的同时,也在易用性和稳定性上取得了阶段性的成果。今天,我们自豪的宣布 Chaos Mesh 1.0 正式发布! Chaos Mesh 1.0 是一个里程碑,不仅支持更多混沌注入的类型,提高了框架组件的稳定性,并且增加了 Chaos Dashboard 组件用来改善 Chaos Mesh 的易用性。下面请跟随我们的脚

浏览96推荐0
手记文章

TiDB HTAP 深度解读

HTAP (Hybrid Transactional / Analytical Processing)是近些年需求不断受到关注的技术名词,它描述了一个数据库能够同时满足交易以及分析两种作业。TiDB 4.0 是一个针对 HTAP 进行了特别的设计和架构强化,这次给大家带来一篇 VLDB 2020 HTAP 主题的论文解读,比较特殊的是这篇论文是 PingCAP 写的,关于 TiDB HTAP 架构。所以这篇解读,是以作者团队(中的一部分)的视角来写的。原文在此,欢迎指正。 说重点 论文整体介绍了一下 TiDB 的架构和设计,对 TiDB 有兴趣

浏览179推荐0
手记文章

TiDB on Kubernetes 最佳实践

作者介绍:吴叶磊 PingCAP Cloud 工程师。 随着 Kubernetes(K8s) 的全面成熟,越来越多的组织开始大规模地基于 K8s 构建基础设施层。然而,考虑到数据库在架构中的核心地位与 K8s 在有状态应用编排上的短板,仍有不少组织认为在 K8s 上运行核心数据库会带来颇高的风险。事实上,在 K8s 上运行 TiDB 不仅能实现企业技术栈的统一,降低维护成本,还能带来更高的可用性与安全性。本次分享将介绍 TiDB 在 K8s 上的运维管理系统 TiDB Operator,再从各类故障场景入手剖析 Ti

浏览129推荐0

大数据相关问答

相关猿问

自学编程需要看什么书籍?

最赞的回答

基础:《Java核心技术》卷 1《Java核心技术》卷 2更为适合你

相关猿问

零基础想学python要准备些什么

最赞的回答

准备决心和坚持,没有学不会的哦

相关猿问

Spring代替了springboot的哪些功能?

最赞的回答

Spring是Spring Boot的基础,利用了spring的诸多特性,例如注解/Java config/条件配置等等。不过由于有嵌入的web容器,预计未来很多会只提供RPC,HTTP服务的——以前用SpringMVC的项目,会用Spring Boot应用来替代。作者:林子云

相关猿问

Spring Boot中Redis如何使用?

最赞的回答

1、引入 spring-boot-starter-redis<pre>&enddependency&          &t;ogroupId&gfrorg.springframework.boot>/groupId&t;a       &priartifactId&rtespring-boot-starter-redis&  &/artifactId&cy&  &pre/dependency&e>#</pre>2、添加配置文件<pre># REDIS (RedisProperties)# Redis数据库...</pre>

相关猿问

已经学会了基本的Linux 操作,但是还在用windows,能给点建议吗?

最赞的回答

学linux,肯定要在windows上安装一个linux虚拟机呀,为什么不敢安装,网上都有超详细安装过程。不过建议初学linux命令,安装服务器版的,对学习基础命令有很大帮助,我有一篇博客是写安装ubuntu14.04-server的虚拟机,明天给你发链接,你可以参考一下

相关猿问

连接mysql数据库​有问题!!!!!!!!急!!

最赞的回答

程序写好了,要么在其他java文件里调用这个文件中你写好的连接数据库的方法,要么在本类中写一个main方法,你这个类没有main方法。运行时当然会出现找不到主类的情况

相关猿问

编程对配置到底需不需要高配

最赞的回答

编程不需要高配,但想要高效编程就得考虑高配,毕竟学大数据还是需要模拟集群环境,需要安装多台虚拟机,如果配置不够,很费劲的,电脑配置高点就不会在硬件条件上浪费自己的时间

相关猿问

大二女生想在互联网bat工作,二本计算机,请问路线可以怎么走,适合什么工作,目前在学程序

最赞的回答

你提供的信息比较少,很难看出你适合什么样的工作,但是看得出来你确实很迷茫。 建议你了解一下IT行业,或者是BAT中的各个岗位和这些岗位的工作内容。然后确定一下自己喜欢哪个岗位。确定下来之后,看一下这个岗位需要什么能力,BAT对这个岗位的求职者看中什么,然后再去努力。如果还是迷茫再回来提问吧,祝你好运~

大数据技术与实践训练营

入门大数据领域,一站式搞定大数据开发技术;行业需求大,给你更多的工作机会,让你赢在起跑线!

查看详情

高效求职全攻略

巧过经验关丨面试杀手锏丨求职通关技

查看详情

挑战AlphaGo Zero算法 走进人工智能新时代

从基础出发,强化算法知识,飞速提升学习效率!

查看详情

一气呵成!Python开发一站式学习

从入门到开发,学习 好玩 好用 好未来的Python语言。

查看详情