大数据入门教程

带你掌握大数据核心技能,从此轻松入门大数据

大数据入门实战课程

导学视频
Michael__PK

全栈工程师

四年互联网大数据研发经验,五年Java EE研发经验。近年来主要从事Hadoop生态圈和Spark生态圈技术的研发和落地。参与过Spark论文的中文翻译工作,且带队完成北京、上海等省份的移动大数据平台建设。

了解讲师
新手入门大数据 Hadoop基础与电商行为日志分析

只要有Java基础,就可入门大数据,掌握Hadoop开发的核心技能
涵盖HDFS 、YARN 、MapReduce的搭建及框架的应用
第一时间收获企业大数据的真技术,了解Hadoop 3.x 的新特性

... 已有613同学加入学习
加购物车 立即学习

大数据相关文章

手记文章

深夜读码-zookeeper 之SyncRequestProcessor 小代码 大优雅

引言 zookeeper 的业务处理流程就像工作流一样,其实就是一个单链表;在zookeeper启动的时候,会确立各个节点的角色特性,即leader、follower和observer,每个角色确立后,就会初始化它的工作责任链; 本篇要分享的是 zookeeper的源码分析之SyncRequestProcessor处理器,其目的是进行持久化,也就是将消息存储到磁盘文件中;代码不多,但有不少值得借鉴的地方; 主要成员变量 代码一 private final LinkedBlockingQueue<Request> queuedRequests = new LinkedBlockingQueue<Request

浏览292推荐3
手记文章

Vector clock

本文是《如何学习分布式系统》中,关于时钟的相关介绍。 Lamport逻辑时钟的问题 Lamport逻辑时钟的第一个问题在于,它的全序关系不是唯一确定的。因为当逻辑时钟的值一致的时候,需要选择进程的全序关系R,而选择的R具有任意性,比如可以比较进程编号,也可以比较进程运行服务器的ip地址。这样意味着R的不同,会导致事件顺序的不同。 Lamport逻辑时钟的第二个问题在于,它的大小无法准确描述事件先后顺序。假设已知C(a) < C(b),也无法得到任何结论。例如下图中57时刻的事件,尽管其逻辑时

浏览181推荐0
手记文章

五年外包,我成了过期甩卖的商品

我叫吴文辉,今年29岁,就在这个近而立之年的年纪,我失业了。个中缘由,还得从五年前说起。 五年前,我脱离原来的行业(一个比较扯淡的行业),经过五个月的培训班学习,顺利转行互联网,成为了一名在当时看来既高档又多金的程序员,五年前的互联网正处于红利期,国内形势一片大好。 五年对于一个人的整个职业生涯来说不算长,但也绝不能算短。五年的时间,足以让一个菜鸟程序员进化成某种程度上的技术专家,足以让一个程序员的薪水翻了几番,也足以让一个人积累了一定的资源和人脉,即使哪天

浏览203推荐3
手记文章

了解Kubernetes主体架构(二十七)

前言             Kubernetes的教程一直在编写,目前已经初步完成了以下内容:1)基础理论2)使用Minikube部署本地Kubernetes集群3)使用Kubeadm创建集群接下来还会逐步完善本教程,比如Helm、ELK、Windows Server容器等等。 目录Kubernetes主体架构 1.1.主要核心组件 1.1.1. Master组件 1.1.2. 节点(Node)组件 1.1.3. 插件 1.2. 基本概念 1.2.1. 容器组(Pod)1.2.2. 服务(Service)1.2.3. 卷(Volume)1.2.4. 标签(Labels)和标签选择器(Label Selector)1.2.5. 复制控制器(Replication Controller,RC)1.2.6. 副本集控制器(Replica Set,RS) 1.2.7

浏览253推荐0
手记文章

Python基础系列讲解——如何使用自带的SQLite数据库

当前流行的数据库有Oracle、MySQL、Microsoft SQL Server、PostgreSQL、MongoDB、Redis、Microsoft Access……SQLite(这个是按某报告调研的受欢迎程度来排名的)。当然每个数据库都有它最适合的应用场合。这里我们推荐一款轻型的关系型数据库SQLite,推荐理由如下: SQLite本身是C写,所以体积小巧,占用资源低 SQLite本身是C写,所以处理速度非常快 SQLite已经发布SQLite 3 版本 SQLite3支持Windows/Linux/Unix等主流操作系统 Python 2.5.x 以上版本默认内置SQLite3,无需单独安装

浏览352推荐2
手记文章

不漫谈大数据反欺诈技术架构 No.126

一年多以前,有朋友让我聊一下你们的大数据反欺诈架构是怎么实现的,以及我们途中踩了哪些坑,怎么做到从30min延迟优化到1s内完成实时反欺诈。当时呢第一是觉得不合适,第二也是觉得场景比较局限没什么分享的必要性。时间也过了很久了,最近看到圈里一些东西,发现当时的这套架构并未落伍,依然具有很大的参考价值,所以今天跟大伙聊聊关于大数据反欺诈体系怎么搭建,主要来源是来自于我工作的时候的实践,以及跟行业里的很多大佬交流的实践,算是集小成的一个比较好的实践。这套架构我做的时候主要领域是信贷行业的大数据反欺诈,后来也看过电商的架构,也看过金融大数据的架构,发现其实大家使用的其实也差不多是这个套路,只是在各个环节都有不同的细节。大佬说的,能用图的,尽量不要打字,那我就打少点字,多做点图。其实大数据不外乎这么几个步骤。数据源开拓、数据抽取、数据存储、数据清洗和处理、数据应用,且听我一个一个说。数据源数据源是一个比较重要的点,毕竟如果连数据源都是垃圾,那么毫无疑问可以预见,最终产出的一定是垃圾,所以挑选数据源和对接数据源的时候都

浏览180推荐0
手记文章

Flink基本的API

Flink使用 DataSet 和 DataStream 代表数据集。DateSet 用于批处理,代表数据是有限的;而 DataStream 用于流数据,代表数据是无界的。数据集中的数据是不可以变的,也就是说不能对其中的元素增加或删除。我们通过数据源创建 DataSet 或者 DataStream ,通过 map,filter 等转换(transform)操作对数据集进行操作产生新的数据集。https://github.com/duma-repo/awesome-flink编写 Flink 程序一般经过一下几个步骤:获得 execution 环境创建输入数据在数据集上进行转换操作(下文统一称为:transform)输出结果数据触发程序执行下面我们将介绍编写 Flink 程序所涉及的基本 API。输入和输出首先,需要获得 execution 环境,Flink 提供了一下以下三种方式:getExecutionEnvironment() createLocalEnvironment() createRemoteE

浏览285推荐0
手记文章

首次尝试Flink的一些感受

最近打算研究研究 Flink,根据官方文档写个 Hello,World。入门还是比较容易的,不需要复杂的安装环境、配置。这篇文章简单介绍 Flink 的使用感受以及入门。感受搭建环境方便:Flink 可以在 Windows 下运行与开发。对于喜欢 Windows 下开发的人,可以免去搭建虚拟机的成本。并且不依赖其他框架,本地环境搭建简单。这点很关键,许多人学习框架都放弃在了环境搭建上。减少搭建环境的成本,可以避免初学者浪费过多精力。Hadoop 的搭建框架就非常麻烦,并且早期 Hadoop 只能运行在 Linux 下。文档详细:Flink 官网的文档介绍非常详细,开发过程中会涉及的哪些步骤,以及每个步骤的操作路径,Flink 官网都有详细介绍。包括将 Flink 源码导入 IDEA,这解决了想阅读源码的人的一大痛点。中文文档:Flink 官网已经有中文版的页面,虽然目前中文页面比较少,应该正在翻译中。说明 Flink 社区比较重视国内开发者。不依赖 Hadoop:这对于一个全新的框架是件好事,这样可以没有历

浏览199推荐0

大数据相关问答

相关猿问

自学编程需要看什么书籍?

最赞的回答

基础:《Java核心技术》卷 1《Java核心技术》卷 2更为适合你

相关猿问

零基础想学python要准备些什么

最赞的回答

0、心态准备编程是一门技术,也可说是一门手艺。如同书法、绘画、乐器、雕刻等,技艺纯熟的背后肯定付出了长时间的反复练习。编程的世界浩瀚无边,所以请保持一颗敬畏的心态去学习,认真对待写下的每一行代码,甚至每一个字符。收拾好自己的心态,向着编程的世界出发。1、入门阶段第一步至关重要,是关系到初学者从入门到精通还是从入门到放弃。选一条合适的入门道路,并坚持下去。1.1 配置 Python 学习环境Python2 还是 Python3?很多人都在纠结入门应该学 Python2 还是 Python3。这其实不是个问题。我从没听过某个人是 Python2 程序员或 Python3 程序员。二者只是程序不兼容...

相关猿问

Spring代替了springboot的哪些功能?

最赞的回答

Spring是Spring Boot的基础,利用了spring的诸多特性,例如注解/Java config/条件配置等等。不过由于有嵌入的web容器,预计未来很多会只提供RPC,HTTP服务的——以前用SpringMVC的项目,会用Spring Boot应用来替代。作者:林子云

相关猿问

Spring Boot中Redis如何使用?

最赞的回答

1、引入 spring-boot-starter-redis<pre>&enddependency&          &t;ogroupId&gfrorg.springframework.boot>/groupId&t;a       &priartifactId&rtespring-boot-starter-redis&  &/artifactId&cy&  &pre/dependency&e>#</pre>2、添加配置文件<pre># REDIS (RedisProperties)# Redis数据库...</pre>

相关猿问

已经学会了基本的Linux 操作,但是还在用windows,能给点建议吗?

最赞的回答

学linux,肯定要在windows上安装一个linux虚拟机呀,为什么不敢安装,网上都有超详细安装过程。不过建议初学linux命令,安装服务器版的,对学习基础命令有很大帮助,我有一篇博客是写安装ubuntu14.04-server的虚拟机,明天给你发链接,你可以参考一下

相关猿问

连接mysql数据库​有问题!!!!!!!!急!!

最赞的回答

程序写好了,要么在其他java文件里调用这个文件中你写好的连接数据库的方法,要么在本类中写一个main方法,你这个类没有main方法。运行时当然会出现找不到主类的情况

相关猿问

编程对配置到底需不需要高配

最赞的回答

编程不需要高配,但想要高效编程就得考虑高配,毕竟学大数据还是需要模拟集群环境,需要安装多台虚拟机,如果配置不够,很费劲的,电脑配置高点就不会在硬件条件上浪费自己的时间

相关猿问

大二女生想在互联网bat工作,二本计算机,请问路线可以怎么走,适合什么工作,目前在学程序

最赞的回答

你提供的信息比较少,很难看出你适合什么样的工作,但是看得出来你确实很迷茫。 建议你了解一下IT行业,或者是BAT中的各个岗位和这些岗位的工作内容。然后确定一下自己喜欢哪个岗位。确定下来之后,看一下这个岗位需要什么能力,BAT对这个岗位的求职者看中什么,然后再去努力。如果还是迷茫再回来提问吧,祝你好运~

大数据技术与实践训练营

入门大数据领域,一站式搞定大数据开发技术;行业需求大,给你更多的工作机会,让你赢在起跑线!

查看详情

高效求职全攻略

巧过经验关丨面试杀手锏丨求职通关技

查看详情

挑战AlphaGo Zero算法 走进人工智能新时代

从基础出发,强化算法知识,飞速提升学习效率!

查看详情

一气呵成!Python开发一站式学习

从入门到开发,学习 好玩 好用 好未来的Python语言。

查看详情