为了账号安全,请及时绑定邮箱和手机立即绑定

关于学习数据分析及数据挖掘的路线

老师,您好,我是一名大三的学生,我希望以后能够从事数据分析这方面的工作,请问我应该怎样拟定一个好的学习路线呢

正在回答

1 回答

2).数据挖掘工程师


    需要理解主流机器学习算法的原理和应用。

    需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。

    需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。

    经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。



(3).科学研究方向


    需要深入学习数据挖掘的理论基础,包括关联规则挖掘 (Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法 (Kmeans、Spectral Clustering)。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。

    相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持,更适合进行统计计算分析研究。虽然目前在国内流行度不高,但是强烈推荐。

    可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群。

    需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;还有数据挖掘相关领域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。

    可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。

    可以尝试为一些开源项目贡献自己的代码,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具体可以在SourceForge或GitHub.上发现更多好玩的项目)。

    经典图书推荐:《机器学习》 《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。

数据挖掘涵盖面很广,系统的学习个人建议依照以下路线:



    找一本教材,个人推荐李航的《统计机器学习》


    可以去看网易上关于机器学习的公开课,是Standford的Prof. Ng的视频课程,超级棒。


    结合教材和视频,将机器学习算法的公式推一遍,然后用Matlab或者python跑一跑数据,找点感觉。


    对于数学也要加强,特别在概率论方面。



上面说的是机器学习,其实已经包括了数据挖掘的大部分,在上面了解的差不多之后 ,可以试着去做一些有意思的项目,比如去分析女神的微博情感,或者参加一些数据挖掘比赛,kaggle上有很多比赛可以去做。



如果你想从事数据挖掘,你必须具备:数据挖掘模型、算法的数学知识以及一些数据分析软件(SPSS、SAS、matlab、clementine)

一些数据库相关的知识(oracle、mySQL)了解市场、其它部门需求当然这些都是一点一滴积累起来的,没必要一蹴而就,特别是对市场、行业的了解以及对公司其它部门的需求的理解非常重要,这决定了你能否从基础的分析人员上升到产品层、决策层,都是要在实际的工作中积累起来的。。

数据挖掘工程师


岗位描述Job Description

阿里巴巴每天处理上百亿次的用户请求,其中不少服务需要利用海量数据和机器智能来满足用户需求。如:营销推广、搜索、推荐、翻译、图像识别、语音识别等。

在这里,你将和顶尖科学家和大牛工程师们一起分析讨论业务场景中的问题,通过建立数学模型,并利用海量数据和底层算法库,解决各种业务问题。

如何提升点击率、用户最喜欢哪个品牌、如何让商家得到更多转化成交……一个个实际问题让你在提升客户体验的同时,深刻理解电子商务的方方面面。

通过仔细分析数据分布、链接关系以及各种异常检测,你将能够通过数据洞悉问题本质,利用海量机器和数据解决各种排序、分类、聚类问题。

岗位要求Qualifications

1、 本科以上学历、硕士博士优先。具有很强的逻辑分析能力,对数据敏感。

2、 具有一定的数据建模实践经验,扎实的编程基础,精通至少一门编程语言。熟悉R语言优先。

3、 熟悉常用机器学习算法,对信息检索、自然语言处理、图像处理、语音处理等相关领域的应用问题有大量实践经验者优先。

4、有实际成果并发表在国际顶级会议、期刊者优先。

5、 拥有海量数据处理经验者、熟悉Map-Reduce模型者优先。

6、擅长与商业伙伴的交流沟通,具有优秀的报告讲解能力及沟通能力优先。

7、 能够积极创新, 乐于面对挑战, 负责敬业。

8、 优秀的团队合作精神;诚实, 勤奋, 严谨。

数据研发工程师


岗位描述Job Description

如果你想,参与阿里大数据的采集、存储、处理,通过分布式大数据平台加工数据,支持业务管理决策。

如果你想,参与阿里大数据体系的设计、开发、维护,通过数据仓库、元数据、质量体系有效的管理和组织几百P的数据。

如果你想,参与阿里大数据产品的研发,通过对数据的理解,发挥你的商业sense,发掘数据价值,探索大数据商业化。

如果你想,接触世界领先的大数据处理与应用的技术和平台,获得大数据浪潮之巅的各类大牛的指导。

岗位要求Qualifications

如果你,所学专业是计算机、数学、统计等相关专业。

如果你,有较强的动手能力和学习能力,熟悉一门数据处理语言,如SQL、JAVA、Python、Perl等,熟悉unix或者linux操作。

如果你,具备扎实的专业基础,良好的沟通能力和团队合作,主动积极、乐于面对挑战。

如果你,有参与数据处理、分析、挖掘等相关项目更好。

如果你,对Hadoop、Hive、Hbase等分布式平台有一定的理解更好。

那么,成为数据研发工程师吧,这里就是你的舞台。

法工程师


岗位描述Job Description

阿里巴巴对海量数据的处理,需要涉及包括信息检索、自然语言处理、机器学习、数据挖掘、分布式计算等一系列的专业领域。

在这里,你将与这些领域内的顶尖科学家和大牛工程师们一起分析讨论数学模型的各种优劣,结合业务中的实际问题,设计实现各种算法。

从给定优化目标的优化问题求解,到稀疏矩阵的分解;没解过上亿维度空间的问题就不能算是大数据算法工程师。

支持向量机、图模型、波尔茨曼机……没试过最新最牛的模型,就不能说已经对上亿用户的体验负责。

内存压缩、红黑树、并行度,不能把一个好算法用最高效的代码实现就不是一个好的算法工程师。

岗位要求Qualifications

1、本科以上学历、硕士博士优先。扎实的统计学、数据挖掘、机器学习理论基础,能够利用高等数学知识推演高维数学模型。

2、 具有一定的数据建模实践经验,扎实的编程基础,精通至少一门编程语言。熟悉R语言优先。

3、 熟悉矩阵理论、概率论、凸优化等数学理论模型者或具有较好数学基础者优先。

4、具有信息检索、自然语言处理、图像处理、语音处理、深度学习、知识图谱、等领域相关经验,并在模型创新上有所建树者优先。

5、 拥有海量数据处理经验者、熟悉Map-Reduce模型者优先。

6、擅长与商业伙伴的交流沟通,具有优秀的报告讲解能力及沟通能力优先。

7、 能够积极创新, 乐于面对挑战, 负责敬业。

8、 优秀的团队合作精神;诚实, 勤奋, 严谨。 

端开发工程师


岗位描述Job Description

在这里,你将参与交互设计师一起,美化产品线 Web功能的设计;

与视觉设计师一起,参与完成产品线 Web功能的开发与实现;

有机会参与各产品线用户体验、性能、架构等方面的改进与优化;

你还将加入到我们业内最前沿Web技术的研究与开发中。

岗位要求Qualifications

我们希望你,可以熟练使用各种 Web 前端技术,包括(X)HTML/CSS/Javascript/JSON 等,并有相关的项目开发经验或成果;

我们希望你,有基于Ajax 应用的开发经验;深刻理解 Web 标准,对可用性、可访问性等相关知识有实际的了解; 对算法、数据结构以及后台开发(PHP/Java等)有一定了解;

我们希望你,关注新事物、新技术,有较强的学习能力,喜欢挑战;并且,个性乐观开朗,逻辑性强,善于和各种背景的人合作。

还等什么呢?快来加入我们的阿里巴巴,期待你的大展身手!我们希望你,可以熟练使用各种 Web 前端技术,包括(X)HTML/CSS/Javascript/JSON 等,并有相关的项目开发经验或成果;

工作地点Location

成都市(Chengdu),上海市(Shanghai),杭州市(Hangzhou),北京市(Beijing),广州市(Guangzhou)

参加面试的城市或地区Interview City or Region

杭州市(Hangzhou),上海市(Shanghai),成都市(Chengdu),南京市(Nanjing),北京市(Beijing),天津市(Tianjin),广州市(Guangzhou),武汉市(Wuhan),哈尔滨市(Haerbin),西安市(Xian)



数据产品经理


岗位描述Job Description

如果你想,了解阿里大数据的来龙去脉,参与解读大数据背后的业务及商业意义;

如果你想,用数据“说话”,全面及时反映全局运营状况,打造“业务瞄准器”,把数据转化成生产力,提升业务运作效率

如果你想,直面业务团队,管理和分析客户需求,形成需求分析和产品设计,推动并解决业务问题,保障业务战略发展和支持管理决策

如果你想,参与大数据建设,搭建阿里大数据底层的统一公共层业务模型架构和面向公司内外客户的数据产品,提供标准、服务、安全、共享的数据服务平台

如果你想,直面千百万商家,深入客户沟通和了解客户需求,规划、设计和落地以商家为目标客户的数据产品并持续优化,为商家做生意提供数据分析、诊断、建议、优化甚至预测服务

岗位要求Qualifications

如果你,所学专业是计算机、数学、统计、中文、信息管理与科学等相关专业

如果你,了解互联网特别是电子商务,具备良好的数据敏感度和业务视野,能够敏锐的捕获数据价值和产品机会

如果你,有强烈的责任感和ownership,具有积极主动追求产品和帮助客户成功的意愿和热情,并且爱好挑战

如果你,具备很好的文笔和良好的逻辑思维、良好的沟通能力和团队协作能力、以及很强的学习和动手能力

如果你,熟悉一门数据处理语言,如SQL、JAVA、Python、Perl等,熟悉unix或者linux操作则更好

那么,加入数据产品经理的领域吧,让我们一起来解读大数据时代充满激情挑战和创新思维的数据产品吧!

工作地点Location

杭州市(Hangzhou),北京市(Beijing),广州市(Guangzhou)

参加面试的城市或地区Interview City or Region

杭州市(Hangzhou),上海市(Shanghai),成都市(Chengdu),北京市(Beijing),广州市(Guangzhou),武汉市(Wuhan)


4 回复 有任何疑惑可以回复我~
#1

艾桥 提问者

虽然不是很明白你给的回答,但还是很感谢
2016-10-13 回复 有任何疑惑可以回复我~
#2

qq_一个人失忆_1

俺也不是很明白这个回答... 感谢指导
2018-10-15 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消

关于学习数据分析及数据挖掘的路线

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信