首页互联网深入浅出数据分析 数据分析从入门到进阶

深入浅出数据分析 数据分析从入门到进阶

编程之家2024-05-26117次浏览

一、有哪些可视化数据分析工具推荐

个人比较倾向壹看板,我是做运营的,经常要分析新媒体各个渠道的数据,比如微信公众号、一点资讯、今日头条等等,需要分析每个渠道的内容数据,还要进行横向对比,分析渠道的优劣势,因为数据比较分散,分析起来很麻烦,每天都要花费很多时间,用了壹看板就可以解决这个问题,有一个“行业智库”的板块,提供好多新媒体渠道的分析模板,可以直接套用,上图:

深入浅出数据分析 数据分析从入门到进阶

今日头条内容分析模板:

微信公众号内容分析模板:

二、如何学习数据分析

优秀的数据分析师并不能速成,但是零经验也有零经验的捷径。

市面上有《七周七数据库》,《七周七编程语言》。今天我们就《七周七学习成为数据分析师》,没错,七周。

第一周:Excel学习掌握

如果Excel玩的顺溜,可以略过这一周。但很多人并不会vlookup,所以有必要讲下。

深入浅出数据分析 数据分析从入门到进阶

了解sum,count,sumif,countif,find,if,left/right,时间转换等。excel的各类函数很多,完全不需要学全。重要的是学会搜索。我学函数是即用即查,将遇到的问题在网上搜索得到所需函数。

重中之重是学会vlookup和数据透视表。这两个对后续的数据转换有帮助。

学会vlookup,SQL中的join,Python中的merge能很快掌握。

学会数据透视表,SQL中的group,Python中的groupby也是同理。

这两个搞定,基本10万条以内的数据统计没啥难度,也就速度慢了点。80%的办公室白领都能秒杀。

网上多找些习题做,Excel是熟能生巧。

深入浅出数据分析 数据分析从入门到进阶

养成一个好习惯,不要合并单元格,不要过于花哨。表格按照原始数据、加工数据,图表的类型管理。

附加学习:

1、了解中文编码utf-8,ascii的含义和区别

2、了解单元格格式,帮助你了解后期的timestamp,date,string,int,bigint,char,factor等各类格式。

3、如果时间还有剩余,可以看《大数据时代》,培养职业兴趣。

第二周:数据可视化

数据分析界有一句经典名言,字不如表,表不如图。别说平常人,数据分析师自己看数据也头大。这时就得靠数据可视化的神奇魔力了。

以上就是所谓的可视化。排除掉数据挖掘这类高级分析,不少数据分析师的平常工作之一就是监控数据观察数据。

另外数据分析师是需要兜售自己的观点和结论的。兜售的最好方式就是做出观点清晰数据详实的PPT给老板看。如果没人认同分析结果,那么分析也不会被改进和优化,分析师的价值在哪里?工资也就涨不了对吧。

抽空花一段时间学习可视化的基础,如《数据之美》

另外你还需要了解BI的概念。知名的BI产品有Tableau,PowerBI,还有国产的FineBI等。都有体验版和免费版能下载,网上找一点数据就能体验可视化的魅力。比Excel的图表高级多了。

BI需要了解仪表盘Dashboard的概念,知道维度的联动和钻取,知道绝大多数图表适用的场景和怎么绘制。比如以下FineBI制作的dashboard。

第三周:分析思维的训练

这周我们轻松一下,学学理论知识。

分析思维首推大名鼎鼎的《金字塔原理》,帮助数据分析师结构化思维。如果金字塔原理让你醍醐灌顶,那么就可以学思维导图,下载一个XMind中文网站,或者在线用百度脑图。

再了解SMART、5W2H、SWOT、4P理论、六顶思考帽等框架。这些框架都是大巧不工的经典。你要快速成为数据分析师,思考方式也得跟着改变。网上搜咨询公司的面试题,搜CaseBook。

题目用新学的思维导图做,先套那些经典框架,做一遍,然后去看答案对比。因为要锻炼数据分析能力。所以得结合数据导向的思维。

这里送三条金句:

一个业务没有指标,则不能增长和分析

好的指标应该是比率或比例

好的分析应该对比或关联。

举一个例子:我告诉你一家超市今天有1000人的客流量,你会怎么分析?

这1000人的数量,和附件其他超市比是多是少?(对比)

这1000人的数量比昨天多还是少?(对比)

1000人有多少产生了实际购买?(转化比例)

路过超市,超市外的人流是多少?(转化比例)

这是一个快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何结果。

第四周:数据库学习

Excel对十万条以内的数据处理起来一点不虚,但是资深的数据分析师还是笑摸狗头,TooYoungTooSample,爷搞得都是百万数据。要百万数据,就得上数据库。

SQL是数据分析师的核心技能之一。有些公司并不给数据库权限,需要分析师写邮件提需求,这非常不好。数据分析师经常有各类假设需要验证,很多时候写十几行SQL就能得到的答案,还得麻烦其他部门导出数据。

SQL学习不需要买书,W3C学习就行了,SQL教程。大多数互联网公司都是MySQL,我也建议学,性价比最高。

作为数据分析师,只要懂Select相关,增删改、约束、索引、数据库范式全部略过。你的公司心得多大才会给你写权限。

了解where,groupby,orderby,having,like,count,sum,min,max,distinct,if,join,leftjoin,limit,and和or的逻辑,时间转换函数等即可。

你看,和Excel的函数都差不多。如果时间充裕,则学习row_number,substr,convert,contact等。和Excel一样,学会搜索解决问题。不同引擎的函数也会有差异,例如Presto和phpMyAdmin。

期间你不需要考虑优化和写法丑陋,查询几秒和几分钟对数据分析师没区别,跑数据时喝杯咖啡呗,以后你跑个SVM都能去吃饭了。

网上搜索SQL相关的练习题,刷一遍就行。也能自己下载数据库管理工具,找些数据练习。我用的是SequelPro。

第五周:统计知识学习

统计学是数据分析的基础之一。

统计知识会要求我们以另一个角度看待数据。当你知道AB两组的差异用平均值看是多傻的事情,你的分析技巧也会显著提高。

这一周努力掌握描述性统计,包括均值、中位数、标准差、方差、概率、假设检验、显著性、总体和抽样等概念。详细的数学推导不用细看,谁让我们是速成呢,只要看到数据,知道不能怎么样,而是应该这样分析即可。

Excel中有一个分析工具库,简单强大。对列1的各名词做到了解。如果是多变量多样本,学会各种检验。

《统计数字会撒谎》休闲读物,有趣的案例可以让我们避免很多数据陷阱。

深入浅出统计学(豆瓣)还是经典的HeadFirst系列,适应它一贯的啰嗦吧。

多说一句,老板和非分析师不会有兴趣知道背后的统计学原理,通常要的是分析后的是与否,二元答案。不要告诉他们P值什么的,告诉他们活动有效果,或者没效果。

第六周:业务学习(用户行为、产品、运营)

这一周需要了解业务。对于数据分析师来说,业务的了解比数据方法论更重要。当然很遗憾,业务学习没有捷径。

我举一个数据沙龙上的例子,一家O2O配送公司发现在重庆地区,外卖员的送货效率低于其他城市,导致用户的好评率降低。总部的数据分析师建立了各个指标去分析原因,都没有找出来问题。后来在访谈中发觉,因为重庆是山城,路面高低落差比较夸张,很多外卖人员的小电瓶上不了坡…所以导致送货效率慢。

这个案例中,我们只知道送货员的送货水平距离,数据上根本不可能知道垂直距离这个指标。这就是数据的局限,也是只会看数据的分析师和接地气分析师的最大差异。

对于业务市场的了解是数据分析师工作经验上最大优势之一。既然是零经验面试,公司肯定也知道刚入门分析师不会有太多业务经验,不会以这个卡人。所以简单花一周了解行业的各指标。

《增长黑客》

数据驱动业务的典型,里面包含产品运营最经典的AAARR框架,部分非数据的营销案例,

《网站分析实战》

如果应聘的公司涉及Web产品,可以了解流量的概念。书中案例以GoogleAnalytics为主。其实现在是APP+Web的复合框架,比如朋友圈的传播活动肯定需要用到网页的指标去分析。

《精益数据分析》

互联网数据分析的入门书籍,归纳总结了几个常用的分析框架。比较遗憾的是案例都是欧美。

还有一个小建议,现在有不少第三方的数据应用,囊括了不少产品领域的数据分析和统计。自学党们即使没有生产环境的数据,也可以看一下应用Demo,有好处的。

除了业务知识,业务层面沟通也需要掌握。另外建议在面试前几天收集该行业的业务强化一下。

第七周:Python/R学习

终于到第七周,也是最痛苦的一周。这时应该学习编程技巧。是否具备编程能力,是初级数据分析和高级数据分析的风水岭。数据挖掘,爬虫,可视化报表都需要用到编程能力。掌握一门优秀的编程语言,可以让数据分析师事半功倍,升职加薪,迎娶白富美。

这里有两条支线,学习R语言或Python。速成只要学习一条,以后再补上另外一门。

R的优点是统计学家编写的,缺点也是统计学家编写。如果是各类统计函数的调用,绘图,分析的前验性论证,R无疑有优势。但是大数据量的处理力有不逮,学习曲线比较陡峭。Python则是万能的胶水语言,适用性强,可以将各类分析的过程脚本化。Pandas,sklearn等各包也已经追平R。

如果学习R,建议看《R语言实战》,照着书本打一遍代码,一星期绰绰有余。另外还有一本《统计学》,偏知识理论,可以复习前面的统计学知识。

R学习和熟悉各种包。知道描述性统计的函数。掌握DataFrame。如果时间有余。可以再去学习ggplot2。

Python拥有很多分支,我们专注数据分析这块,入门可以学习《深入浅出Python》。

需要学会条件判断,字典,切片,循环,迭代,自定义函数等。知道数据领域最经典的包Pandas+Numpy。

在速成后的很长一段时间,我们都要做调包侠。

这两门语言最好安装IDE,R语言我建议用RStudio,Python我建议用Anaconda。都是数据分析的利器。

Mac自带Python2.7,但现在Python3已经比几年前成熟,而且没有编码问题。各类教程也足够多,不要抱成守旧了。Win的电脑,安装Python会有环境变量的问题,是个大坑(R的中文编码也是天坑)。

到这里,刚刚好是七周。如果还需要第八周+,则是把上面的巩固和融会贯通,毕竟速成是以转岗或拿offer为目的。有机会,我会专门写文章讲解每一周的具体知识,并且用爬虫爬一些数据做练习和案例。

三、小白如何学习数据分析

作为一个从超级菜鸟阶段过来的人,也曾迷茫,也曾面对一大堆资料不知所措,从无到有踩过太多的坑,在这里分享一下我总结出来的数据分析学习路径,为了让你少走弯路,避免选择困难,能用一本书搞定的我绝不会给你推荐其他多的书。即使是超级菜鸟,只要你认真按照下面的路径进行学习,我保证你能够有所收获。

在我看来,菜鸟入门数据分析所需要学习的内容依次可以分为三个方面:统计学知识、编程技能以及数据分析的方法论。

一、统计学

学习统计学知识并不是让你生啃一本如《统计学原理》或《数理统计》的教科书,如果真是这样,大多数人怕是直接从入门到放弃了。这里推荐一本书:

《深入浅出统计学》

我一直认为统计理论要与日常生活结合起来,才能理解得更直观、透彻。这本书运用充满互动性的真实世界情节,教给你有关统计学的所有基础知识,如信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等。

二、编程技能

在学习了一些统计学的基本知识后,进入编程技能的学习,数据分析主要用到的编程技能有Excel、SQL、Python/R(我推荐学Python)。Excel由于大家或多或少都会用,上手也比较容易,在这里不过多讨论。这里主要讨论SQL和Python应该如何进行学习。

SQL

SQL是什么?SQL全称是”结构化查询语言(StructuredQueryLanguage)”,是一种资料库查询和程式设计语言,用于存取资料以及查询、更新和管理关联式资料库系统。实际业务中要进行数据分析,首先得把数据从数据仓库中提取出来,SQL干的就是这个。

软件安装:

对于刚刚接触SQL的同学,可能装个Mysql都需要花费很多的时间,这里为大家找了两份Mysql的安装指南。

mysql安装-www.cnblogs.com

MySQL安装和使用-梦想云端-博客园www.cnblogs.com

软件装好了,就可以开始学起来了,针对SQL的学习,可以分为入门阶段和进阶阶段。

入门阶段:

推荐书籍:MySQL必知必会

对入门者很照顾的一本书,与其说是一本书不如说是一本小册子,不到250页的小册子,实践性很强,基本没有什么理论的堆砌,完完全全就是一本实践指南,教会你怎么用SQL语句操作MySQL。看完这本书基本就可以说是入门了。看书之余不要忘了勤加练习,这里也为大家找了一份Mysql入门练习题。

进阶阶段:

此时的你已经掌握了SQL的基本语法,能对数据库进行基本的增删改查,但当你面对的数据量较大时,优化就显得很重要了。下一步就是要学会如何去优化SQL代码的运行效率。

推荐书籍:高性能MySQL

注意,这本书大家直接看第六章查询性能优化这章即可,切勿从头啃到尾!!那么进阶阶段应该如何进行训练呢?答案是Leetcode(一个编程刷题网站leetcode-cn.com)Leetcode的数据库板块下面有一些结合实际业务的SQL题目,题目也有划分相应的难度,一开始可以先从难度低的题目开始做起,平台上可以在线编写代码以及在线测试,评论区里面也有一些人的做题思路和代码,当不会做的时候也可以参考一下别人的答案。当Leetcode的题目练的差不多的时候,你的SQL水平已经足以应付绝大多数的业务场景了。Python

关于Python,想必我也不用进行过多的介绍,近几年数据分析、人工智能的火热也让Python成为最流行的编程语言,那么小白需要学什么,怎么学呢?

软件安装:

python好用的IDE(简单说就是写代码的平台)有很多,但对于学习数据分析的初学者而言,我还是墙裂推荐你装Anaconda,并使用jupyter作为练手的IDE,听我的错不了!(自己一开始学的时候在命令行那里敲代码,对新手而言体验极差……)

Anaconda是什么?怎么安装?(安装前先下载个谷歌浏览器)

Anaconda的安装教程(图文)blog.csdn.net将Chrome设置为Jupyter_notebook的默认浏览器-云+社区-腾讯云cloud.tencent.com

安装好Anaconda并配置好jupyter之后,就可以打开jupyter开始学习Python啦,可以花一点时间稍微熟悉一下jupyter的使用,jupyter的界面如下图所示。

基础语法:

安装完软件之后,就可以开始学习Python的基础语法啦,这方面的教程比较多,这里就给大家推荐一下我觉得还不错的,书和视频各一个。

推荐书籍:Python编程从入门到实践

再次注意,这本书也是有选择地看,直接看第二章(变量和简单数据类型)到第九章(类),其他的可以直接忽视。建议在看书时,将示例代码全部自己敲一遍,对代码而言,无他,唯手熟尔,待你将第二章到第九章的代码都敲过并理解了之后,你也就基本掌握了Python的主要数据类型,列表、字典、元组的主要操作,条件语句,循环语句,类和函数的使用,Python也算基本入门了。

如果有时候看书看不下去,也可以选择对应章节的视频课程,这里就给大家推B站的这个视频吧,也算是B站人气比较高的python入门视频课程。

如果觉得书中的例子不过瘾,想多多巩固刚学的Python语法,这里也为你准备了Python的100个小例题。

Python100例|菜鸟教程www.runoob.com

Python数据分析核心工具——pandas

当你已经掌握Python的基本语法之后,就可以直接开始学pandas这个数据分析库了,怎么学呢,这里就推荐一本书。

书籍推荐:利用Python进行数据分析原书第2版

本书由pandas项目创始人WesMcKinney亲笔撰写,详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。不仅有主要方法的操作演示,还有相关案例的实践。把这本书吃透,基本上你就可以灵活地使用Python对数据进行处理了。

其实,如果你认认真真走完上面SQL的学习路径,学习pandas的时候进度会很快,因为很多地方都是相通的,这篇文章总结了pandas和SQL在使用方法上的对比,学完SQL后学pandas,看看这个,你会恍然大悟。

pandas与sql对比,持续更新blog.csdn.net

另外:建议在阅读这本书的时候,不仅把书上的代码吃透,最好还能找个自己感兴趣的数据集开始试着练手分析分析。不知道去哪里找数据集?下面给你整理了几个常见的找数据集的网站:

和鲸社区-Kesci.comwww.kesci.com天池数据集Datasets|Kagglewww.kaggle.com

不知道该怎么着手分析?下面是我整理的50个数据分析实战项目,你可以看看别人的分析思路,再将之运用到分析你的数据集上。

易执:干货!Python数据分析50个实战项目(持续更新……)zhuanlan.zhihu.com

至此,你已经基本掌握了数据分析的基本工具,接下来就得开始学习如何结合实际业务去分析问题,学习一些数据分析的思维。

三、数据分析方法论

这里直接推荐两本自己看过的不错的书

1、精益数据分析

这本书展示了如何验证自己的设想、找到真正的客户、打造能赚钱的产品,以及提升企业知名度。30多个案例分析,全球100多位知名企业家的真知灼见,为你呈现来之不易、经过实践检验的创业心得和宝贵经验,其中的数据分析思路值得仔细揣摩。

2、增长黑客

作为最早提出“增长黑客”概念的理论先驱、带领Dropbox实现500%增长的实战领军人物,作者在书中分享了如何跨部门搭建增长黑客团队,以及实现用户和利润双增长的具体行动指南。这本书适合入门者理解增长黑客的原理与操作体系。

如果你已经走到最后这个阶段了,那么再往下继续深入,就得在实际项目中结合业务自己学习领悟了,或许,这也正是数据分析独特的魅力所在!

flask框架,flask框架是用来干什么的如何改qqip地址(如何修改QQIP地址)