当前位置: 沃微圈 > 阅读 > 财经 >

如何用2周时间促成一次1700+人参与的大数据行业调研

来源:转载

作者 | 2016年大数据行业从业者调研报告主要编写人Sophie

 

 前言


12月13号,问卷发出;截止12月31号,收到1416份回答,并制作《2016大数据行业从业者调研报告》精华版;1月1号伦敦当地时间中午,北京当地时间晚上8点20分,经过反复修改和确认,报告精华版发布于大数据文摘微信公众号。

分析过程中,我们有以下三个主要发现:


  • 1、数据、数据分析(包括大数据分析)受到我国企业重视,多数企业拥有数据决策团队,并将增加数据项目的投入,表明大数据行业发展态势良好,具有可观市场前景。

  • 2、我国大数据行业处于上升阶段,目前对大数据的利用有限,未使用云架构,数据分析集中在商业、市场和用户方面,主要工作为进行预测分析。这是由人才和企业两方面决定的:行业从业者工作时间短,多数企业实施数据项目时不知道如何最大化利用数据。

  • 3、科技行业和民企是我国发展大数据的中坚力量。目前的行业从业者多数持有硕士文凭,可塑性强;较高的薪资将吸引更多高学历人才。


见证了整个调研、成稿的小编私信我说,推送前从来没有这么紧张过。

 

发布后,我们得到了不少读者的积极回馈,后台又收到了补填问卷近200份。出于对所有填写问卷人的感谢和责任感,1月1号当天,我们用最新的数据从头开始进行了新一轮分析,并完全修改了之前做好的报告完整版(共32页PDF,报告主要结论未产生变化),1月2号完成。

 

截止1月3号,完整版报告(32页pdf)邮件发布,并发送给了参与调研的所有1734人。

 

在此再次感谢所有抽出宝贵10分钟填写问卷的各位读者,填写过大数据文摘《2016年大数据行业从业者调研》问卷的读者朋友,如果仍然没有收到完整版报告,请点击“阅读原文”补填邮箱。如果仍希望获得完整报告,也可以点击“阅读原文”补填问卷。

 

 2个周时间 和 1700+人参与


在这半个月里,遇到了无数问题,给出了无数解决方案,得到许许多多人的帮助。

 

最意外的问题是给1700人发邮件:完整版做好之后,本来以为不会再有问题了。而这时出现了意料之外的情况:群发邮件无法发送。各大邮箱服务商提供的免费邮箱一天只能发送400个邮件给陌生人,为了防止垃圾邮件,每次大概只能发送给20人。于是又和北京的团队工作到北京时间半夜,尝试各种方法,也只成功将完整版报告发给了一部分填写者。最后,我们通过搭建群发服务器才终于在1月4号将所有邮件发送完毕。

 

为了配合团队完成工作,跨年的那几天,更是除了保证了必要的睡眠和运动外,剩下的时间都在工作。横跨8个时区的工作接力其实很有意思:我早上起来打开电脑查看北京最新的进展,和北京的团队一起工作到我的下午(北京的晚上),北京那边睡了我继续工作到我的晚上,我睡觉的点正好赶上北京的团队第二天早上起来完成工作交接。

 

之前在乙方工作的时候,凡事都要满足客户的需求,加班也是难免的。当时盼望去甲方工作,觉得从此可以不再加班、不再给PPT调格式、走向人生巅峰。而当我真正和大数据文摘一起,为了让大数据行业现状更加清晰、让更多人了解大数据行业发展,做这样一份公益性质的调研(报告免费发送给所有参与调研的人)的时候,我终于发现,做自己想做的事,如果想做好,更要加班。但是这种加班是这样的体验:

 

做成一件事不容易,但做喜欢的事情是快乐的。

 

习大大新年贺词说“撸起袖子加油干”,在我的理解中,这就是一种企业家精神(Entrepreneurship),是一种不断解决问题的精神。能做事,能把事情做成,这是执行力。企业家精神和执行力,这是创业的环境和整个社会都需要的。

 

32页,58张可视化图表,我学到了什么?

 

在与大数据文摘给力的团队的沟通与讨论中,通过在数据领域有丰富经验的专业人士的反馈,我对数据分析师的工作产生了新的理解。对于咨询师和分析师来说,看到背后的联系、给出建议是特别重要的能力。之前我的理解里,可视化的意义就是不需要别人看文字,就能理解图片在说什么。对于一份PPT来说,就是每个图片的标题应为图表内容总结,且不超过两行。但是发布一份报告和之前做PPT讲给客户不同,报告本身不能仅仅是分析结果的堆叠,而是需要引导别人看到分析中有价值的部分(讲PPT的步骤)。

 

分析中最有价值的部分,就是读者最关心的部分。最开始我只能把问卷的每个问题都做一个图,展示选哪个选项的人最多;也做了一些交叉分析,比如年收入和学历的关系,但是没有得到要领。直到得到团队和导师的反馈我才明白,最有价值的部分就是读者最关心的部分,而这部分内容应该变成报告的关键结论。比如投资是否增加、行业间的区别,是投资人、领导等关心的;工资是从业者关心的。

 

得到要领之后,给出分析结论和报告的编写也更有逻辑了。比如,最开始报告分成四个方面:机构,数据团队,个人,技术。后来,变成了三个方面:样本分布、数据团队和投资,大数据应用现状(包括技术和工资)。这是公司和个人层面最关心的角度。

 

写到最后“对数据分析结果拥有最终解释权”的时候觉得,哇。审计师签字的感觉。

 

我明白了“调PPT格式”的工作是无法避免的,只能尽量简化和优化工作步骤。因为我们要追求专业性,而格式统一、没有错别字等,就是读者对一篇文章的第一印象。

 

“客户”的需求,也是无处不在的。满足客户需求,就是做事时考虑对方,写作时考虑读者。语言是有歧义的,表达自己的时候,永远考虑到底想通过这句话说什么、为什么而说,为什么这句话要在文章的这个位置出现,而没有出现在上一段或上一句话的位置?

 

看着报告每一版都比上一版优秀、分析也越来越深入,我明白了人是变化、发展、成长的。同样的,报告也是。对于一份“作品”,我有些完美主义的要求,但是我意识到,我应该增加我的包容能力,并且更好地发掘人的潜力。感谢大数据文摘敬业的团队,和我一起加班,给我充分的信任;感谢几位经验丰富的导师付出宝贵时间,用专业的工作态度作出指导和反馈;感谢朋友们提供的各种帮助;感谢读者们的支持。我有足够的理由相信,这群有激情、有能力、爱分享的人,一定能走得更远。

  

跨年那天,我在伦敦郊区的公寓里对着电脑屏幕上的图表,不远处是泰晤士河。伦敦的下午时间开始,每过一小时,就有一个时区告别了2016年,朋友圈里进入新年的朋友不断发送着祝福。突然,我听到了轰隆轰隆的炮竹声,看一眼屏幕右上角,零点了。全城放起了震耳欲聋的焰火,泰晤士河边和远处的地平线上都是不断升起来的彩色光点。窗外一个女生大叫着,Happy New Year!在这个时间不可逆的小小星球上的我,这时仿佛听到了全人类面向未来的呐喊。



窗外的泰晤士河 摄影 | Sophie 


此次调研遇到的一些关键问题


在这里,我们记录了此次调研遇到的一些关键问题,也许能让读者朋友有所参考。如果对于这些问题大家有其他建议,可以在文后留言。

 

项目制学习(ProjectBased Learning, PBL)

 

这次调研,就是一个项目。这里的项目可以看做是一个我们遇到的、想要解决的实际问题(比如,我们想知道大数据行业从业者现状)。由这个问题展开,我通过查找和阅读,以及参加公开课程,不断探索了问卷调查的一般方法,数据可视化和讲故事的技巧,并在项目上应用。一篇论文,或者一次小组展示,其实都可以看成一个项目。我认为这种学习方式是最有效的。

  

MECE(Mutually Exclusive,Collectively Exhaustive)相互独立、完全穷尽

 

这是麦肯锡顾问Barbara Minto在《金字塔原理》提出的,我在不断的探索和运用。比如最简单的就是:问卷设计的时候,一道单选题,每个选项之间应该是相互没有重叠的。有了选项“收入0-100元”,就不能有“收入50元以下”。而所有的选项加在一起,要能代表问题的所有可能情况(收入0-100,>100这两个选项就可以代表所有可能回答)。这个原则也可以用在分析问题和写作上。

  

及时保存数据

 

问卷共有28题,包括身份鉴别题(用来实现跳转)、人口统计特征(demographics)问题、单选题和多选题。问题的内容来自我们的经验,并综合了几个国外现有调查,见参考文献1234。从问卷到数据,这个过程还算容易。使用了腾讯问卷,可以随时修改问题内容,实时提供统计结果和原始数据下载(下载.csv和.sav格式文件均可)。唯一遇到的问题是,在问卷发出第一天后,我们调整了问卷的问题顺序,导致永久丢失了91个邮箱数据。所以建议是,问卷发出后,最好避免调整问卷问题,并及时下载原始数据。

 

 数据分析

 

拿到数据后,第一步是清理数据。我们遇到的问题是想把excel里的原始数据每个单元格最前面的A.xxx B.xxx C.xxx里的A.B.C.(选项的编号)去掉。刚开始试了函数和vba(开始的想法是从用=Right()从最后开始截取每个单元格的值的长度减2),没成功,因为遇到多选题的空值处理不了。直到做完整版报告的时候,我终于想到找一个text to column的vba代码(对应excel数据面板下的文本分列功能,但手动点击每次只能分开一列),在每列之间循环,终于把这个问题解决掉了。代码见附录。

 

值得注意的是,分析问卷类型的数据时,会遇到多选题的情况,这时原始数据的排列是不利于分析的。比如同一个问题下面,每一个选项的回答都会成为一列数据(如果选择了该选项则有值,如果没有选择则为空值)。要进行数据分析,最好的选择是把原来的选项的标题作为一列,选项的内容作为相对应的另外一列,每行表示一个人的一次选择。

 

比如,原来有填写人X选了A选项和B选项,填写人Y选了B选项和C选项。

之前,ABC三个选项分别是三列,A列里包括填写人X,B列里包括填写人X和Y,C列里包括填写人Y:

A, B, C

X, X, null

null, Y, Y

 

我们要做的就是将它们变成两列:

X, A

X, B

X, null

Y, null,

Y, B

Y, C

 

 

Tableau的Data Source页面,选中要转化的列,用pivot功能可以实现这一步。参考文献里这个博客内容有详细的步骤5。

  

可视化

  

使用了tableau软件(Tableau Desktop),很好用。分析是实时的,数据源的改变直接反映在分析里。分析很直观,把某个变量拖拽至分析区即可。可以很容易地将原始值分组(比如将金融和商业服务业两个选项组成金融及服务业)。计算的功能操作简单(table calculation),比如计算选择该项的人在总人数中的比例,或者交叉分析(比如每个行业里年收入的各个级别占百分之多少),还有函数可以使用。图表的美化上,配色美,而且提供多种配色方案。改变图表很简单(比如从柱状图改为条形图,对换横纵轴)。改变图表的格式很容易,比如按照每个变量的值的大小进行排序、一键显示数据标签、单独显示某个值的数据标签、更改图例的内容和格式、更改坐标轴的标题和格式。

 

但是,导出图片就很不智能。我创建了50多个工作表(worksheet),只能手动选择单个工作表导出为图片,每个工作表要导出为图片要点击很多次(单击工作表-导出-图片-选择导出内容-保存)。如果能把所有的图一次性导出就好了。我可以理解tableau的初衷和主要功能是实时的分析,比如做仪表盘(dashboard),不是为了让分析师截图到pdf报告里的。但是我想肯定也有人遇到报告要做成word和pdf的情况。如果能增加Tableau和Office软件的兼容就好了。

 

做了一些重复工作和错误工作

 

第一份分析是12月28号的,我想增加12月28到12月30的数据,在tableau里改了数据源,但发现所有图都不能用了,因为新数据的每列标题改变了(去掉了题号),于是我又重新在tableau里做了所有的图。

 

微信版本来仅仅是完整版的重要图片,临到发布才发现图例字体太小,于是重新回tableau里调整,截新的图,让读者不用点开每个图片就可以看到图片上的字。

  

一些其他实用功能

  

word:插入自动编号的图表说明(caption),统一设置标题的格式,并插入目录。

excel:筛选(filter),条件格式(conditionalformatting),函数和vba。

 

附录

 

excel文本分列的vba代码

 

首先确保表格内的所有数据的格式都是aaa.xxx,其中aaa.是要去掉的内容,点前面的文字长度不限,因为是以点的位置把每列分开

 

在列之间循环,这里n的值等于表格包括的列数。如果列数是变化的可以自己找一个计算列数的代码。这里的Other:=True, OtherChar:="."代表我们用点来分割。这里点和点之前的内容(aaa.)是要去掉的,所以destination是column自己。range.texttocolumns()还有其他用法,可以自己搜索。

 

 

Sub testtocolumns()

Dim i As Integer

 

For i = 1 To n

 

    Columns(i).TextToColumnsDestination:=Columns(i), DataType:=xlDelimited, _

 

       TextQualifier:=xlDoubleQuote, ConsecutiveDelimiter:=False, Tab:=True, _

 

       Semicolon:=False, Comma:=False, Space:=False, Other:=True, OtherChar _

 

       :=".", FieldInfo:=Array(1, 9)

 

Next i

 

End Sub

 

参考文献

 

1. Forbes, 6 observations from a new surveyon the state of big data analytics, http://www.forbes.com/forbes/welcome/?toURL=http://www.forbes.com/sites/gilpress/2015/09/04/6-observations-from-a-new-survey-on-the-state-of-big-data-analytics/&refURL=&referrer=

  

2. IDG Enterprise, 2015 Big Data andAnalytics Survey, http://www.idgenterprise.com/resource/research/2015-big-data-and-analytics-survey/

 

3. IDG Enterprise, 2016 Data &Analytics Research, http://www.idgenterprise.com/resource/research/tech-2016-data-analytics-research/

  

4. NewVantage Partners, Big Data ExecutiveSurvey 2016, http://newvantage.com/wp-content/uploads/2016/01/Big-Data-Executive-Survey-2016-Findings-FINAL.pdf

 

5. Datarevelations, Reshaping Survey Datawith Tableau 9.0, http://www.datarevelations.com/reshaping-survey-data-with-tableau-9-0.html


分享给朋友:
您可能感兴趣的文章:
随机阅读: