MarvinZ

V1

2022/10/07阅读:12主题:全栈蓝

浅谈数据:数据领域需要掌握些什么?

引子

“据不完全统计,数据从业者的白头发占比高于同年龄段的平均值”---某数据从业者

数据(Data),这个对不少人来说熟悉而神秘的词语,似乎已成为各行各业都在追捧的图腾。管理者们喜欢看到五颜六色的炫酷报表,数据分析师们热衷于构建专业复杂的概率模型,业务员们将数据仪表盘作为自己能否完成业绩目标的指南针。最近十几年,数据行业飞速发展,诞生了大量让人望而生畏的专业名词,例如大数据(Big Data)、数据科学(Data Science)、数据湖(Data Lake)、数据网络(Data Mesh)、数据治理(Data Governance);当然,那些“传统”的专业词汇也让人头疼,例如数据仓库(Data Warehouse)、商业智能(Business Intelligence)、数据集市(Data Mart)、数据挖掘(Data Mining);而更可怕的事实,很多人可能还不清楚这些名词跟最近大火大热的人工智能(Artificial Intelligence)、机器学习(Machine Learning)、深度学习(Deep Learning)有什么联系。这些火热的名词背后,都是数据领域野蛮发展的必然结果。

专业医生还是算命先生?

多年前,互联网行业蓬勃发展,而数据行业的泡沫也日益增长。数据作为互联网应用的副产物,容量巨大而又丰富,很多互联网企业一门心思想要从中获取进一步增长,这是因为很多企业家将其视为金矿,进而也让数据挖掘工程师们成为了炙手可热的明星职业。之后,更火的职业应运而生,数据科学家(Data Scientist)被称为 21 世纪最性感的职业。

data-science
data-science

数据科学家职业的火爆是由于它要求多方面的经验能力:

  • 编程能力:至少要用 Python 或 R 进行数据清洗、分析、建模
  • 数理统计:熟练掌握概率论、微积分、离散数学等专业学科知识
  • 业务知识:对相关业务领域的市场、流程、宏观趋势有深刻理解
  • 沟通能力:能将分析结果以普通人类能够理解的方式表达出来

因此,这个职业的性感来自于其门槛,能同时掌握以上能力的从业者并不多。但是,即使有这样能力的全面手,数据科学家的很多项目最终也是以失败告终。其中最主要的 2 个原因是数据规模问题和数据质量问题。据 CrowdFlower 统计,2016 年的数据科学项目中, 80% 的时间花在了数据采集和数据清洗,只有 20% 的时间在真正的分析和建模。这是巨大的资源浪费。

由于大部分企业数据架构都不足以支持大规模且高质量的数据处理流程,导致一部分处理工作让人工完成,正所谓“人工的智能”。很多数据模型预测不准,而让不少数据科学家被贴上了“江湖郎中”或“算命先生”的称号。要成为数据领域的“专业医生”,你不仅需要具备之前提到的“专业医学知识”(核心能力)以外,还需要“专业医学设备”(架构流程)的支撑。

路在何方?

很多数据从业者都在抱怨数据领域卷得飞起,但目前似乎正在有所改观。以前需要人眼看分布图来得出结论的方式,可以通过机器学习模型进行自动化。而数据分析甚至建模要求的技能,正在逐渐变得傻瓜化。例如,Power BITableau 允许用户以拖拽的低代码方式生成图表或模型,之前的专业数据分析都是依赖 Python 库 pandasmatplotlibsklearnJupyter Notebook 中编程生成。而免费的开源项目 Apache SupersetMetabase 都允许数据分析者在浏览器页面中轻松愉快的进行数据分析。这或许就跟数码相机一样,从最早的专业胶片机到数码相机再到人人都会用的手机摄像头,随着技术的革新使用门槛也会不断降低,从而推动整个行业的发展。“人人都是数据分析师”不再会是一个梦。

powerbi
powerbi

不过,数据质量还是一个问题。虽然可以通过一些巧妙的机器学习分类模型来自动填充遗失数据、纠正错误数据,但很多时候还是需要人工参与。如今大部分基于深度学习的强大人工智能模型,都是基于数据标注员一点一点的人工标注后,再将这部分已标注数据喂给模型算法的。因此,大部分组织都在推动数据标准化,这也是数据治理的一大核心工作。“脏进,脏出”是至理名言。

没有银弹

数据自动化数据标准化是未来数据领域的一大发展趋势,但由于数据行业涉及的领域非常广,不能因此简单将其看成解决数据问题的利器。现在的数据从业者除了掌握基础的数据专业知识以外,更重要的还需要数据敏感度以及推理能力,这些都是教材和课上不会教的,只有自己从项目经验中积累。一些看似高大上的专业词汇,并不一定比实在的简单道理来得有用。

社区

如果您对笔者的文章感兴趣,可以加笔者微信 tikazyq1 并注明 "码之道",笔者会将你拉入 "码之道" 交流群。

本篇文章英文版同步发布在 dev.to,技术分享无国界,欢迎大佬们指点。

分类:

人工智能

标签:

数据挖掘

作者介绍

MarvinZ
V1