FightingCV

V1

2022/09/16阅读:16主题:默认主题

【免费送书】机器学习和数据分析的关系是怎么样的,要学习的话哪者为先?

【免费送书】

FightingCV公众号创建一年以来,感谢各位老粉和新粉的支持。为了回馈各位粉丝的支持,今后我们会不定期的进行抽奖、赠书等活动回馈粉丝。

本次赠送的书籍为《智能数据分析:入门、实战与平台构建》,赠送对象为FightingCV公众号的阅读榜第一、二名分享榜第一、二名(阅读榜和分享榜根据最15天文章的阅读量和分享量的排行榜),开奖日期为10月1日。想要参与赠书活动的朋友,请添加小助手微信FightngCV666(备注“城市-方向-ID”),方便联系获得邮寄地址。(文末附优惠购买链接)

机器学习和数据分析的关系是怎么样的,要学习的话哪者为先?

来源:https://www.zhihu.com/question/65585907[1]

作者:猴子

数据分析,机器学习[2],深度学习,人工智能的关系我画了这张图

我来解释下这张图。

一切技术的出现都是为了解决现实问题,而现实问题分为简单问题和复杂问题。简单问题,需要简单分析,我们使用数据分析。复杂问题,需要复杂分析,我们使用机器学习

1、什么是简单问题?

比如公司领导想知道每周的销售情况,这种就是简单问题。简单问题可以用数据分析来处理,通过分析数据来分析出有用的信息。

最简单的,你用excel分析一家淘宝店铺的销售数据,每周公司会让你出一份周报一份发现了最近几个月销量下降,然后根据分析产生销量下降的原因是什么,找到原因后制定对应的策略来提高销量。

我们来看一个真实的案例。全球最大的旅行房屋租赁社区Airbnb曾在2011年纠结于新用户增长的缓慢,有一天,他们的数据分析团队发现房源照片的精美程度,跟房源的预定人数成很大的正相关。

于是,他们提出一种假设,即“附有专业摄影照片的房源要更抢手,因此房主肯定会愿意申请Airbnb提供的此项服务”。

他们迅速上线了一个提供专业摄影照片服务的版本,然后跟原版本做A/B Test,发现同一个房源,使用专业摄影服务的比不使用的多了2-3倍的订单量。

2011年后期,Airbnb雇用了20名专业摄影师,以帮助平台上的房主拍摄房屋照片,几乎在同一时间段,Airbnb的订单量曲线有了一个陡峭的增长。

2、什么是复杂问题?

比如我们天天使用的淘宝,它会根据你的历史购物习惯(数据),来给推荐你可能感兴趣的商品。淘宝是如何做到的呢?对于这种复杂问题,淘宝背后使用的就是机器学习

我再举个例子,今日头条是如何靠机器学习逆袭成为新闻客户端老大的。

2010年前后,门户时代崛起的网易、搜狐、腾讯三巨头向移动端转型,几乎垄断了当时的新闻客户端市场。而仅仅2年后,今日头条,使用“机器学习”这把屠龙刀向用户个人性化推荐用户感兴趣的新闻,一举打破巨头垄断,成为新闻客户端老大。虽然,后来腾讯和网易为了对抗头条,推出了类似的产品的天天快报和网易号,但因起步晚和算法不成熟,都失败了。

下面图片是我在知乎一个问题下回答的传播分析报告

在这份报告中,像点赞数、评论数、收藏数、总阅读量这样的分析就是简单分析。像“你可能感兴趣的人”这样的分析,就是复杂分析,需要通过机器学习算法来找到,类似于豆瓣上给你推荐感兴趣的电影、淘宝上给你推荐感兴趣的商品。

3、什么是深度学习?

机器学习分很多方法(算法),不同的方法解决不同的问题。深度学习是机器学习中的一个分支方法

深度学习在图像,语音等富媒体的分类和识别上取得了非常好的效果,所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。我说个例子,你肯定听说过。那就是2016年谷歌旗下DeepMind公司开发的阿尔法围棋(AlphaGo)战胜人类顶尖围棋选手。阿尔法围棋的主要工作原理就是“深度学习”。

4、什么是人工智能?

人工智能,它的范围很广,广义上的人工智能泛指通过计算机(机器)实现人的头脑思维,使机器像人一样去决策。

机器学习是实现人工智能的一种技术。所以我把人工智[3],机器学习,深度学习放到不同的圆圈里,他们三者是包含的关系:

现在,你已经清楚了数据分析、机器学习、深度学习这些概念的关系了。当我们从解决现实问题的角度来看,很多概念会清楚。处理不同的问题,使用不同的方法。

5、数据分析与人工智能的关系?

你可能会问了:“上图中没看出数据分析和人工智能有什么关系呀,是不是学习数据分析没什么用?那我是不是一开始就学习机器学习了,这样可以直接进人工智能时代,享受时代红利了?”

这么想是不对的。

机器学习是很多学科的知识融合,而数据分析是机器学习的基础。只有学会了数据分析处理数据的方法,你才能看懂机器学习方面的知识。这就好比,你想上初中(机器学习),必须先读完小学(数据分析)才可以。

所以,我在下面图片中画了两条黄色的线,表示数据分析的两个方向,如果你喜欢深入技术,学会了数据分析,你才能打好基础,去学习机器学习。如果你喜欢商业方面的内容,可以往人工智能业务方向发展。

职业社交网站领英在《2018新兴工作岗位报告[4]》中说,2018年,15个新兴职位里有6个与人工智能相关,这说明,与人工智能相关的技能开始渗透到各个行业,而不仅仅是技术行业。

领英把人工智能技能定义为:开发和有效使用人工智能工具和技术的技能。这是领英上增长最快的一个技能,从全球来看,2015年到2017年这个技能增长了190%。

之前很多人本来就是零基础,却买来一堆机器学习的课程和书来学习,最后看的是晕头转向,觉得自己不适合。

其实,这是走错了路。如果你是零基础,想进入人工智能这个相关的职业,要先从数据分析开始学起。

6、总结

1)人工智能是指使机器像人一样去决策

2)机器学习是实现人工智能的一种技术

3)机器学习分很多方法(算法),不同的方法解决不同的问题。深度学习是机器学习中的一个分支方法。

4)数据分析可以帮助你从零进入人工智能时代。如果你喜欢深入技术,学会了数据分析,你才能打好基础,去学习机器学习。如果你喜欢商业方面的内容,可以往人工智能业务方向发展。

5)下面这张图是它们之间的关系

作者:夏未眠

“数据第一,算法第二”。数据是整个机器算法流程的基础,也是核心。没有数据就没有后续的特征工程,建模,测试,部署等步骤。而对于原始数据,我们对他了解多少呢?什么样的数据是好数据呢?什么样的数据是对建模[5]有帮助的数据呢?这里笔者对数据相关的内容进行了简单总结,包括数据量,数据质量,数据可用性,可靠性等,希望对大家有所帮助。

作者:飞象数据求职

在彻底选择之前了解一下什么是机器学习,什么是数据分析。

**机器学习(ML)**是一种可以通过经验和使用数据自动改善的计算机算法。它被视为人工智能的一部分。机器学习算法基于“训练数据”的样本数据建立一个模型,以便在不被明确编程的情况下做出预测或决策。机器学习算法被广泛应用于医学、电子邮件过滤、语音识别和计算机视觉等领域,在这些领域,开发传统算法来执行所需任务是困难的或不可行的。机器学习也常常被认为是数据科学的一个领域。

数据分析是以一种检查、呈现和报告数据的过程,最终的目的是让没有技术背景的决策人员能够理解数据的含义。因为如果数据不能被需要使用它的决策者理解,那么它就几乎是无用的,数据分析充当了数据和需要了解数据的人之间的翻译。

由以上的描述我们可以看见两者是有本质的不同。数据分析的结果常常是以可视化的图形来表达数据之间的关系,而机器学习的结果往往是一个统计模型用于对输入做出相应的判断。但是很多人常常会混淆两者之间的区别,主要是因为机器学习和数据分析都一定会使用到相同的Python库:

  1. Numpy用于处理大维度数组,这些数组的数据类型都是相同的

  2. Pandas用于数据操作和分析,它能够提供类似于Excel的Data frame数据结构[6]。每一列可以看作一个变量,每一列的数据类型可以是不同的。

  3. Matplotlib用于构建数据可视化的

  4. Scipy用于科学分析,也提供一定的统计分析模型

在清楚了数据分析和机器学习概念上的差别和使用上的共同之处之后,我们对于文章之初给出的问题,我们的答案最好先学习数据分析,然后循序渐进地学习机器学习。当然这个建议是在你的统计、数学和计算机基础还不错的假设下提出的。如果你想学习机器学习并且以此为日后的工作,那么熟知统计学和计算机科学是必须的前提。

下面我们用一个例子来具体解释两者之间的关系。

我们使用墨尔本[7]房屋数据作为原始数据。这些数据包含以下变量:

Suburb: 所在区域

Address:地址

Rooms:拥有的房间数量

Type:房产类型,br-卧室(bedroom),h – 独立别墅; u – 单元房(unit); t – 联排别墅; dev site – 开发地; o res – 其他居住型房产.

Price:价格

Method:S – 物业已售出; SP – 物业提前售出; PI – 物业拍卖价格低于业主要求的最低价格(property passed in); PN – 提前售出未公开; SN – 未公开售出; NB – 无竞价; VB – 卖主出价; W – 拍卖前退出; SA – 拍卖后售出; SS – 拍卖后售出价格未透露. N/A – 价格或最高出价不可知.

SellerG:房产代理中介

Date:售出日期

Distance:和 CBD的距离

Postcode:邮编

Bedroom2:卧室数目

Bathroom:卫生间数目

Car:车位数目

Landsize:土地面积

BuildingArea:建筑面积

YearBuilt:建筑时间

CouncilArea:所属行政区域

Lattitude:纬度

Longtitude:经度

Regionname:大区域(例如,东,南,西,北,东北等等)

Propertycount:所属区域内房产数量

下面我们假设我们希望向投资者汇报在墨尔本3个房价至少1个车位并且总价格低于60万澳币的房产分布情况,首先我们利用Pandas将CSV格式的数据文件读入data frame

接下来我们在openstreetmap上下载地图后将房产标注在地图上(我下载的地图是墨尔本)

下一步,我们将比较流行的3房间且至少有1个车位而且房价小于AU$60万的房子筛选出来

当然我们还可以做其它的一些数据分析,例如我们想知道在3个房间的房产中大于200万澳币的豪宅大致的分布情况。

是不是更清楚地看出墨尔本富人区的位置?当然我们可以继续做其他的数据分析,但是基本上数据分析的意图已经阐述清楚了,即我们把枯燥的原始的CSV数据以更为友好方式展现给读者或者客户。由于长度的限制我把表格转换成了图形便于大家阅读。

接下来,我们自然想知道在给定房产信息的情况下该花多少钱买3房房子,要求总价格在100万以下。我们使用机器学习的方法来预测房产的房价,当然这只是一个toy级别的应用而已,仅作为阐述我们的主题而非真正的房价研究。我们把价格作为y变量,把YearBuilt, Propertycount, Car, Bathroom, Landsize, Lattitude, Longtitude作为x变量[8]

下面是Price的描述。

我们使用的机器学习的模型叫决策树。

我们来看一下使用这个机器学习算法给出的样本内X的头5个房产的价格预测

我们利用下面的代码来看一下样本内的预测误差

误差是$110.29,预测非常不错. 这当然可能是overfitting。因此我们将样本分为训练集和测试集,在训练集上训练决策树模型,在测试集上测试样本预测误差以此来评估机器学习算法的好坏。

这个结果的为AU$102955.44。可见样本外的测试结果远远差于样本内的拟合。一般来说接下去的工作应该是使用其他模型,例如随机森林模型来改善样本外的预测误差然后找到最好的模型。但是由于本文的目的仅仅是通过这个例子向大家阐述机器学习和数据分析的关系。因此我们不再继续深入探讨这个话题。

最后通过这个例子我们清楚的知道在做一项工作时数据分析和机器学习的角色,大家通过这个例子也就应该明白两者之间的关系。

【项目推荐】

面向小白的顶会论文核心代码库:https://github.com/xmu-xiaoma666/External-Attention-pytorch[9]

面向小白的YOLO目标检测库:https://github.com/iscyy/yoloair[10]

面向小白的顶刊顶会的论文解析:https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading[11]

“点个在看,月薪十万!”

“学会点赞,身价千万!”

【技术交流】

已建立深度学习公众号——FightingCV,关注于最新论文解读、基础知识巩固、学术科研交流,欢迎大家关注!!!

请关注FightingCV公众号,并后台回复ECCV2022即可获得ECCV中稿论文汇总列表。

推荐加入FightingCV交流群,每日会发送论文解析、算法和代码的干货分享,进行学术交流,加群请添加小助手wx:FightngCV666,备注:地区-学校(公司)-名称

参考资料

[1]

https://www.zhihu.com/question/65585907: https://www.zhihu.com/question/65585907

[2]

机器学习: https://www.zhihu.com/search?q=机器学习&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={"sourceType":"answer","sourceId":1634846257}

[3]

人工智: https://www.zhihu.com/search?q=人工智&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={"sourceType":"answer","sourceId":1634846257}

[4]

2018新兴工作岗位报告: https://www.zhihu.com/search?q=2018新兴工作岗位报告&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={"sourceType":"answer","sourceId":1634846257}

[5]

建模: https://www.zhihu.com/search?q=建模&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={"sourceType":"answer","sourceId":2422259804}

[6]

数据结构: https://www.zhihu.com/search?q=数据结构&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={"sourceType":"answer","sourceId":2048358672}

[7]

墨尔本: https://www.zhihu.com/search?q=墨尔本&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={"sourceType":"answer","sourceId":2048358672}

[8]

x变量: https://www.zhihu.com/search?q=x变量&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={"sourceType":"answer","sourceId":2048358672}

[9]

https://github.com/xmu-xiaoma666/External-Attention-pytorch: https://github.com/xmu-xiaoma666/External-Attention-pytorch

[10]

https://github.com/iscyy/yoloair: https://github.com/iscyy/yoloair

[11]

https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading: https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

分类:

人工智能

标签:

人工智能

作者介绍

FightingCV
V1

公众号 FightingCV