如何理解机器学习,组成机器学习的三个部分有哪些?
署名2021-02-07

在数据领域,很多人都在谈论机器学习,但只有少数人能说清楚机器学习到底是什么。互联网上关于机器学习的文章大多是学术三部曲,里面充斥着各种定理,或者是关于人工智能、数据科学魔术和未来工作的故事。

虽然在实际工作中使用机器学习进行数据分析的机会很少,但我认为这仍然是实践者需要的技能之一。因此这里主要介绍给那些想了解机器学习的人。它不涉及高层次的原则,只使用简单的语言来谈谈现实世界的问题和实际的解决方案。不管你是程序员还是项目管理层,你都能理解。淘系技术.png

如何理解什么是机器学习

有个故事:比利想买辆车。他想弄清楚他每个月要存多少钱才能付得起。他在网上浏览了几十则广告后得知,新车的价格约为2万元,一年后的二手车价格为1.9万元,两年后的汽车价格为1.8万元,以此类推。

作为一个聪明的分析师,比利发现了一条规则:汽车的价格取决于汽车的年龄。每增加一年,价格将下降1000美元,但不低于10000美元。

用机器学习的术语来说,比利发明了“回归”——根据已知的历史数据预测价值(价格)。当人们试图在eBay上计算出一台二手iPhone的合理价格,或者为烧烤准备多少排骨时,他们一直在使用类似比利的方法——200g?每人500英镑?

我们都希望有一个简单的公式来解决世界上所有的问题,但这显然是不可能的。

我们还是继续买车吧。现在的问题是,除了车龄,它们的生产日期也不一样,几十个配件、技术条件、季节性的需求波动,天知道还有什么是隐藏着的,比利在计算价格时不能把这些数据都考虑进去,我也不能这么做。

我们需要机器人来帮助他们学习数学。因此,在这里我们用计算机的方法——给机器提供一些数据,让它找出所有与价格有关的潜在规律,与现实人在头脑中仔细对比分析所有的依赖因素,机器的处理就好得多,这样,机器学习就诞生了。

机器学习的三个组成部分

尽管与人工智能(AI)有关的废话很多,机器学习的唯一目标是根据输入数据预测结果,仅此而已。所有的机器学习任务都可以用这种方式表示,否则从一开始就不是机器学习问题。

样本越多样化,就越容易找到相关的模式并预测结果。因此,我们需要三个部分来训练机器:

数据

想检测垃圾邮件吗?获取垃圾邮件样本。想预测股票吗?查找历史价格信息。想了解用户偏好吗?分析他们的Facebook活动。数据越多样化,机器学习的结果就越好。对于一台疯狂运行的机器来说,至少几十万行数据就足够了。

有两种主要的方式来获取数据,那就是手动或自动。手动数据收集的错误较少,但它需要更多的时间,一般来说通常更多。自动化的方法相对便宜,你可以收集你能找到的所有数据(我希望数据质量足够好)。

一些像谷歌这样的,他们的用户免费标记他们的数据。还记得RECAPTCHA强迫你“选择所有路标”吗?这就是他们获取数据或免费劳动的方式!做得好。如果我是他们,我会更频繁地向他们展示,但是等等

好的数据集真的很难获得。它们非常重要,一些公司甚至可能会打开自己的算法,但很少发布数据库。

特征

它也可以被称为“参数”或“变量”,如汽车里程、用户性别、股票价格、文档中的词频等。换句话说,这些都是机器学习需要考虑的所有因素。

如果数据以表的形式存储,则功能与列名相对应。但是如果是一张100 GB的猫的照片呢?我们不能把每个像素都当作一个特征。这就是为什么选择合适的特征通常比机器学习的其他步骤需要更多的时间。特征选择也是错误的主要来源。人性中的主观倾向会使人们选择自己喜欢或觉得“更重要”的特征,这是需要避免的。

算法

最明显的部分,任何问题都可以用不同的方法解决。您选择的方法将影响最终模型的精度、性能和大小。有一点需要注意:如果数据质量很差,就是最好的机器学习算法也没用。这被称为“垃圾输入-垃圾输出”(GIGO)。因此,在我们花费大量时间研究机器学习的准确性之前,我们应该获得更多的数据才行。

经典机器学习算法

一半的互联网公司都在研究这些机器学习算法,许多大型科技公司都非常热衷于神经网络。原因显而易见。对这些大企业来说,准确率提高2%,意味着收入增加20亿。但当公司的业务量很小的时候,就不那么重要了。我听说一个团队花了一年时间为他们的电子商务网站开发了一种新的推荐算法。后来发现,网站99%的流量来自搜索引擎——他们开发的算法毫无用处。毕竟,大多数用户甚至不会打开他们的主页。

虽然经典机器学习算法被广泛使用,但原理非常简单,你可以很容易地向一个学步的孩子解释它。它们就像是基本的算术——我们每天都在用,却连想都不想。