1分钟探秘AI: 什么是无监督学习

大家好!我是 , 文接上回,今天我们一起来看看机器学习中的另一方高地,神秘的自学成才—— 无监督学习。

Image

机器学习( )的世界里,无监督学习的面前是一堆没有标签的原始数据。比如,数百万张图片,图片里有喵喵、狗狗、兔兔。在昨天我们聊到的“监督学习”中,每张图片都会被打上“猫”、“狗”或“兔”的标签。但在无监督学习中,什么标签都不会有。算法必须自己来深入观察数据,寻找隐藏的结构、相似之处和关联。然后再渐渐摸索出一个处理办法:这些数据点看起来很像,我们把它们归为一组吧。

无监督学习模型用于三项主要任务,分别是聚类关联规则降维

聚类():算法把相似的数据点自动归为一组。我们平常用的最多的电商平台,就是靠着用聚类这个方法,把我们分成“爱买美妆”,“热衷户外装备”,“深夜零食党”等等不同的类别,随后的营销策略就开始对我们精准投喂,而不是对着我们瞎喊全场五折大甩卖。

关联规则( Rules):这种主要是用于查找数据集中不同项目之间的模式和关系。比如通过海量的购买数据,算法会发现购买 X 的人通常也会购买 Y 之类的规则。所以各家电商或者音乐平台的 “猜你喜欢”,靠的就是这招来让你买了又买,听了又听。

降维( ):如果当数据有几百个甚至几千个巨复杂的特征,比如一个人的身高、体重、发色、瞳孔颜色、鞋码等等。虽然更多的数据通常会产生更加准确的结果,但是过多的特征也会反过来影响机器学习算法的性能(例如过拟合),同时也可能使数据集难以可视化。因此这个时候就需要这个降维了,依旧以前面的人的特征为例,将这些特征压缩成只有几个关键特征,比如压缩成 “外貌特征”和“生活习惯”。它既保留了数据中最重要的信息,同时又扔掉了噪音或冗余的细节。

昨天我们提到“监督学习”可以得到比较准确的结果,那为什么还还会存在无监督学习这种“自学”方式呢?

答案很简单,给数据打标签太贵了、太耗时了!

人工标记数百万张图片或文本需要投入大量的金钱和人力。而今天我们谈论的无监督学习则可以在没有昂贵的人工干预下,直接从海量数据中提取有价值的联系,甚至能发现连人类自己都没有预料到的潜在模式。

所以,下次当你看到电商网站给你推荐“你可能喜欢的商品”时,你就知道,这背后就是 在默默工作啦。

Image

好了,今天的 1 分钟探秘 AI 就到这里,希望大家喜欢。

我是八爪鱼威廉,与你一起探秘 AI。

监督学习_Unsupervised Learning 无监督学习_聚类算法应用

看了今天的文章,你可能还会喜欢:

© 版权声明

相关文章

暂无评论

none
暂无评论...