什么是SVM算法?硬间隔和软间隔的分类问题

SVM全称是supported vector machine(支持向量机),即寻找到一个超平面使样本分成两类,并且间隔最大。

SVM能够执行线性或⾮线性分类、回归,甚至是异常值检测任务。它是机器学习领域最受欢迎的模型之一。SVM特别适用于中小型复杂数据集的分类。

什么是SVM算法?硬间隔和软间隔的分类问题

超平面最大间隔

什么是SVM算法?硬间隔和软间隔的分类问题

上左图显示了三种可能的线性分类器的决策边界:虚线所代表的模型表现非常糟糕,甚至都无法正确实现分类。其余两个模型在这个训练集上表现堪称完美,但是它们的决策边界与实例过于接近,导致在面对新实例时,表现可能不会太好。

右图中的实线代表SVM分类器的决策边界,不仅分离了两个类别,且尽可能远离最近的训练实例。

硬间隔分类

在上面我们使用超平面进行分割数据的过程中,如果我们严格地让所有实例都不在最大=大间隔之间,并且位于正确的一边,这就是硬间隔分类。

硬间隔分类有两个问题,首先,它只在数据是线性可分离的时候才有效;其次,它对异常值非常敏感

当有一个额外异常值的鸢尾花数据:左图的数据根本找不出硬间隔,而右图最终显示的决策边界与我们之前所看到的无异常值时的决策边界也大不相同,可能无法很好地泛化。

什么是SVM算法?硬间隔和软间隔的分类问题

软间隔分类

要避免这些问题,最好使用更灵活的模型。目标是尽可能在保持最大间隔宽阔和限制间隔违例(即位于最大间隔之上,甚至在错误的一边的实例)之间找到良好的平衡,这就是软间隔分类。

要避免这些问题,最好使用更灵活的模型。目标是尽可能在保持间隔宽阔和限制间隔违例之间找到良好的平衡,这就是软间隔分类。

什么是SVM算法?硬间隔和软间隔的分类问题

在Scikit-Learn的SVM类中,可以通过超参数C来控制这个平衡:C值越小,则间隔越宽,但是间隔违例也会越多。上图 显示了在一个非线性可分离数据集上,两个软间隔SVM分类器各自的决策边界和间隔。

左边使用了高C值,分类器的错误样本(间隔违例)较少,但是间隔也较小。

右边使用了低C值,间隔大了很多,但是位于间隔上的实例也更多。看起来第二个分类器的泛化效果更好,因为大多数间隔违例实际上都位于决策边界正确的一边,所以即便是在该训练集上,它做出的错误预测也会更少。

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/367060.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
黑马程序员黑马程序员订阅用户
上一篇 2023年8月29日 16:13
下一篇 2023年8月29日 16:23

相关推荐

  • 我来分享为什么SEO优化人员要懂搜索引擎算法。

    为什么SEO优化人员要懂搜索引擎算法? SEO是一个神奇的职业,每个从业人员都希望探其究竟,试图更好的掌握搜索引擎原理,而整日每天热衷于到各个角落谈论搜索引擎算法,期望整理出一套自己的seo优化算法。 实际上,…

    2022年11月14日
    00
  • 我来分享全网推广专家来说说惊雷算法。

    据全网推广小编了解,11月20日,百度搜索资源平台发布了一则《百度搜索推出惊雷算法 严厉打击刷点击作弊行为》的公告,公告称百度搜索将于11月底推出惊雷算法,严厉打击通过刷点击,提升网站搜索排序的作弊行为;以…

    2023年4月20日
    01
  • 蓝天算法是什么以及有哪些作用呢

    蓝天算法是什么呢?说到蓝天算法大部分都会觉得这是某种计算公式,其实蓝天算法是可以打击一些低劣内容的一种搜索引擎法则,其实蓝天算法有哪些作用呢?下面就让我们一起去看看吧。 蓝天算法 蓝天算法是什么呢 主要是…

    2022年5月21日
    0157
  • 快速排名点击的利与弊

    想要做快速排名,使用一些点击软件,或者说是使用一些不法的点击软件让我们的文章点击率变高,这种点击软件它并不见得是一个好处,因为有的时候它可能会被打击。 百度的惊雷算法,绿萝算法等等,各种各样的算法,包…

    2022年5月27日
    0171
  • 教你如何面对seo内在算法的一些变化。

    如何面对seo内在算法的一些变化 在面对seo内在算法不断变化的时候,我们要清楚的去看到具体的算法的变化,涉及到很多的东西,如果能够认真的去关注各个方面的内容,对于具体的内在的算法有了更多的了解,那么你在做…

    2022年11月14日
    00
  • 关于网站优化内容的完整和规范性

    我们也会发现,做网站seo优化工作,也是需要去看百度的脸色,了解百度它的一些小技巧!百度,其实对于内容的完整和规范性也给出了一定的范例,如果说是平常做优化工作的时候注意这些细节和方式,也是有助于我们的页…

    2022年5月24日
    0335
  • 网站优化细节和方式我们需要注意哪些问题?

    电商网站怎么设计?电商网站优化应该注意哪些细节?网站优化细节和方式我们需要注意哪些问题?哪些东西不能碰? (1):不要碰一些相对来说违法作弊的优化方式有的一些站长为了在短时间内提升排名,所以就可能会采用一些…

    2022年5月24日
    0225
  • 认识聚类算法【机器学习必学】

    什么是聚类算法?聚类算法是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,…

    2023年8月7日
    02

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息