什么是SVM算法?硬间隔和软间隔的分类问题

SVM全称是supported vector machine(支持向量机),即寻找到一个超平面使样本分成两类,并且间隔最大。

SVM能够执行线性或⾮线性分类、回归,甚至是异常值检测任务。它是机器学习领域最受欢迎的模型之一。SVM特别适用于中小型复杂数据集的分类。

什么是SVM算法?硬间隔和软间隔的分类问题

超平面最大间隔

什么是SVM算法?硬间隔和软间隔的分类问题

上左图显示了三种可能的线性分类器的决策边界:虚线所代表的模型表现非常糟糕,甚至都无法正确实现分类。其余两个模型在这个训练集上表现堪称完美,但是它们的决策边界与实例过于接近,导致在面对新实例时,表现可能不会太好。

右图中的实线代表SVM分类器的决策边界,不仅分离了两个类别,且尽可能远离最近的训练实例。

硬间隔分类

在上面我们使用超平面进行分割数据的过程中,如果我们严格地让所有实例都不在最大=大间隔之间,并且位于正确的一边,这就是硬间隔分类。

硬间隔分类有两个问题,首先,它只在数据是线性可分离的时候才有效;其次,它对异常值非常敏感

当有一个额外异常值的鸢尾花数据:左图的数据根本找不出硬间隔,而右图最终显示的决策边界与我们之前所看到的无异常值时的决策边界也大不相同,可能无法很好地泛化。

什么是SVM算法?硬间隔和软间隔的分类问题

软间隔分类

要避免这些问题,最好使用更灵活的模型。目标是尽可能在保持最大间隔宽阔和限制间隔违例(即位于最大间隔之上,甚至在错误的一边的实例)之间找到良好的平衡,这就是软间隔分类。

要避免这些问题,最好使用更灵活的模型。目标是尽可能在保持间隔宽阔和限制间隔违例之间找到良好的平衡,这就是软间隔分类。

什么是SVM算法?硬间隔和软间隔的分类问题

在Scikit-Learn的SVM类中,可以通过超参数C来控制这个平衡:C值越小,则间隔越宽,但是间隔违例也会越多。上图 显示了在一个非线性可分离数据集上,两个软间隔SVM分类器各自的决策边界和间隔。

左边使用了高C值,分类器的错误样本(间隔违例)较少,但是间隔也较小。

右边使用了低C值,间隔大了很多,但是位于间隔上的实例也更多。看起来第二个分类器的泛化效果更好,因为大多数间隔违例实际上都位于决策边界正确的一边,所以即便是在该训练集上,它做出的错误预测也会更少。

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/367060.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
黑马程序员黑马程序员订阅用户
上一篇 2023年8月29日 16:13
下一篇 2023年8月29日 16:23

相关推荐

  • 我来分享为什么SEO优化人员要懂搜索引擎算法。

    为什么SEO优化人员要懂搜索引擎算法? SEO是一个神奇的职业,每个从业人员都希望探其究竟,试图更好的掌握搜索引擎原理,而整日每天热衷于到各个角落谈论搜索引擎算法,期望整理出一套自己的seo优化算法。 实际上,…

    2022年11月14日
    00
  • 我来分享2020年百度SEO新出的“劲风算法”。

      近期,百度推出了一个新的算法《劲风算法》,相信不少朋友看到算法就会深感恐惧,百度每次推出新算法,都会有一大批的网站被“拔毛”!今天我们就来给大家聊聊关于2020年百度SEO新出的“劲风算法”。      一、…

    2022年12月4日
    01
  • 小编分享百度算法越来越多SEO优化要怎么玩。

    相隔一个多月,百度相继推出闪电算法和惊雷算法,越来越多的算法推出,对于绝大多数seo优化从业者来说无异于晴天霹雳,SEO优化要怎么玩下去?接下来杭州seo优化公司小编将为大家分享相关内容。每次百度新的算法一出…

    2023年6月26日
    00
  • 360关键词排名规则是神马?

    360关键词排名规则是什么?如何提高360关键词排名?相信有不少的朋友都会有这样的疑问,接下来就让我们一起看看下面的这一篇文章,在这篇文章中,我们将会为大家详细介绍360关键词排名规则的相关内容。 一、目前360搜…

    2022年5月22日
    0523
  • 谷歌与百度的seo区别在哪。

    网站优化企业在平时中常常会碰到某些要做谷歌优化的,很多网站优化的初学者会感觉谷歌优化和网站优化是同样的,各抒已见,但并不是意味着方法不适合管不了做网站优化,仍是做谷歌提升,网站优化方法大部分是同样的…

    2022年10月28日
    021
  • 小编分享SEO优化如何应对百度更新排名算法。

    随着企业对网站的需求变得越来越多,想要在搜索引擎上面做好网站seo优化排名,我们经常会遇到百度算法的影响,今天中午百度站长发布百度搜索将11月推出“惊雷算法”,严厉打击通过刷点击,提升网站搜索排序的作弊行为…

    2023年6月26日
    00
  • 什麽叫做排名算法?

    排名算法是搜索引擎用来对其索引中的列表进行评估和排名的规则。排名算法决定哪些结果是与特定查询相关的。大多效搜索引擎决定关健词排名的因素都超过100种以上,但最爲重要的壹些算法在各大搜索引擎部是通用的,例…

    2014年1月12日
    0122
  • 集成学习算法是什么?如何理解集成学习?

    什么是集成学习? 集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。 机器学习的两个…

    2023年8月7日
    01

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息