机器学习与数据挖掘中的十大经典算法新时代
机器学习与数据挖掘中的十大经典算法
数年前,有人动议在机器学习与数据挖掘领域中找出十大算法,即建立该领域算法的一个top10。后在该领域选出部分专家学者,经他们提名、汇总和筛选,在分类,聚类,图挖掘,关联分析等领域共选出18个算法。对这18个算法在更广泛的领域内,一人一票,最终得出了其中的10个作为最后的算法。应该说,受时间、经验、领域和参选人数等诸多限制,入选的十大算法,不一定个个都是最优秀的;受条件所限没有入选的有些算法,也不能说是不好的。下面列出这十大算法,供参考。
一、分类决策树算法C4.5
C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树,就是做决策的节点间的组织方式像一棵倒栽树)核心算法ID3的改进算法
,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。
C4.5相比于ID3改进的地方有:
1、用信息增益率选择属性。
ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使拿出自带的饭菜用的是熵,一种不纯度度量准则,也就是熵的变化值,而C4.5用的是信息增益率。区别就在于一个是信息增益,一个是信息增益率。
2、 在树构造过程中进行剪枝,在构造决策树的时候,那些挂着几个元素的节点,不考虑最好,不然容易导致过拟。
3、能对非离散数据和不完整数据进行处理。
二、 K平均算法
K平均算法(k-means algorithm)是一个聚类算法,把n个分类对象根据它们的属性分为k类(kn)。它与处理混合正态分布的最大期望算法相似,因为他们都试图找到数据中的自然聚类中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。 p=
近似的k平均算法已经被设计用于原始数据子集的计算。
<吃货节活动正式上线仅一个小时p>从算法的表现上来说,它并不保证一定得到全局最优解,最终解的质量很大程度上取决于初始化的分组。由于该算法的速度很快,因此常用的一种方法是多次运行k平均算法,选择最优解。算法缺点是,分组的数目k是一个输入参数,不合适的k可能返回较差的结果。另外,算法还假设均方误差是计算群组分散度的最佳参数。
三、支持向量机算法
支持向量机(Support Vector Machine)算法,简记为SVM,是一种監督式學習的方法,广泛用于统计分类以及回归分析中。
支持向量机属于一般化线性分类器。这类分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区,因此支持向量机也被称为最大边缘区分类器。
Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况,甚至扩展到使用非线性函数中去。支持向量机是一种有很深理论背景的一种新方法。
SVM的主要思想可以概括为两点:(1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;(2)它基于结构风险最小化理论之上,在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
1234下一页>
seo+50
心动过速应注意什么
肩颈背部酸痛的原因
- 上一页:巨额的光伏补贴钱给谁新时代
- 下一页:中小学生近视率上涨明显教室照明应该如何设新时代
-
投资者问及:根据公司信息,上市融资了36亿多,但如今市值缩水了一百多亿,粗...
高盛提问:根据美国公司个人信息,母美国公司融资了36亿多,但如今市值拖...
2023-10-03
-
请不要再夸孩子“你真棒”了,夸孩子就该用这3诱,娃越夸越聪明
引言 随着以前的变化,不仅仅是人们的生活习惯水平遭遇了变化,人们的一...
2023-10-02
-
恋就是让一个笨手笨脚的小女孩有人照顾 有人惦记 如果让她哭 你算什么男子汉 你算大笨蛋 艾特ta热门
恋人就是让一个笨手笨脚的莎拉有人照顾 有人惦记 如果让她不禁 你唯什么男...
2023-09-28
-
国家发改委:尽快研究明确车购税特惠延续等支持政策
据中国网,4月19日,国新办就2022年今年工业和高技术其发展具体情况举行见...
2023-09-23
-
宝宝为啥总喜欢拽小女孩头发,挠小女孩?看完背后的原因觉得好暖心!
在母亲生下夫妻俩,夫妻俩几个月初大的时候,许多奶奶都就会有一个困扰,...
2023-09-22
-
内蒙古下半年冷空气来袭!呼和浩特的天气是这样的……
新疆风沙大幅度 20日起新一轮气流来袭 记者4月18日从新疆气象局了解到,18~...
2023-09-21