敬老、爱老是中华民族的传统美德,为弘扬敬老爱老传统,培养学生劳动技能,6月30日,龙口一中13名学生志愿者来到遇家敬老院,以实际行动为这里的老人们献上自己的爱心。“老有所为,老有所学,老有所养,老有所乐”已经成为整个社会的责任。本次社会实践活动,同学们用行动为老人们带来了家人般的温暖,进一步延续了中华民族“爱老、敬老、养老”的传统美德;培养了劳动意识和劳动技能,使同学们真正感受到了劳动、奉献的快乐。

手握三角纹,富贵有望,钱财不愁![吃瓜]

在手相学中“三角纹”是象征着财富的手纹,手心有非常明显三角纹的人,是大吉大利的手相。预示其人不仅能在事业上有所成就,而且财运也很旺盛,若是从商,在工作上必定会聚四面八方的财产,是注定能成富豪的命,多权利,必定会大富大贵。此外,有此手相者不论男女,都能找到一位条件不错的配偶。你的手上有三角纹吗?

数据挖掘经典算法都有哪些,盘点十点经典算法

人工智能早报 2019-03-20 09:25:19

 1.C4.5

C4.5是一种决策树算法,属于监督学习。先给一个样本集,从而建立一棵决策树,然后根据这个决策树来对后续的数据做决策。

C4.5的缺点:

1. 算法低效,在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效

2. 内存受限,适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行

一些专业的术语: 熵 / 信息增益 / 信息增益率

熵: 就是信息的不确定性,多样性,包含的信息量的大小,需要用多少bit来传递这个信息。比如,抛一枚银币3次,得到的可能结果有8种,我们知道计算机要用3bit来传递,所以熵就是log2(8)=3。wiki上这样解释"你需要用 log2(n) 位来表示一个可以取n 个值的变量。

信息增益: 熵的减小量。决策树的期望是尽快定位,也就是说我们希望数据集的多样性越小越好,越小说明结果越稳定,越能定位到准确的结果。信息增益越大,则熵会变的越小,说明结果越好。信息增益的计算方式,是原数据集的熵,减去依照属性划分后,每个属性值的概率* 对应的子数据集的熵.

信息增益率: 对信息增益进行修正。信息增益会优先选择那些属性值多的属性,为了克服这种倾向,用一个属性计算出的信息增益,除以该属性本身的熵(SplitInfo),得到信息增益率。

2. The k-means algorithm 即K-Means算法

K-Means算法是一个聚类算法,把n个对象根据他们的属性分为k个分割,k < n。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均 方误差总和最小。它与处理混合正态分布的最大期望算法很相似,因为它们都试图找到数据中自然聚类的中心。

算法的实现步骤

1. 从 n个数据对象任意选择 k 个对象作为初始聚类中心;

2. 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

3. 重新计算每个(有变化)聚类的均值(中心对象);

4. 计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤2

3. Support vector machines

SVM是一种监督式学习算法,广泛应用于统计分类以及回归分析中。SVM将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。

svm的一般特征

1. SVM学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。而其他分类方法(如基于规则的分类器和人工神经网络)都采用一种基于贪心学习的策略来搜索假设空间,这种方法一般只能获得局部最优解。

2. SVM通过最大化决策边界的边缘来控制模型的能力。尽管如此,用户必须提供其他参数,如使用核函数类型和引入松弛变量等。

3. 通过对数据中每个分类属性引入一个哑变量,SVM可以应用于分类数据。

4. SVM一般只能用在二类问题,对于多类问题效果不好

 4. The Apriori algorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。

它的核心

其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集

5. 最大期望(EM)算法

最大期望算法是一种迭代算法,在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。

算法的实现步骤

1. 计算期望(E),利用概率模型参数的现有估计值,计算隐藏变量的期望

2. 最大化(M),利用E 步上求得的隐藏变量的期望,对参数模型进行最大似然估计

 6. PageRank

PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。

PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的"链接流行度"——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。

7. AdaBoost

Adaboost算法是一种迭代算法,是十大算法中的第二个迭代算法,还有一个是前面的最大期望算法.其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。

其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据特征,并放在关键的训练数据上面。

算法的实现步骤:

1. 先通过对N个训练样本的学习得到第一个弱分类器

2. 将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器

3. 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器;

4. 最终经过提升的强分类器。即某个数据被分为哪一类要由各分类器权值决定。

8. kNN: k-nearest neighbor classification

K近邻算法是一种分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

算法的实现步骤

1. 计算已知类别的数据集(样本集)中的点与当前点之间的距离

2. 按照距离递增排序

3. 选取与当前点距离最小的K个点

4. 确定K个点所属类别出现的概率

5.返回K个点中类别出现频率最高的类别

9. Naive Bayes(朴素贝叶斯)

朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法,是十大算法中的第二个分类算法,前一个是K近邻算法.

朴素贝叶斯算法模型和决策树算法模型相比,它有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。

算法的实现步骤

1. 准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

2. 分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。

3. 应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。

 10. CART: 分类与回归树

CART, Classification and Regression Trees。是一种决策树算法,是十大算法中继C4.5之后的有一种决策树算法.它采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。
************************************
实践牛为你提供网络学习和实践机会,和你一起在网络世界里:边学,边练,边赚!
(您若需要实践机会请加微信公众号:shijianniu1688 或者: 实践牛)
关注微信小程序:实践牛精品课


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 这就是他希望看到的你的反应,他希望的是结束糟糕的心情,当你选择认同,当然会在给他带来所希望的时,让你们重新回到同一条线。这就是他希望看到的你的反应,他希望的是结
  • #曾舜晞1009生日快乐#zsx#曾舜晞牛气满满的哥哥# 【曾舜晞生日安利DAY18——最难忘的一件事】最难忘的还是1230直播吧,看完小笔记后看到直播里的小晞
  • [心][鲜花][微笑][打call][打call][打call][心]最美好的拥有是,[心]你暖,我暖,一起暖。[心][鲜花][微笑][打call][打call
  • ”吾尝终日而思矣,不如须臾之所学也,说的不也是这样的道理吗?登高而招,臂非加长也,而见者远;顺风而呼,声非加疾也,而闻者彰。
  • 至于如何走那就全看当事人的选择和做法,现在的《青簪行》因为受到吴亦凡的影响口碑有所下降,但是只要工作人员愿意努力,给观众一个优秀的作品,不是草草了事,想来观众还
  • 这种性格,赢了钱第一时间继续赌是正常的,救了别人托付给他的家人,然后剩下的钱拿去赌,这叫人设正常范围内的觉醒。不‮你过‬们也不可‮以掉‬轻心,特‮是别‬在财运‮
  • 【别让不好的心态,埋没了你的光彩】事事爱攀比,不能接受别人比自己强;斤斤计较,总为生活中的小事所扰;常常抱怨,却不愿做出改变……如果带着玻璃心生活,受伤的往往都
  • 宫崎骏语录:总有一句触动你心灵~1、 与人相处最怕的就是:你不相信你看到的我,却相信别人口中的我。—— 宫崎骏《哈尔的移动城堡》 ​ ​​​10、因为你,我愿
  • 美食达人最爱的帝都酒店2+2café、、美妆控最爱的轻透无重羽毛粉饼及特效水合保湿护肤套装等等等……礼品数量有香港沙田新城市广场的各位会员们请注意!美食达人最爱
  • 在一些即将口舌之争的时刻我会主动铺台阶 会主动用开玩笑的语气缓和气氛在你情绪不好的时候不再把我的担心直接质问出来在你不能陪伴我的时候 选择沉默 选择接受会主动哄
  • !!
  • 本场推荐哥斯达黎加让2会员群七红三黑,红单给力,NBA推荐双飞,足篮推荐应有尽有,弟兄们冲啊,今日推荐已经出发美金杯 06:30 瓜德罗普vs牙买加 牙买加让
  • 短信发来祝愿,祝你中秋快乐喜团圆!中秋月圆花开放,团圆喜庆热闹闹;亲朋团聚乐开怀,吃块月饼福气高;举杯邀月同庆贺,把酒言欢表心意;祝你中秋心情妙,自在惬意乐逍遥
  • 擅长投资的黄晓明说自己不是一个长期风险持有爱好者,炒股时他的信条是:在最高的时候,该出手就出手。李湘:你的意思是他的生意做得不好?
  • 无处藏身完全把巴赫视觉化了,观舞的过程像是走进了庞大复杂的建筑群,高低错落你中有我。抓马是羽多×小信长哟哟哟[二哈][二哈][二哈]B站有资源感兴趣的可以去收藏
  • 乖,看到这里就睡觉吧,我不认识你,但是我知道你有故事,愿你三东暖,愿你春不寒,愿你天黑有灯,下雨有伞,愿你余生有良人相伴,愿你看到,请和我说一句加油!生日快乐#
  • 19ja的Inside of you Mike有问他一些在TX选择演员这条路是不是不太好走 也问了jp一样的问题 答案都是肯定的 忘了jp具体说了什么 ja这个
  • ✨ 六一我这个小盆友也收到零食礼物啦,这个世界只要有一个人把你当小盆友,你就可以在某个时候变成小盆友,自己把自己当小盆友也算数。✨ 囤了一个星期的粮食,有在好好
  • ”一只神秘的鹦鹉闯入树屋,将杰克和安妮带到了300年前加勒比海盗的老巢。它单独一只跟着别人出了小区,还过了马路,我老公竟然还不知道,气死我了[怒]这样也是它走运
  • # #厦门城市旅拍# #花禾摄影# #三亚婚纱照哪家好# ​​​​#三亚旅拍婚纱照##厦门旅拍##厦门婚纱照##花禾摄影-厦门婚纱摄影工作室# 喜欢海景的妹子们