RELATEED CONSULTING
相关咨询
选择下列产品马上在线沟通
服务时间:9:30-18:00
你可能遇到了下面的问题
关闭右侧工具栏

技术支持

机器学习中的聚类
  • 作者:成都软件开发
  • 发表时间:2019-03-21 09:01
  • 来源:未知
 
 
群集简介
 
它基本上是一种无监督学习方法。无监督学习方法是一种方法,我们从没有标记响应的输入数据组成的数据集中绘制参考。通常,它被用作查找有意义的结构,解释性底层过程,生成特征和一组示例中固有的分组的过程。
聚类是将人口或数据点划分为多个组的任务,使得相同组中的数据点与同一组中的其他数据点更相似,并且与其他组中的数据点不同。它基本上是基于它们之间的相似性和不相似性的对象的集合。
 
对于ex - 下图中聚集在一起的数据点可以分为一个组。我们可以区分聚类,我们可以确定下图中有3个聚类。
 
 
簇不必是球形的。如:
 
DBSCAN密度数据
 
这些数据点通过使用数据点位于来自集群中心的给定约束内的基本概念进行聚类。各种距离方法和技术用于计算异常值。
 
 
 
 
 
为什么要聚类?
 
聚类非常重要,因为它确定了未标记数据中的固有分组。良好的聚类没有标准。这取决于用户,他们可以使用哪些标准来满足他们的需求。例如,我们可能有兴趣寻找同类群的代表(数据减少),找到“自然群集”并描述他们未知的属性(“自然”数据类型),找到有用和合适的分组(“有用的”数据类)或寻找异常数据对象(离群值检测)。该算法必须做出一些构成点的相似性的假设,并且每个假设产生不同且同等有效的簇。
 
聚类方法:
 
1.基于密度的方法:这些方法将聚类视为具有一些相似性且与空间的较低密集区域不同的密集区域。这些方法具有良好的准确性和合并两个簇的能力。示例DBSCAN(基于密度的噪声应用空间聚类),OPTICS(识别聚类结构的订购点)等。
 
2.基于分层的方法:在该方法中形成的集群基于层次结构形成树型结构。使用先前形成的簇形成新簇。它分为两类
- >凝聚(自下而上)
- >分裂(自上而下)方法。
示例CURE(使用代表进行聚类),BIRCH(平衡迭代减少聚类和使用层次结构)等。
 
3.分区方法:这些方法将对象分成k个簇,每个分区形成一个簇。该方法用于优化客观标准相似度函数,例如当距离是主要参数示例K-means,CLARANS(基于随机搜索的聚类大型应用程序)等。
 
4.基于网格的方法:在这种方法中,数据空间被公式化为有限数量的单元格,形成网格状结构。在这些网格上完成的所有聚类操作都是快速且独立于数据对象的数量,例如STING(统计信息网格),波簇,CLIQUE(CLustering In Quest)等。
 
聚类算法:
 
K均值聚类算法 - 它是解决聚类问题的最简单的无监督学习算法.K-means算法将n个观测值划分为k个聚类,其中每个观测值属于具有最近均值的聚类,作为聚类的原型。
 
 
聚类在不同领域的应用
 
1. 营销:它可用于表征和发现客户细分以用于营销目的。
2. 生物学:它可以用于不同植物和动物物种之间的分类。
3. 图书馆:用于根据主题和信息聚类不同的书籍。
4. 保险:用于确认客户,他们的政策和识别欺诈。
5. 城市规划:用于制作房屋组,并根据其地理位置和其他因素研究其价值。
6. 地震研究: 通过了解受地震影响的区域,我们可以确定危险区域。