不同类型的聚类算法
- 作者:成都软件开发
- 发表时间:2019-03-21 09:01
- 来源:未知
聚类算法有许多类型。以下概述仅列出了最突出的聚类算法示例,因为可能有超过100种已发布的聚类算法。并非所有模型都为其集群提供模型,因此不易分类。
基于分布的方法
它是一个聚类模型,我们将在其中拟合数据如何属于同一分布的概率。完成的分组可以是正常的或高斯的。在我们具有固定数量的分布并且所有即将到来的数据被拟合到其中以使得数据的分布可以最大化的情况下,高斯分布更加突出。这导致分组如图所示: -
该模型在合成数据和不同大小的簇上运行良好。但是,如果不使用约束来限制模型的复杂性,则此模型可能存在问题。此外,基于分布的聚类产生聚类,这些聚类假定数据的基础是简洁的数学模型,对于某些数据分布是一个相当强的假设。
对于Ex-使用多元正态分布的期望最大化算法是该算法的一个流行的例子。
基于质心的方法
这基本上是迭代聚类算法之一,其中聚类由数据点与聚类质心的紧密性形成。这里,形成聚类中心即质心,使得数据点的距离与中心最小。这个问题基本上是NP-Hard问题之一,因此解决方案通常在许多试验中都是近似的。
对于Ex- K - 均值算法是该算法的一个流行的例子。
该算法的最大问题是我们需要提前指定K. 它在基于密度的聚类分布中也存在问题。
基于连通性的方法
基于连通性模型的核心思想类似于基于质心的模型,该模型基本上是基于数据点的接近度来定义聚类。在这里,我们研究了一个概念,即与数据点相比,更接近的数据点具有相似的行为。更远。
它不是数据集的单个分区,而是提供了在特定距离处彼此合并的广泛的集群层次结构。这里距离函数的选择是主观的。这些模型很容易理解,但缺乏可扩展性。
链接聚类
对于Ex- 分层算法及其变体。
密度模型
在该聚类模型中,将搜索数据空间中用于数据空间中不同密度的数据点的区域。它基于数据空间中存在的不同密度来隔离各种密度区域。
对于Ex- DBSCAN和OPTICS。
子空间聚类
子空间聚类是一种无监督学习问题,旨在将数据点分组为多个聚类,使得单个聚类上的数据点大致位于低维线性子空间上。子空间聚类是特征选择的扩展,就像特征选择子空间聚类需要搜索方法和评估标准一样,但是子空间聚类还限制了评估标准的范围。子空间聚类算法本地化搜索相关维度并允许它们找到存在于多个重叠子空间中的聚类。子空间聚类最初的目的是解决在数据中具有子空间结构联合的非常特定的计算机视觉问题,但它在统计和机器学习社区中得到越来越多的关注。人们在社交网络中使用此工具,电影推荐和生物数据集。子空间聚类引起了对数据隐私的关注,因为许多此类应用程序涉及处理敏感信息。假设数据点是不连贯的,它仅保护用户的任何特征的差异隐私而不是数据库的整个简档用户。
子搜索策略有两个子空间聚类分支。
自上而下的算法在整个维度集中找到初始聚类,并评估每个聚类的子空间。
自下而上的方法在低维空间中找到密集区域然后组合形成聚类。