Open Nav

CLUS:基于Spark集群的并行子空间聚类算法

以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.仅供学习参考之用.
   帮助中心
资料介绍:

CLUS:基于Spark集群的并行子空间聚类算法(中文6200字,英文PDF)
摘要:子空间聚类技术的提出是为了发现那些只存在某些完整功能空间子集的隐藏集群。然而,这种算法的时间复杂度至多是关于数据集维数的指数,而且,在当前数据场景下,数据通常太大从而难以适应单个机器的情况。极高的计算复杂度导致了这些数据集在大小和纬度上的极差的可扩展性,因此,提出一个并行的子空间聚类算法去处理大维度的数据对我们来说就显得尤为必要。我们知道的是,没有其他的并行子空间聚类算法运行在像MapReduce和Spark这样的新一代大数据分布式处理平台上。在本文中,我们介绍了CLUS:一个基于SUBCLU算法的新颖的并行子空间聚类算法。CLUS使用了一个新的动态数据分区方法,该方法是专门设计用来不断优化每个迭代器所需要的不同大小和内容的数据,从而达到最大化利用Spark基于内存计算的优势。这种方法最大限度地减少了节点之间的交流成本,最大化利用了CPU使用率,并且平衡了它们之间的负载,因此执行时间明显减少。最后,我们用一系列的真实和合成数据集通过在几个节点上的实现进行了几个实验来证实算法在可扩展性、准确性和近线性加速上面的优势。
关键字:子空间、并行、聚类、Spark、大数据 [资料来源:http://doc163.com]
 

[来源:http://Doc163.com]

CLUS:基于Spark集群的并行子空间聚类算法

  [资料来源:Doc163.com]

  • 关于资料
    提供的资料属本站所有,真实可靠,确保下载的内容与网页资料介绍一致.
  • 如何下载
    提供下载链接或发送至您的邮箱,资料可重复发送,若未收到请联系客服.
  • 疑难帮助
    下载后提供一定的帮助,收到资料后若有疑难问题,可联系客服提供帮助.
  • 关于服务
    确保下载的资料和介绍一致,如核实与资料介绍不符,可申请售后.
  • 资料仅供参考和学习交流之用,请勿做其他非法用途,转载必究,如有侵犯您的权利或有损您的利益,请联系本站,经查实我们会立即进行修正! 版权所有,严禁转载
    doc163.com Copyright © 2012-2024 苏ICP备2021029856号-4