CLUS:基于Spark集群的并行子空间聚类算法
资料介绍:
CLUS:基于Spark集群的并行子空间聚类算法(中文6200字,英文PDF)
摘要:子空间聚类技术的提出是为了发现那些只存在某些完整功能空间子集的隐藏集群。然而,这种算法的时间复杂度至多是关于数据集维数的指数,而且,在当前数据场景下,数据通常太大从而难以适应单个机器的情况。极高的计算复杂度导致了这些数据集在大小和纬度上的极差的可扩展性,因此,提出一个并行的子空间聚类算法去处理大维度的数据对我们来说就显得尤为必要。我们知道的是,没有其他的并行子空间聚类算法运行在像MapReduce和Spark这样的新一代大数据分布式处理平台上。在本文中,我们介绍了CLUS:一个基于SUBCLU算法的新颖的并行子空间聚类算法。CLUS使用了一个新的动态数据分区方法,该方法是专门设计用来不断优化每个迭代器所需要的不同大小和内容的数据,从而达到最大化利用Spark基于内存计算的优势。这种方法最大限度地减少了节点之间的交流成本,最大化利用了CPU使用率,并且平衡了它们之间的负载,因此执行时间明显减少。最后,我们用一系列的真实和合成数据集通过在几个节点上的实现进行了几个实验来证实算法在可扩展性、准确性和近线性加速上面的优势。
关键字:子空间、并行、聚类、Spark、大数据 [资料来源:http://doc163.com]
[来源:http://Doc163.com]
[资料来源:Doc163.com]