新媒易动态
NEWS CENTER
NEWS CENTER
2020-12-31
DBSCAN是一种基于密度的考虑到噪音的空间聚类算法;简单来讲,给定一组点,DBSCAN将彼此距离(欧几里得距离)很近的点聚成一类,同时它还将低密度区域中的点标记为异常值(outlier)。
要了解DBSCAN算法,我们先来熟悉一些关键概念:
以下图为例,将所有点基于半径(ε)画圈,指定数据点密度为3,我们发现下图红色点在指定半径内的密度均>3,故红色点为核心点。
而B、C点在核心点邻域内,但是其半径内的点只有2个,小于指定密度,故B、C为边界点。
N点未在核心点邻域内,且从任何一个核心点出发都密度不可达,故N为异常值点;以上点A与B、A与C均密度相连。
优点:
缺点:
算法针对数据点形状和大小有灵活性,且可以识别处理异常值,聚类效果表现优异,如下图:
案例背景:O2O平台为了更好地为线下店面服务,增加一个增值服务,即利用自己拥有的地理位置数据为线下店面选址,数据如下:
每一条数据是一个兴趣点(POI – Point of Interest)的特征,具体指的是以这个位置为中心的500米半径圆里,各类商家/设施的数量;数据中我们隐藏掉了每个POI的具体名称、坐标、类型,选址的商家将试图从这些位置中选择一个作为下一个店面的位置。
商家想知道这40个潜在店面位置之间是否有显著的差异。我们可以将所有POI按照相似程度,划分成几个类别?
步骤:
1)读取数据
2)特征选取
3)标准化
4)建立DBSCAN模型并可视化
5)聚类分析,对每一聚类进行进一步分析和描述
6)根据描述分析,生成poi聚类结果画像,利用聚类,对人群/商品/行为标签进行精细划分,作为进一步商业决策的基础。