
-
数据点密度:某数据点指定的半径中点的数量即称为密度; -
核心对象/核心点:如果指定半径(ε)内的数据点数量超过了规定的点数量(Minpts),那么该点即称为核心点; -
边界点:如果某点的半径(ε)内的点数量少于规定的点数量(Minpts),不能发展下线,但是却在核心点的邻域内,那么该点称为边界点; -
密度可达:若某点a在点b的邻域内,则b是核心点a的直接密度可达,若点c又在点b的邻域内,则点c是点a的间接密度可达,a和c密度相连 (传播过程); -
异常值/离群值:未在核心点邻域内,从任何一个核心点出发都密度不可达,既不是核心点也不是边界点的点称为异常值点;
DBSCAN算法实现原理
-
算法根据指定的邻域密度参数 ( ε , Minpts ) 找出所有点中的核心点,确定核心点集合为Ω;
-
从Ω中,随机选取一个核心点作为对象,找出所有由其密度可达的样本生成聚类簇;
-
重复过程2,在Ω中随机选取未被聚簇过的剩余核心点,持续进行直到所有核心点密度可达的聚类完全被发现;
优点
-
不需要预先指定聚类簇个数 -
聚类的形状和大小非常灵活 -
能够识别和处理异常值(离群点) -
参数较少,只有2个
缺点
-
不适用高维数据
-
确定合理的参数较困难,且参数对结果影响较大
-
Sklearn中运行效率较慢
-
难以寻找不同密度下的聚类
DBSCAN数据分析实战案例
每一条数据是一个兴趣点(POI – Point of Interest)的特征,具体指的是以这个位置为中心的500米半径圆里,各类商家/设施的数量,数据中我们隐藏掉了每个POI的具体名称、坐标、类型。选址的商家将试图从这些位置中选择一个作为下一个店面的位置。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)