本文介绍如何利用python和dbscan聚类算法,基于出租车gps上车点坐标自

在城市交通分析与出行服务优化中,识别出租车乘客高频上车区域(即“热点”)是关键任务之一。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)因其无需预设簇数量、能发现任意形状的稠密区域、并天然识别噪声点(如零星散落的上车点)等优势,成为处理GPS轨迹热点挖掘的理想选择。
以下是一个端到端的实战教程,适用于编程初学者,涵盖数据准备、地理坐标预处理、DBSCAN建模、评估与可视化全流程:
原始出租车GPS数据通常为CSV格式,含pickup_longitude、pickup_latitude、pickup_datetime等字段。注意:DBSCAN对距离敏感,必须将经纬度转换为平面坐标(单位:米),否则eps参数将失去物理意义。推荐使用pyproj或geopy进行WGS84→UTM转换(以北京为例,使用EPSG:32650):
import pandas as pd
import numpy as np
from pyproj import Transformer
# 加载数据(示例)
df = pd.read_csv("taxi_pickups.csv")
coords_wgs84 = df[["pickup_longitude", "pickup_latitude"]].values
# 转换为UTM坐标(单位:米),便于设置合理的eps(如500米)
transformer = Transformer.from_crs("EPSG:4326", "EPSG:32650", always_xy=True)
x, y = transformer.transform(coords_wgs84[:, 0], coords_wgs84[:, 1])
pickup_locations = np.column_stack((x, y)) # shape: (n_samples, 2)核心参数eps(邻域半径)和min_samples(核心点最小邻域样本数)需结合业务理解设定:
from sklearn.cluster import DBSCAN
from sklearn.metrics import silhouette_score
# 推荐参数组合(可根据数据量调整)
dbscan = DBSCAN(eps=500, min_samples=30) # 500米内至少30个上车点才构成热点
labels = dbscan.fit_predict(pickup_locations)
# 评估聚类质量(越接近1越好)
if len(set(labels)) > 1: # 至少有1个有效簇+噪声
score = silhouette_score(pickup_locations, labels, metric='euclidean')
print(f"Silhouette Score: {score:.3f}")
n_hotspots = len(set(labels)) - (1 if -1 in labels else 0)
print(f"识别出 {n_hotspots} 个乘客热点区域,{np.sum(labels == -1)} 个噪声点(孤立上车点)")将聚类结果映射回地图,需将UTM坐标逆变换回经纬度,便于叠加至GIS平台或Web地图:
import matplotlib.pyplot as plt
# 可视化(UTM坐标系下)
plt.figure(figsize=(10, 8))
unique_labels = set(labels)
colors = plt.cm.tab10(np.linspace(0, 1, len(unique_labels)))
for k, col in zip(unique_labels, colors):
if k == -1:
# 噪声点用黑色小点表示
plt.scatter(pickup_locations[labels == k, 0],
pickup_locations[labels == k, 1],
c='k', s=2, alpha=0.6, label='Noise')
else:
plt.scatter(pickup_locations[labels == k, 0],
pickup_locations[labels == k, 1],
c=[col], s=10, label=f'Hotspot {k}')
plt.title(f'Taxi Pickup Hotspots (n={n_hotspots})')
plt.xlabel('UTM Easting (m)')
plt.ylabel('UTM Northing (m)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()通过以上步骤,你不仅能复现基础热点识别,更能构建具备地理严谨性与业务落地能力的分析流程。DBSCAN不是黑箱——理解eps的物理含义、尊重地理空间特性,才是从代码走向洞察的关键。