通过分析出租车数据,然后使用KMeans对经纬度进行聚类,然后按照(类别,时间)进行分类,再统计每个类别每个时段的次数。
数据地址 链接: https://pan.baidu.com/s/166dKRUpryHWZ2F8wLA3eyw 密码: g9dz
数据格式以及意义:
111,30.655325,104.072573,173749
111,30.655346,104.072363,173828
111,30.655377,104.120252,124057
111,30.655439,104.088812,142016
列一:出租车ID
列二:经度
列三:纬度
列四:时间(例如:142016表示14点20分16秒)
步骤:
1.整理数据,分割成训练数据和测试数据,且使其符合KMeans模型训练的格式
2.使用训练好的模型对测试数据进行预测,然后对结果以(类别,小时时间 )进行count统计,结果为每个类别每个小时的总次数。
1 | import org.apache.spark.ml.clustering.KMeans |