导语:
本文主要介绍了关于Python K-means算法的计算步骤的相关知识,希望可以帮到处于编程学习途中的小伙伴
步骤说明
1、确定K值。
决定数据聚为几类,K值是K-Means算法中唯一的参数。
2.从原始数据集中随机选择K个点作为初始均值点。
3、依次从原始数据集中取出数据。
每次取出一条数据,从K个均值点计算距离(默认计算点之间的欧式距离),越接近的归为均值点所在的簇;
4、分别计算各簇当前的均值点。
即求该簇中所有点的平均值
5、比较当前的均值点和上一步得到的均值点是否相同。
如果相同,则 K-Means 算法结束,否则,将当前均值点替换为之前的均值点,然后重新划分族,重复步骤 3。
实例
import numpy as np
import matplotlib.pyplot as plt
'''标志位统计递归运行次数'''
flag = 0
'''欧式距离'''
def ecludDist(x, y):
return np.sqrt(sum(np.square(np.array(x) - np.array(y))))
'''曼哈顿距离'''
def manhattanDist(x, y):
return np.sum(np.abs(x - y))
'''夹角余弦'''
def cos(x, y):
return np.dot(x, y)/(np.linalg.norm(x) * np.linalg.norm(y))
'''计算簇的均值点'''
def clusterMean(dataset):
return sum(np.array(dataset)) / len(dataset)
'''生成随机均值点'''
def randCenter(dataset, k):
temp = []
while len(temp) < k:
index = np.random.randint(0, len(dataset)-1)
if index not in temp:
temp.append(index)
return np.array([dataset[i] for i in temp])
'''以数据集的前k个点为均值点'''
def orderCenter(dataset, k):
return np.array([dataset[i] for i in range(k)])
'''聚类'''
def kMeans(dataset, dist, center, k):
global flag
#all_kinds用于存放中间计算结果
all_kinds = []
for _ in range(k):
temp = []
all_kinds.append(temp)
#计算每个点到各均值点的距离
for i in dataset:
temp = []
for j in center:
temp.append(dist(i, j))
all_kinds[temp.index(min(temp))].append(i)
#打印中间结果
for i in range(k):
print('第'+str(i)+'组:', all_kinds[i], end='\n')
flag += 1
print('************************迭代'+str(flag)+'次***************************')
#更新均值点
center_ = np.array([clusterMean(i) for i in all_kinds])
if (center_ == center).all():
print('结束')
for i in range(k):
print('第'+str(i)+'组均值点:', center_[i], end='\n')
plt.scatter([j[0] for j in all_kinds[i]], [j[1] for j in all_kinds[i]], marker='*')
plt.grid()
plt.show()
else:
#递归调用kMeans函数
center = center_
kMeans(dataset, dist, center, k)
def main(k):
'''生成随机点'''
x = [np.random.randint(0, 50) for _ in range(50)]
y = [np.random.randint(0, 50) for _ in range(50)]
points = [[i,j] for i, j in zip(x, y)]
plt.plot(x, y, 'b.')
plt.show()
initial_center = randCenter(dataset=points, k=k)
kMeans(dataset=points, dist=ecludDist, center=initial_center, k=k)
if __name__ == '__main__':
main(3)
本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ yield是什么意思?python yield的用法10/01
- ♥ 使用python画心和代码演示08/15
- ♥ 如何在不设置循环次数的情况下使用python for语句?11/30
- ♥ python输出乱码的解决方法12/05
- ♥ 转行学习java或python11/17
- ♥ python UDP编程是什么意思?12/30
内容反馈