In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs
    
# Generamos 1000 puntos aleatorios en 3 clusters, vamos a ver si podemos recuperarlos
X, y = make_blobs(n_samples=1000, centers=3, random_state=42, cluster_std=1.0)
    
# En primer lugar, escalamos los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
    
# Y ahora hacemos K-means especificando el número de clusters a 3
# K-Means usa un estado aleatorio, que debemos prefijar (es como prefijar una semilla)
# NOTA: existen métodos (Elbow method, Silhouette score...) para hallar el número de clusters
# óptimo automáticamente
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X_scaled)
    
# Extraemos los centros de los clusters y los labels, que nos dicen en qué cluster cae cada punto
centros = kmeans.cluster_centers_
labels = kmeans.labels_
print("Centros de los clusters:")
for centro in centros:
    print("x = ", centro[0], " y = ", centro[1])


In [None]:
# Plotteamos los puntos con colores de los labels y marcamos los centros de cada cluster
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=labels, s=50, cmap='viridis')
plt.scatter(centros[:, 0], centros[:, 1], c='red', s=100, marker='X')
plt.show()

In [None]:
# Quitando el escalado con scaler.inverse_tranform, podemos plottear los centros en el espacio original
X_original = scaler.inverse_transform(X_scaled)
centros_original = scaler.inverse_transform(centros)

# Plotteamos los puntos con los labels y los centros de cada cluster en el dominio original
plt.scatter(X_original[:, 0], X_original[:, 1], c=labels, s=50, cmap='viridis', alpha=0.6)
plt.scatter(centros_original[:, 0], centros_original[:, 1], c='red', s=100, marker='X')
plt.show()