O que é clustering K-Means?

O k-significa que o algoritmo de agrupamento é uma ferramenta de mineração de dados e aprendizado de máquina usada para agrupar observações em grupos de observações relacionadas sem qualquer conhecimento prévio dessas relações. Por amostragem, o algoritmo tenta mostrar a qual categoria, ou cluster, os dados pertencem, com o número de clusters sendo definido pelo valor k.

O k-significa que o algoritmo é uma das técnicas de agrupamento mais simples e é comumente usado em imagens médicas, biometria e campos relacionados. A vantagem de k-significa que o clustering é que ele informa sobre seus dados (usando sua forma não supervisionada) ao invés de você ter que instruir o algoritmo sobre os dados no início (usando a forma supervisionada do algoritmo). É algumas vezes referido como Algoritmo de Lloyd, particularmente nos círculos da ciência da computação porque o algoritmo padrão foi proposto pela primeira vez por Stuart Lloyd em 1957. O termo “k-means” foi cunhado em 1967 por James McQueen.

Como o algoritmo K-Means funciona

O k-significa que algoritmo é um algoritmo evolutivo que ganha seu nome devido ao seu método de operação. O algoritmo agrupa as observações em k grupos, onde k é fornecido como um parâmetro de entrada. Em seguida, atribui cada observação a agrupamentos com base na proximidade da observação com a média do agrupamento. A média do cluster é então recalculada e o processo começa novamente. Veja como funciona o algoritmo:

O algoritmo seleciona arbitrariamente k pontos como os centros do cluster inicial (os meios).
Cada ponto no conjunto de dados é atribuído ao cluster fechado, com base na distância euclidiana entre cada ponto e cada centro do cluster.
Cada centro do cluster é recalculado como a média dos pontos naquele cluster.
As etapas 2 e 3 são repetidas até que os clusters convergem. A convergência pode ser definida de forma diferente dependendo da implementação, mas normalmente significa que nenhuma observação muda os clusters quando as etapas 2 e 3 são repetidas, ou que as mudanças não fazem uma diferença material na definição dos clusters.

Escolhendo o número de clusters

Uma das principais desvantagens de k-significa que clustering é o fato de que você deve especificar o número de clusters como uma entrada para o algoritmo. Conforme projetado, o algoritmo não é capaz de determinar o número apropriado de clusters e depende do usuário para identificá-lo com antecedência. Por exemplo, se você tivesse um grupo de pessoas que seriam agrupadas com base na identidade de gênero binária como masculino ou feminino, chamando o k-significa algoritmo usando a entrada k = 3 forçaria as pessoas em três grupos quando apenas dois, ou uma entrada de k = 2, forneceria um ajuste mais natural. Da mesma forma, se um grupo de indivíduos fosse facilmente agrupado com base no estado de origem e você chamasse o k-significa algoritmo com a entrada k = 20, os resultados podem ser generalizados demais para serem eficazes. Por esse motivo, muitas vezes é uma boa ideia experimentar diferentes valores de k para identificar o valor que melhor se adapta aos seus dados. Você também pode explorar o uso de outros algoritmos de mineração de dados em sua busca pelo conhecimento aprendido por máquina.