El concepto surge, durante la primera mitad del siglo XX, en el marco de dos disciplinas científicas: la antropología y,con posterioridad, la psicología. A partir de la segunda mitad de dicho siglo, la evolución de la tecnología y la relevancia de la clasificación como procedimiento científico determinan, en primer lugar, su expansión a múltiples ramas de la ciencia, como, por ejemplo, la biología; su paulatino desarrollo; y, en fin, la popularización de su utilidad al conectarse con las ciencias de la computación, la estadística y la ciencia de datos puesto que las técnicas de clustering modernas no fueron posibles hasta que se desarrollaron las posibilidades de análisis sobre bases estadísticas
Técnica que, mediante el manejo de distintos métodos, consiste en estudiar y dividir un conjunto de objetos de diversa naturaleza o,en concreto, de datos en diferentes subconjuntos, de tal modo que se maximice la homogeneidad dentro de cada subconjunto y la heterogeneidad entre los propios subconjuntos.
Imaginemos, por ejemplo, que tenemos un conjunto de libros o CDs que hay que clasificar. Ese comienza, pues, a clasificarlos por géneros musicales y literarios y se va desglosando hasta organizar una biblioteca, de manera que cada una de las pertenencias tienen un lugar específico en el estante. Así, el clustering o agrupamiento este consiste en juntar ejemplares sin etiqueta que ahora tienen un lugar y pertenecen a algún grupo.
El Clustering, o análisis de agrupamiento, utiliza diferentes técnicas y algoritmos según el caso y los datos objeto de análisis. Lo primero que necesitamos calcular para hacer un ejercicio de clustering o agrupamiento es la distancia. Es decir, antes de agrupar los elementos por su similitud, tenemos que definir la similitud misma. A un ordenador no le podemos decir, por ejemplo, que el clustering o agrupamiento lo haga por conjuntos de datos que sean mamíferos o que sean más verdes o más rojos; a este tenemos que darle información mucho más detallada y meticulosa.
En general, se puede describir el proceso de clustering de la siguiente manera:
Existen diferentes tipos de clustering, cada uno con sus propias características y aplicaciones. Los principales tipos de clustering son:
Se trata de una técnica de aprendizaje automático (machine learning) y, específicamente, de aprendizaje no supervisado (unsupervised learning). De este modo, posibilita el hallazgo de patrones y relaciones entre, generalmente, grandes volúmenes de datos sobre los que no existe ningún tipo de conocimiento previo. Ello permite alcanzar varias finalidades, destacando: la descripción de la realidad, por lo que contribuye a su análisis y comprensión; la clasificación de futuras muestras de datos, tratándose de una técnica de aprendizaje no supervisado (supervised learning) caracterizada por su objetivo predictivo; y el perfeccionamiento de los algoritmos al servir como entrenamiento.
Para el Estado de Derecho y la Democracia: Por una parte, la técnica se puede introducir en todos los ámbitos que guardan relación con el Estado de Derecho, los derechos y la democracia debido a que, fruto de su capacidad a la hora de contribuir a la descripción, el análisis y la comprensión de la realidad, favorece la adopción de decisiones. Partiendo de esta base, en el momento actual, su aplicación se encuentra más extendida en, al menos, dos ámbitos.Primero: la delincuencia, donde, por ejemplo, la identificación de tendencias delictuales o de áreas críticas incide en las estrategias de prevención del delito o en la eficacia y la eficiencia en la gestión de los recursos. Segundo: el comportamiento político y/o electoral, donde, por ejemplo, la segmentación de la ciudadanía orienta el diseño de las estrategias impulsadas por los actores políticos o la eficacia y la eficiencia en la gestión delos recursos de tales actores. Por otra parte, la técnica presenta una limitación, ya que la homogeneidad y la heterogeneidad alcanzadas no resultan absolutas, y una notable dependencia de aquellas decisiones que guían su diseño y aplicación, las cuales moldean la interpretación delos resultados y, como consecuencia, la adopción de decisiones. En este sentido, considérese la elección del algoritmo a manejar o la fijación del número de subconjuntos a crear.
Pilar Cousido