Clústering

El cústering es un proceso informático que permite agrupar documentos parecidos en grupos.

¿Para qué sirve?

El objetivo de los procesos de clústering es la de poner orden en una colección de elementos no organizada. Aunque se puede aplicar a cualquier elemento, se suele usar para documentos, con el objetivo de agrupar aquellos que son similares.

El resultado del clústering es una agrupación de documentos que comparten criterios comunes, normalmente un vocabulario común. Entre otros muchos usos, con el clústering se puede:

  • Obtener documentos parecidos a otro.
  • Separar documentos por tipologías (separar documentos de márqueting, I+D, etc.)
  • En una tienda online:
    • Recomendar productos similares.
    • Agrupar productos en paquetes.

¿Cómo funciona?

Es un proceso no supervisado en el que se requiere especificar inicialmente el número de grupos finales deseados (aunque se han desarrollado técnicas para calcular este número automáticamente). El proceso también necesita de una medida de similitud, o sea, una forma de medir cómo de iguales son dos documentos entre si (por ejemplo contando las palabras que comparten).

Con estos dos elementos, los algoritmos de clústering miden las diferencias entre todos los documentos y los asigna a cada una de las agrupaciones indicadas inicialmente.

Para más información: Data clustering en wikipedia.