El proceso de división de un mercado en diferentes subconjuntos (o grupos) es lo que conocemos como segmentación. Su principal objetivo es la obtención de grupos con características y necesidades específicas, a los cuales podremos ajustar nuestras estrategias de marketing a fin de optimizar los resultados de nuestras campañas, maximizando la satisfacción de los clientes. A continuación trataremos los aspectos más relevantes y métodos de clustering más utilizados.

Como ejemplos típicos de segmentación podemos mencionar la segmentación etárea, por nivel de estudio o nivel de ingreso, actividad económica. Otro claro ejemplo podría ser segmentación geográfica que hoy en día nos permite realizar el acceso a datos con posicionamiento geográfico.

En el post de hoy, vamos a analizar algunas técnicas de clustering provenientes del área de la minería de datos que nos pueden ayudar a realizar una segmentación más eficiente, y a entender los aspectos claves de este proceso.

Pero, ¿qué es el clustering?

«Son las técnicas pertenecientes al área de la minería de datos que intentan identificar de forma automática grupos (o clústeres) de elementos en un dado conjunto de datos basándose en una medida de similitud»

Tanto la segmentación como el clustering tienen como objetivo común crear grupos lo más homogéneos posibles (con la mayor similitud entre los miembros del grupo o segmento) y que a su vez sean diferenciables de los otros grupos.

A continuación, enumeraremos los cuatro aspectos que podemos considerar más relevantes en cuanto a la aplicación de un proceso de clustering, para luego desarrollarlos brevemente:

  • Número de grupos.
  • Tipos de datos.
  • Medida de distancia, similitud o diferencia entre los datos de cada usuario o consumidor.
  • Método de agrupamiento.

Número de grupos.

Existen métricas que pueden ayudarnos a medir la calidad de un agrupamiento dado y así poder determinar el número óptimo de grupos, aunque en la práctica combinaremos los resultados de estas medidas con información previa del objetivo propuesto y de cuestiones presupuestarias o prácticas de nuestros métodos que nos restringirán  los rangos de valores posibles.

Tipos de datos.

Consideramos los datos en tres categorías principales: numéricos (continuos o discretos), categóricos y ordinales.  Los datos numéricos son los más sencillos de manipular y pueden ser continuos (como el nivel de ingreso de una persona) , o discretos como puede ser la edad de un consumidor expresada en años. Datos de tipo categórico son, por ejemplo, la categoría profesional de un individuo (a) autónomo, b) en relación de dependencia, c) jubilado, d) en el paro).

Finalmente, las variables ordinales son datos de tipo categórico pero con la propiedad de que pueden clasificarse en una jerarquía de menor a mayor (por ejemplo para medir el nivel de estudio podemos tener 4 categorías ordenadas: 1) Sin estudios, 2.) Estudios Primarios, 3.) E. Secundarios, 4) E. Universitarios).

Distancia

Si bien estamos acostumbrados (y sesgados) a utilizar como medida estándar la distancia euclídea, existen otras alternativas que pueden ajustarse mejor a determinados tipos de datos (distancia Manhattan, Mahalanobis,

etc.). Normalmente, ajustaremos las escalas de las distintas variables de nuestros clientes (edad, poder de compra, etc.,) mediante un cambio de escala para ponderar de manera equitativa las diferentes variables y  evitar que una variable domine sobre otra.

Método de agrupamiento

Es el motor de nuestro algoritmo y viene definido por el criterio que utilizaremos para ir generando los grupos. Podemos mencionar métodos de aglomeración, en los cuales partiendo de un dato inicial buscaremos el o los datos más similares para ir construyendo los grupos, o de manera inversa métodos divisivos en los cuales comenzando con un único grupo lo iremos particionando para crear nuevos grupos más pequeños.

Metodos de clustering divisivo y aglomerativoMétodos de clustering más utilizados.

Algoritmo de k-medias

Es tal vez el método clásico para aplicar y entender el proceso de agrupamiento. Para un número de grupos previamente determinado (k), el algoritmo buscará los mejores centroides (valor medio de los valores de las variables de los miembros)  para realizar el agrupamiento, de manera que los miembros de cada grupo estén lo más cerca posible de sus centroides. El algoritmo funciona de forma iterativa, actualizando el centro de los clústeres de manera de ir reduciendo las distancias entre los miembros de cada cluster y su centro.

Clustering jerárquico.

Uno de los métodos más utilizados, debido a la visualización práctica en forma de dendrograma que se obtiene. EL clustering jerárquico puede realizarse tanto en forma divisiva o aglomerativa,  y  permite analizar alternativas para distintos números de grupos. Para entender un poco acerca de su funcionamiento si bien su procedimiento es bastante simple,  fijémonos por ejemplo en el caso aglomerativo:

  1. Se parte de tantos grupos como individuos haya.
  2. De acuerdo a la medida de similitud previamente seleccionada, unimos los dos grupos con mayor similitud para formar uno solo.
  3. Continuamos de la misma forma hasta formar un solo grupo.

De acuerdo a los objetivos del problema podremos elegir quedarnos con algún agrupamiento de los producidos durante el proceso, lo que nos permitirá ajustar el número de grupos finales.

¿Qué algoritmo aplico?

Determinaremos qué algoritmo aplicar de acuerdo a la cantidad de datos que poseamos (debido a que algunos métodos son computacionalmente muy intensivos), a la interpretabilidad que deseemos, y a nuestra experiencia previa con cada método.  Una vez realizado el agrupamiento, normalmente realizamos un análisis estadístico y comparativo de los grupos generados. De esta manera se comprueba también que el proceso se haya realizado correctamente. En función de las características de cada grupo podremos diseñar acciones estratégicas específicas para cada uno de ellos.

Otras aplicaciones en marketing digital

Finalizamos el post de hoy mencionando los sistemas de recomendación, que analizaremos próximamente y que podemos considerar primos hermanos de los algoritmos de clustering. Son sistemas que nos permitirán aprovechar al máximo las ventajas del marketing digital personalizado.