Actualmente hemos visto tantos productos y servicios que mencionan que están relacionados en Minería de Datos, BigData o incluso con Inteligencia Artificial, y no es para sorprender ya que estamos viviendo en una era en donde la tecnología se ha desarrollado tanto y a una gran velocidad que nos ha permitido generar y recopilar grandes volúmenes de información y generar geniales algoritmos que pensamos hacen magia, incluso Ray Kurzeil quien es director de Ingeniería en Google, estima que para el siglo XXI experimentaremos no 100 años de progreso tecnológico, sino 20,000 años al ritmo que llevamos hoy.  Generamos información en redes sociales, en búsquedas en Internet, en los bancos, en las tiendas departamentales, en el cine, hospitales y más que actualmente no nos percatamos cómo lo hacemos debido a que están muy integrados en nuestra vida. Para las empresas u organizaciones los datos son materia prima para poder encontrar patrones que favorezcan a interpretar fenómenos o sucesos en sus clientes y generar ventas, por ejemplo qué gustos tiene un usuario, saber si un cuentahabiente se le puede otorgar un préstamo, qué producto se vende más según temporadas, cuál es el perfil de personas que ven una determinada película, o cuáles son las causas de una enfermedad.

 

Muchas personas que empiezan a explorar y adentrarse al área confunden la Minería de Datos con Inteligencia Artificial. La Minería de Datos en realidad es el núcleo de todo un proceso llamado Descubrimiento del Conocimiento en Base de Datos (Knowledge Discovery in Databases – KDD), el cual es un proceso metodológico para encontrar un “modelo” válido, útil y entendible que describa patrones de acuerdo a la información, y como modelo entendemos que es la representación que intenta explicar ese patrón en los datos, comúnmente visualizándose en una fórmula matemática.

 

imagen1-768x307

 

Después de esto, generamos una duda: ¿es posible que en mi negocio, empresa, situación o contexto pueda utilizar la Minería de Datos? ¿En realidad qué es Minería de Datos?. Como mencioné antes, KDD es un proceso metodológico y además secuencial que se sigue para encontrar conocimiento en un conjunto de datos en bruto. Estos pasos se dividen en 7 que son: 1) abstracción del escenario, 2) selección de los datos, 3) limpieza de los datos, 4) transformación de los datos, 5) elección del algoritmo, 6) aplicación del algoritmo, 7) evaluación e interpretación. Todos estos pasos como se menciona, son aplicados a los datos que un cliente cuenta y ha adquirido a través del tiempo de su comercio. Es muy normal que estos datos tengan algún inconveniente como por ejemplo que un día no se pudo obtener información o bien que un cliente no cambie las reglas de su compra. Créanme que esto es de lo más común y es parte del proceso. De hecho, los datos es la materia prima del KDD.

Pero, ¿en qué consisten estos pasos? Muchas empresas o personas son muy cuidadosos de su información pues son días, meses o años de capturarlos y siempre están interesados en saber qué harán con ellos. Aquí te explicamos de manera breve cada uno de los pasos:

1 – Abstracción del escenario

No todo es matemática y estadística, sino entender la problemática a la que nos vamos a enfrentar y tener contexto para proponer soluciones viables y reales, ya que me ha tocado ver propuestas absurdas. Es importante conocer las propiedades, limitaciones y reglas del escenario en estudio, para posteriormente definir las metas a alcanzar y todo esto se debe realizar a la par con el interesado o dueño de la información. De verdad, sin conocer las metas del interesado, no sirve de nada proseguir.

2 – Selección de los datos

Del conjunto de datos recolectados y ya definidos los objetivos por alcanzar, se deben elegir datos disponibles para realizar el estudio e integrarlos en uno solo que puedan favorecer a llegar a alcanzar a los objetivos del análisis. Muchas veces esta información puede encontrarse en una misma fuente (centralizado) o pueden estar distribuidos (repartidos).

3 – Limpieza de los datos

En esta etapa se determina la confiabilidad de la información, es decir, realizar tareas que garanticen la utilidad de los datos. Para esto se hace la limpieza de datos (tratamiento de datos perdidos o remover valores no típicos). Esto implica eliminar variables o atributos con datos faltantes o eliminar información no útil para este tipo de tareas como el texto (aunque puede utilizarse para hacer Minería de Texto, que es otro asunto).

4 – Transformación de los datos

En esta etapa se mejora la calidad de los datos con transformaciones que involucran ya sea reducción de dimensionalidad (disminuir la cantidad de variables de los datos) o bien transformaciones como por ejemplo convertir los valores que son números a etiquetas. Esto para preparar la información para ingresarlo al algoritmo.

5 – Elección del algoritmo de Minería de Datos

Posteriormente se procede a seleccionar la técnica o algoritmo, o incluso más de uno para la búsqueda de la información valiosa y obtener conocimiento. Cada algoritmo tiene su propia esencia, su propia manera de trabajar y obtener los resultado según la información que se tiene. 

6 – Aplicación del algoritmo

Por fin, una vez seleccionado los algoritmos el paso siguiente es aplicarlo a los datos ya seleccionados, limpiados y procesados. Se podría decir que aquí se aplica toda la magia de este proceso para conocer los resultados. Si lo relacionamos con un proceso para hacer un pastel, este sería el horneado del mismo.

7 – Evaluación e interpretación

Una vez aplicado los algoritmos al conjunto de datos, procedemos a evaluar los patrones que se generaron y el rendimiento que se obtuvo para verificar que cumpla con las metas planteadas en las primeras fases con la mejor calidad posible. Si todos los pasos se siguen correctamente y los resultados de la evaluación se satisfacen, la última etapa es simplemente aplicar el conocimiento encontrado al contexto y comenzar a resolver sus problemáticas. Si de lo contrario, los resultados no son satisfactorios entonces es necesario regresar a las anteriores etapas a realizar algún ajuste, analizando desde la selección de los datos hasta en la etapa de evaluación. En pocas palabras, ver el pastel terminado, prepararlo y comerlo.

La Minería de Datos, en conclusión, no es más que un segmento de fases dentro del proceso de KDD, cada una de las fases mencionadas tiene su complejidad y especialidad, teniendo  sin duda un una gran cantidad de aplicaciones. Hablar de Minería de Datos implica familiarización de las matemáticas y no solamente de aplicarlas, sino entenderlas, pues hasta un promedio tiene un gran significado. La información varía mucho tanto de la fuente como del contexto, por lo que hablar de la selección del “algoritmo maestro” o el “algoritmo de oro” para resolver cualquier problema sería una irresponsabilidad afirmarlo, y para esto se requiere de un análisis previo, realizando estadística descriptiva. No existe el algoritmo que pueda darles las respuestas a todos los problemas, que no los engañen y no lo pidan por que jamás (o al menos por ahora) lo encontrarán.