09 mayo 2011

El análisis estadístico avanzado y sus aplicaciones en la industria y la energía


NOTA: Para saber más sobre el análisis estadístico aplicado a la eficiencia energética y energía revise nuestros servicios de ingeniería descritos en TODOPRODUCTIVIDAD.COM.
.
A finales de los años 90 comenzaron a estar disponibles algunas herramientas de análisis estadístico avanzado en España. Aquellos prehistóricos programas se almacenaban en discos de 5.25 pulgadas y los que tuvimos la suerte de poder utilizarlos nos maravillábamos de los logros que podíamos conseguir con aquellas primitivas herramientas. Los algoritmos que tanto nos costaba entender en los pesados manuales de estadística, los cálculos en Excel que tardaban toda una tarde en ser procesados por un PC, todo se hacía sencillo con aquel maravilloso software. En aquellos años no llegábamos a imaginar siquiera lo que podríamos hacer veinte años después y las aplicaciones tan increíblemente interesantes que podríamos realizar para analizar industrias, rentabilidades de proyectos, soluciones de energía y muchas otras cosas más.

Si nos centramos en el sector industrial, la evolución de las teorías estadísticas de procesamiento de la información encontraron con los años unos aliados que iban a permitirnos encontrar las piezas que faltaban para conseguir aplicar la estadística avanzada a bajo coste en la industria. Nos referimos en particular a los sistemas de captura de datos, a las comunicaciones RF y a los sensores.

Todo está ya disponible y se usa en los grandes proyectos, pero ya es factible también hacerlo a una escala mucho menor. Podemos conseguir extraer conclusiones basadas en información cuantitativa altamente fiables sobre la forma como se comportan los procesos. En resumen, disponemos ya de métodos estadísticos avanzados que posibilitan el aumento de la productividad de una forma bastante sencilla.
Evitando como siempre entrar en conceptos técnicos complejos, que realmente no son necesarios hoy en día para nada, vamos a hablar de las posibilidades que la estadística avanzada permite actualmente en aquellas actividades que son de interés en TODOPRODUCTIVIDAD. Y como siempre usaremos un lenguaje que facilite sea entendido por aquellas personas que no estudiaron estadística.
Objetivos que se persiguen
En cualquier proceso hay cosas que se pueden medir, controla o manipular y que sus valores van cambiando. Todas esas cosas son las variables estadísticas. Una variable estadística es por ejemplo el consumo energético de cientos de motores que pueden estar presentes en una planta industrial. Cada uno se comporta de una manera y sus efectos sólo nos llegan de una forma agregada y difícil de controlar, la factura mensual de la luz y de los combustibles fósiles.
Nuestra experiencia estudiando variables estadísticas industriales nos hizo averiguar hace tiempo algo sumamente interesante, y es que casi todas las variables industriales se comportan de una forma bastante sencilla de analizar, tienen un comportamiento muy predecible. Si un motor consume más de lo previsto, lo hará durante las 8.000 horas que esté encendido al año. No tendrá un comportamiento imprevisible como por ejemplo el de los terremotos, sino que se comportará de una forma perfectamente previsible. Así responden la mayoría de las variables de interés para la empresa.
Según nuestra experiencia, en las plantas industriales suelen aparecer algunas variables críticas que son las que realmente condicionan la productividad. Entre las más importantes podemos mencionar  Variables Críticas relacionadas con:
a)      Incremento de la producción.
b)      Rendimiento de los procesos.
c)       Características de calidad del producto fabricado.
d)      Consumo energético.
¿Qué beneficios obtenemos?
El análisis de una o varias variables críticas en un proceso industrial es hoy en día bastante sencillo si integramos distintas tecnologías y herramientas de análisis. Una vez hecho el proceso de análisis es realmente automático y nos va a permitir conseguir algo muy importante para cualquier empresa.
El análisis estadístico nos permite averiguar peculiaridades de una variable estadística que no podemos percibir a primera vista. Sometiendo a cálculos que realmente son muy complejos (sobre todo operaciones entre matrices) es factible obtener información muy relevante sobre el comportamiento de cualquier variable crítica.
Lo más costoso de la estadística avanzada es el muestreo de datos y eso ya lo hacen automáticamente los sensores y las redes de comunicaciones.
¿Qué análisis estadísticos recomendamos?
Cuando una planta no está optimizada, y es lo que suele ocurrir en la mayoría de los casos, un análisis sencillo comenzará a dar resultados rápidamente. No son necesarios tests estadísticos demasiado complejos para conseguir encontrar ineficiencias. Los estudios básicos con los que se puede empezar son:
·      Análisis correlacional. Las relaciones entre variables nos permiten estudiar relaciones entre diferentes tipos de variables. Si tomamos como variable principal un indicador del rendimiento del proceso (por ejemplo el COP. Los cálculos correlacionales son útiles para poder interpretar relaciones causales entre variables.
·       Significancia estadísticas entre distintas muestras de variables. El estudio de la significancia estadística nos ayuda a cuantificar las diferencias entre muestras de variables y trabajar sobre todo tipo de supuestos. Podremos analizar cuantitativamente por qué unos motores funcionan mejor en unas condiciones que en otras, o qué variables influyen en el rendimiento de un proceso. Esos análisis cuantifican diferencias entre situaciones que no son fácilmente percibidas a simple vista.
Mediante análisis estadísticos sencillos conseguimos determinar cuándo un resultado es “realmente” significativo por lo que tenemos un modo de eludir arbitrariedades en las decisiones finales de forma que sólo tengamos en cuenta aquellos niveles de significancia que son realmente significativos.
Si conseguimos suficiente número de datos es factible analizar de forma inmediata muchas veces el mismo proceso y ello nos permitirá detectar diferencias sutiles que nos ayuden a aumentar la eficiencia.
1)      ANÁLISIS DE LA VARIANZA (ANOVA)
El análisis de la varianza es un procedimiento destinado a estudiar diferencias entre medias comparando entre sí diferentes grupos de variables. Actualmente es factible analizar grandes series de datos utilizando técnicas realmente sofisticadas. Veamos las diferencias:
-        Anállisis multivariante: Estudiamos la Variable Crítica en el proceso analizando como influyen en su valor diferentes factores. Es un método muy eficiente que requiere pocas observaciones para obtener resultados positivos.
-        Interacciones: El análisis de la varianza se utiliza también para detectar los efectos de interacción entre variables y por lo tanto ensayar hipótesis más complejas. También es posible estudiar interacciones de orden superior a dos.
Análisis de covarianza (ANCOVA)
La introducción de factores adicionales en ANOVA puede incrementar la potencia estadística (sensibilidad) de nuestros diseños. Esta idea puede extenderse a variables continuas, y cuando tales variables continuas son incluidas como factores en el diseño estamos trabajando con un análisis de covarianza.
Análisis de contrastes y test Post Hoc
Usualmente las hipótesis de experimentos se formulan en términos más específicos que simplemente los efectos de interacciones. Cuando tenemos alguna predicción particular sobre la naturaleza de la interacción usualmente se realiza un Análisis de Contraste.
El análisis de contraste nos permite ensayar la significancia estadística de las diferencias específicas que predecimos en partes particular de nuestro diseño complejo. Se trata del principal componente indispensable del análisis de cada diseño ANOVA compleja.
Comparaciones Post Hoc
A veces encontramos en nuestros estudios efectos que no esperamos. Para trabajar sobre este tipo de muestras hay varios tests, denominados Post hoc, que se basan en la asunción de elegir en las comparaciones las medias más extremas.
2)      NORMAS DE ASOCIACIÓN
Las normas de asociación constituyen una serie de técnicas dirigidas a detectar relaciones o asociaciones entre valores específicos de variables categóricas en grandes series de datos. Esto es una tarea común en muchos proyectos data mining.
La utilidad de estas técnicas es resolver de forma única problemas data mining. Estudian una variable tratando de encontrar asociaciones. Veamos algunos ejemplos:
·        Análisis de secuencia: El análisis de secuencias está relacionado con una compra subsecuente de un producto o producto dada una compra previa. Por ejemplo averiguar si extender la garantía aumenta las probabilidades de compra de un producto.
·        Análisis de enlaces: Una vez se extraen las normas sobre asociaciones o las secuencias que ocurren en una base de datos puede ser extremadamente útil para numerosas aplicaciones. En estrategias de marketing puede utilizarse para hacer ofertas especiales al cliente adecuado.
3)      BOOSTING TREES PARA REGRESIÓN Y CLASIFICACIÓN
El algoritmo para Boosting Trees es una técnica que emerge en los últimos años como uno de los métodos más poderosos en predictive data mining. Algunas implementaciones de estos poderosos algoritmos permiten su utilización en problemas de regresión y clasificación, con predictores categóricos y continuos.
4)      ANÁLISIS CANÓNICO
Hay varias medidas de correlación que expresan las relaciones entre dos o más variables. La correlación canónica es un procedimiento adicional para evaluar las relaciones entre variables. Específicamente, este análisis nos permite investigar las relaciones entre dos series de variables.
5)      ANÁLISIS CHAID
El acrónimo CHAID significa Chi-squared Automatic Interaction Detector. Este nombre deriva del algoritmo básico utilizado para construir árboles no binarios, que para problemas de clasificación (cuando la variable dependiente es de naturaleza categórica) depende del test Chi-Square para determinar la mejor división en cada paso.
6)      ÁRBOLES DE REGRESIÓN Y CLASIFICACIÓN (C&RT)
C&RT, es un método de partición recursivo, construye árboles de regresión y clasificación para predicción de variables dependientes (regresión) y variables predictoras (clasificación).
7)      ÁRBOLES DE CLASIFICACIÓN
Los árboles de clasificación se usan para predecir miembros de casos u objetos en las clases de una variable dependiente de sus medidas en una o más variables predictoras. El análisis de árboles de clasificación es una de las técnicas principales usadas en Data Mining.
El propósito de los árboles de clasificación es predecir o explicar respuestas en una variable dependiente categórica, y como tal, las técnicas disponibles tienen mucho en común con las técnicas usadas en los métodos más tradicionales de Análisis Discriminante, Análisis Cluster, Estadísticas no Paramétricas, y Estimación no Lineal. La flexibilidad de los árboles de clasificación les hacen una opción de análisis muy atractiva, pero esto no quiere decir que su uso se recomiende para la exclusión de métodos más tradicionales. En realidad, cuando se cumplen las asunciones teóricas más exigentes y distribucionales, los métodos tradicionales pueden ser preferibles.
8)      ANÁLISIS CLUSTER
El término análisis cluster abarca un número de diferentes algoritmos y métodos para agrupar objetos de clase similar en categorías respectivas. Una cuestión general a la que se enfrentan los investigadores en muchas áreas es cómo organizar los datos observados en estructuras significativas, es decir, para desarrollar taxonomías. En otras palabras el análisis cluster es una herramienta de análisis de datos exploratorio cuyo objetivo es clasificar diferentes objetos en grupos de modo que el grado de asociación entre dos objetos sea máximo si pertenecen al mismo grupo y  mínima en caso contrario. El análisis cluster puede usarse para descubrir estructuras en datos sin proporcionar una explicación/interpretación. En otras palabras, el análisis cluster simplemente descubre estructuras en datos  sin explicar por qué existen.
9)      ANÁLISIS DE CORRESPONDENCIA
El análisis de correspondencia es una técnica descriptiva/exploratoria diseñada para analizar tablas de dos o más dimensiones conteniendo alguna medida de correspondencia entre las filas y las columnas. Los resultados proporcionan información que es similar en naturaleza a aquellos producidos por técnicas de análisis de factores, y ello permite explorar la estructura de variables categóricas incluidas en la tabla.
10)   DATA MINING
Data mining es un proceso analítico diseñado para explorar datos (usualmente grandes cantidades de datos) en busca de modelos consistentes y/o relaciones sistemáticas entre variables, y luego validar los hallazgos aplicando los modelos detectados a una nueva sub serie de datos. El proceso predictive data mining es el tipo más común y una de las aplicaciones comerciales más directas.
El proceso data mining consiste en tres etapas: 1) Exploración inicial, 2) construcción del modelo con validación/verificación, y 3) desplieque del modelo.
11)   ANÁLISIS DISCRIMINANTE
El análisis de función discriminante se usa para determinar qué variables discriminan entre dos o más grupos. Desde el punto de vista de la computación, el análisis de función discriminante es muy similar al análisis de varianza (ANOVA)
Bibliografía: StatSoft, Inc. (2011). Electronic Statistics Textbook. Tulsa, OK: StatSoft.
Publicar un comentario