2015 July : Biostatnet

Introducción a los árboles de regresión y clasificación, random forests y redes neuronales con R
Introducción a los árboles de regresión y clasificación, random forests y redes neuronales con RPresentación:La minería de datos es un proceso que permite descubrir y explorar patrones en grandes volúmenes de conjuntos de datos. En este sentido, son una herramienta clave en el proceso de toma de decisiones basadas en la información. Sus aplicaciones pueden cubrir un amplio rango de problemas, incluyendo la clasificación de especies en biología, la predicción del pronóstico de pacientes en biomedicina, el análisis de la fidelidad de los consumidores en business intelligence, el análisis del cesto de la compra a partir de los ficheros recogidos por las superficies comerciales (market basket analysis) o bien análisis de genómica funcional en los experimentos de microarrays de DNA y similares.El objeto principal del presente curso son las dos técnicas más importantes en la minería de datos: árboles de clasificación / regresión y redes neuronales.Los métodos basados en árboles, tales como los métodos CART (Classification and Regression Trees), pretenden explicar y/o predecir una variable respuesta a partir de un conjunto de variables predictoras mediante un conjunto de reglas sencillas. Respecto los modelos tradicionales, los métodos CART pueden ser particularmente eficientes para modelar interacciones entre variables explicativas. Estas técnicas fueron inicialmente propuestas en el ámbito de las ciencias sociales (Morgan y Sonquist, 1963), siendo su formalización estadística posterior (Breiman, Friedman, Olshen y Stone, 1984). Los modelos "random forest" utilizan los métodos CART pero proporcionan una combinación de árboles predictores utilizando algoritmos tipo bagging para su ajuste /validación.Las redes neuronales fueron inicialmente concebidas como una emulación del cerebro humano (McCullogh y Pitts, 1943) inspirándose en la interacción y comunicación entre neuronas, con el objetivo de desarrollar métodos computacionales para resolver problemas complejos. Los métodos actuales basados en redes neuronales han sido desarrollados tanto desde el campo de la inteligencia artificial como de la estadística aplicada, convergiendo en numerosos aspectos. Como modelo estadístico, una red neuronal está basada en combinaciones lineales y no lineales de variables predictoras que, a su vez, interaccionan con otras combinaciones lineales o no lineales para explicar una variable respuesta. Entre las redes neuronales estadísticas más populares destaca la denominada feed-forward neural network (Bishop (1995), Hertz, Krogh y Palmer (1991) y Ripley (1993,1996)), que establece que la interacción con la variable respuesta se realiza des de los inputs (variables predictoras) hasta los outputs (variables respuesta) a través de capas ocultas (hidden layers).A la práctica, ambas técnicas (métodos CART y redes neuronales) pueden proveer resultados válidos para explicar o predecir una variable respuesta, no obstante estos modelos tienden al sobre ajuste, por lo que la validación del modelo resulta esencial. Los métodos ROC, incluyendo un análisis de sensibilidad/especificidad y/o validaciones internas y externas pueden ayudar a evaluar la consistencia de estas soluciones.Profesorado:Llorenç Badiella - Director del Servei d'Estadística Aplicada, UAB. Profesor asociado del Departamento de Matemáticas, UABGerard Castellà - Unitat de Bioestadística, Institut de Recerca Biomèdica de LleidaJoan Valls - Institut de Recerca Biomèdica, de Lleida. Profesor asociado del Departamento de Matemáticas, UABDetalles de organización:El curso: Introducción a los árboles de regresión y clasificación, random forests y redes neuronales con R se impartirá los días 6, 7, 8, 9 y 10 de julio de 2015 de 10:00 a 14:00.Más información e incripciones: enlace