Posgrado Alumnado Cuerpo tutor Admisión Cursos y Tópicos
Cursos y Tópicos
Aspectos generales
Título: Manejo avanzado y Análisis de datos con R
Programas de posgrado o planes de estudio en donde se ofertará adicionalmente:
--
Área del conocimiento: Genética, genómica y bioinformática
Semestre: 2026-1
Modalidad: Curso fundamental
Horario: Martes de 17:00 a 19: 30h
No. sesiones: 16
Horas por sesión: 2.5
Total alumnos PDCB: 6
Total alumnos: 6
Videoconferencia: Si
Lugar donde se imparte: Sala de juntas del Departamento de Farmacología de la Facultad de Medicina de la UNAM.
Informes: ad.ortega@unam.mx
Métodos de evaluación
MÉTODO PORCENTAJE NOTAS
Examen 30%
Participación en clase 50%
Trabajos y ejercicios 20%
Contribución de este curso/tópico en la formación del alumnado del PDCB:
El análisis de inferencia es fundamental para el aprendizaje del análisis científico de los datos, sin embargo, el análisis de varias variables contribuye a un mejor entendimiento de los fenómenos en las ciencias biomédicas. Este curso contribuirá a que las y los alumnos, aumenten su criterio estadístico a partir de pruebas descriptivas y de análisis bivariados para poder elegir y ejecutar la o las pruebas adecuadas de análisis múltiple para el óptimo análisis de sus datos y la obtención de conclusiones.

Profesor (a) responsable
Nombre: Ortega Ayala Adiel
Teléfono:
Email: ad.ortega@unam.mx
Profesores (as) participantes
PARTICIPANTE ENTIDAD O ADSCRIPCIÓN SESIONES
ORTEGA AYALA ADIEL
Responsable
Facultad de Medicina
1. Introducción al análisis de datos con R
2. Diagnóstico y limpieza de datos
3. Métodos clásicos en estadística
4. ANCOVA: Combinando la regresión lineal y el análisis de varianza
5. Análisis de medidas repetidas
6. Métodos de clasificación I
7. La regresión logística multinomial
8. Métodos de regresión I
9. Análisis de supervivencia
10. Métodos de regresión II: Modelo de riesgos proporcionales de Cox
11. Métodos de clasificación II: Modelos generativos de clasificación
12. Clustering y segmentación I
13. Clustering y segmentación II
14. Técnicas de reducción de dimensión I
15. Técnicas de reducción de dimensión II
16. EXAMEN
Introducción
Una vez que hemos ya dudado de los datos y hemos podido entenderlos, es momento de utilizarlos.
Este curso ofrece una inmersión en técnicas avanzadas de análisis de datos y está orientado a personas con conocimientos previos de R que desean profundizar en modelaje estadístico, manejo eficiente de datos y visualización. Como es del conocimiento de muchos alumnos del Programa de Doctorado en Ciencias Biomédicas de la UNAM, combinamos la teoría con la práctica para entender algoritmos complejos en la resolución de problemas. Este curso representa la continuación del curso de “Introducción al análisis estadístico con R” y también representa el punto medio entre la estadística clásica y la introducción una rama de la inteligencia artificial muy utilizada en investigación biomédica y ciencias de la salud: El machine learning.
Temario
1. Introducción al análisis de datos con R (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. Módulo de estadística
i. Medidas de tendencia central y de dispersión.
1. Media, mediana, moda
2. Desviación estándar, varianza, covarianza y rangos intercuartilares.
ii. Inferencia estadística en el análisis exploratorio de datos.
1. Normalidad y libre distribución
2. Pruebas de inferencia: T de Student, prueba t pareada, U de Mann Whitney, Prueba de rangos con signo de Wilcoxon.
3. Prueba de ANOVA de 1 vía
4. Prueba de Kruskal-Wallis
5. Pruebas post hoc.
iii. Medidas de asociación: OR, RR y HR.
1. Pruebas de inferencia de datos cualitativos.
a. Chi cuadrada de Pearson
b. Prueba exacta de Fisher
c. Prueba de McNemar
d. ¿Qué es el Hazard ratio?
b. Programación con R.
i. Instalación de paqueterías en R
ii. Uso de paqueterías en R.
iii. Manipulación de datos: Tidyverse.
2. Diagnóstico y limpieza de datos (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. Datos faltantes.
b. Tratamiento de datos faltantes: Imputación simple y múltiple.
c. Detección de outliers.
d. Escalado y estandarización de variables.
3. Métodos clásicos en estadística (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. Regresión lineal simple
i. Estimación de coeficientes
ii. Evaluación de la precisión de los coeficientes y el modelo
b. Regresión lineal múltiple
i. Consideraciones de los modelos lineales múltiples.
4. ANCOVA: Combinando la regresión lineal y el análisis de varianza (Dr. En C. Adiel Ortega Ayala, 2.5 h).
5. Análisis de medidas repetidas (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. ANOVA de medidas repetidas
i. Supuestos y pruebas
ii. Prueba de esfericidad
iii. Test de Friedman
b. Prueba Q de Cochrane
6. Métodos de clasificación I (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. ¿Por qué no una regresión lineal?
b. La regresión logística
i. Estimación de coeficientes de regresión logística.
ii. Elaboración de predicciones.
7. La regresión logística multinomial (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. ¿Regresión logística múltiple o regresión logística multinomial?
8. Métodos de regresión I (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. ¿Cuándo usar una regresión Poisson?
b. Estudio de los datos de conteo
c. Regresión Poisson
9. Análisis de supervivencia (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. Concepto de censura y evento
b. Media y mediana de sobrevida
c. Estimación de estadísticos de sobrevida
d. Construcción de curvas de Kaplan-Meier
e. Prueba de Log-Rank y Wilcoxon generalizada.
10. Métodos de regresión II: Modelo de riesgos proporcionales de Cox (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. El modelo múltiple de la supervivencia
b. ¿OR, RR o HR?
c. El concepto de Hazard ratio.
11. Métodos de clasificación II: Modelos generativos de clasificación (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. Análisis lineal discriminante.
b. Algoritmo K-NN
c. Elaboración de curvas ROC
d. Sensibilidad, especificidad, AUC y métricas de evaluación de clasificación.
12. Clustering y segmentación I (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. ¿Algoritmo supervisado o no supervisado?
b. ¿Clasificación o clustering?
c. El algoritmo K-means
13. Clustering y segmentación II (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. Clustering jerárquico
14. Técnicas de reducción de dimensión I (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. Introducción al álgebra lineal para el PCA.
b. Análisis de componentes principales.
15. Técnicas de reducción de dimensión II (Dr. En C. Adiel Ortega Ayala, 2.5 h).
a. Análisis factorial.
16. EXAMEN (Dr. En C. Adiel Ortega Ayala, 2.5 h).
Bibliografía
1. Raykov, T., & Marcoulides, G. A. (2012). Basic statistics: An introduction with R. Routledge. ISBN 978-1-4422-1846-8 (cloth); ISBN 978-1-4422-1847-5 (pbk).
2. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning: with Applications in R (Vol. 103). Springer. https://doi.org/10.1007/978-1-4614-7138-7.
3. Fernández Casal, R., Costa Bouzas, J., & Oviedo de la Fuente, M. (2024). Métodos predictivos de aprendizaje estadístico. Universidade da Coruña. https://doi.org/10.17979/spudc.9788497498937
4. Crawley, M. J. (2015). Statistics: An introduction using R (2ª ed.). John Wiley & Sons. https://doi.org/10.1002/9781118941126


Observaciones
El alumno deberá contar con equipo de cómputo propio y transportable (laptop). Las computadoras que los alumnos poseen suelen cubrir los requisitos mínimos para el curso, las cuales son:
1. Laptop con cualquier sistema operativo al que esté acostumbrado el alumno (Windows, Mac OS, GNU/Linux, etc).
2. Memoria RAM mínimo 16 GB.
3. Procesador: A partir de Intel Core i5, AMD Ryzen 5 o equivalente.
4. Disco duro: Al menos de 512 GB SSD o mecánico.
5. Pantalla: Idealmente superior a 14 pulgadas.

Participación en clase.
Durante cada clase, el profesor explica los scripts de R y asigna ejercicios del tema o de dominio del lenguaje R. Los alumnos foráneos y aquellos que acudan de forma presencial, deberán unirse a una sesión de Zoom para poder enviar en el chat, los scripts de sus ejercicios realizados en clase.
En caso de que algún alumno tenga problemas, se le facilita la acción “compartir pantalla” y presenta su problema. El profesor invita los alumnos a solucionar el problema del o la compañera que está compartiendo pantalla. La participación culmina cuando el alumno que presenta pantalla escribe el script correcto y muestra resultados frente al grupo.
La asistencia y participación se evalúan cada clase y se asigna un porcentaje proporcional a las 15 sesiones del curso.
La sesión 16 es el examen.
Trabajos.
Durante el curso, se asignan 4 tareas:
1. Manejo de datos perdidos.
2. Elaboración de un modelo de ANOVA de medidas repetidas.
3. Elaboración de un modelo de Riesgos proporcionales de Cox.
4. Aplicación de un modelo avanzado (clustering o de reducción de dimensión).

Criterios de evaluación.
1. Presentación de estadísticos descriptivos.
2. Presentación de la inferencia estadística correspondiente.
3. Elaboración de gráficos
4. Script utilizado en R.
5. Descripción escrita de las conclusiones.
Cada uno de estos puntos tiene un valor de 2.0 puntos.
Examen.
Se realizará un examen en la sesión 16. Se realiza en 10 minutos y es frente al profesor y/o mostrando su pantalla en zoom.
Descargar en PDF
Doctorado en Ciencias Biomédicas UNAM.
Unidad de Posgrado Edificio B Primer Piso
Ciudad Universitaria, CDMX, México.
Tel: (01 52) 55 5623 7001