Pronóstico precoz de las infecciones de Covid-19 a través de Machine Learning

- El equipo dirigido por el Prof. Santiago Mazuelas lleva a cabo la investigación financiada por Axa Research Fund

El proyecto tiene como objetivo el desarrollo de algoritmos para el pronóstico temprano de los pacientes de COVID-19 en el punto de atención. Estos algoritmos, también conocidos como puntuaciones o reglas de discriminación, ayudan al médico a clasificar a los nuevos pacientes proporcionando una predicción de su resultado clínico. Tales predicciones son clave para evaluar recursos críticos como camas de la UCI y respiradores.

Las actividades durante el primer trimestre se centraron en la revisión del estado de la técnica en la documentación de pronóstico de COVID-19, incluida la búsqueda de posibles conjuntos de datos. El equipo identificó tres conjuntos de datos de la primera ola de la pandemia: Wuhan (China), Sao Paulo (Brasil), y los hospitales NH (España). Elegimos empezar a trabajar con los datos españoles debido a su tamaño e integridad, 2547 pacientes y más de 100 pruebas clínicas. Después de una metódica curación de valores y formatos, lanzamos nuestro primer corpus de datos de referencia, con el nombre en clave CDSL_HM_1_0. Incluye 2378 pacientes con al menos una prueba de laboratorio en la primera semana de admisión en el hospital. En total, hay 36 elementos de laboratorio marcados como predictores. El promedio de edad es de 68 años. El conjunto de datos comprende 343 registros de fallecidos (49 después de la UCI) y 1849 altas domiciliarias (96 permanecieron en la UCI).

El primer y principal objetivo de cualquier triaje de pacientes de COVID-19 es la predicción de la mortalidad. Se realizó un análisis de relevancia de 38 variables predictoras (36 pruebas de laboratorio junto con el número de comorbilidades y síntomas). Nuestros resultados iniciales corroboran la importancia de tres biomarcadores clave de gravedad, a saber, el recuento de linfocitos, el nivel de proteína C reactiva y la cantidad de nitrógeno ureico en la sangre. Sin embargo, estos marcadores por sí solos o todo el panel de sangre completo no son suficientes para una detección efectiva de la mortalidad (véase la figura adjunta para una distribución de los datos de la fuente). En los próximos meses, exploraremos los algoritmos de predicción basados en funciones sensibles al coste que penalizan en gran medida los errores de falsos negativos, es decir, la predicción de la supervivencia, independientemente de cómo haya muerto el paciente.