Análisis estadístico de las principales causas de muerte a nivel mundial desde 1990 a 2022 utilizando técnicas multivariantes
DOI:
https://doi.org/10.56519/k95gva53Palabras clave:
Técnicas Multivariantes, Random Forest, ACP, tasa de mortalidad, predicción estadística, Redes Neuronales LSTM, causas de muerte, machine learning, Multivariate Techniques, PCA, mortal rate, tatistical Prediction, LSTM Neural Networks, Causes of DeathResumen
El presente estudio analiza la evolución de las principales causas de muerte a escala mundial y nacional entre 1990 y 2021, y genera proyecciones para el año 2022 mediante técnicas estadísticas multivariantes aplicadas a datos del Global Burden of Disease (GBD). La investigación parte del reconocimiento de que los enfoques univariados tradicionales son limitados para captar la complejidad estructural de la mortalidad, por lo que se adoptó un enfoque mixto que integra análisis exploratorio, Análisis de Componentes Principales (ACP) y algoritmos de predicción como redes neuronales LSTM y Random Forest. La metodología incluyó la depuración y estandarización de los datos mediante tasas ajustadas por cada 100 000 habitantes y puntajes Z, lo que permitió comparaciones válidas entre países y años. El ACP redujo 32 causas de muerte a cinco dimensiones epidemiológicas latentes, que facilitaron la identificación de patrones regionales. Se evidenció que, en países de bajos ingresos, prevalecen enfermedades transmisibles, mientras que en los de altos ingresos, como Estados Unidos, predominan enfermedades crónicas y trastornos mentales. El modelo Random Forest mostró el mejor rendimiento (R² = 0.99; MAE = 512), superando a LSTM, y permitió estimar que en 2022 las enfermedades cardiovasculares serían la principal causa global de defunción, con un 35,6 % del total. Las variables predictoras incluyeron el país, el año y la cantidad de muertes por cada enfermedad, mientras que la variable respuesta fue la tasa ajustada de mortalidad por causa. En conjunto, los resultados validan la utilidad de la estadística multivariante para el análisis de fenómenos complejos en salud pública y para la orientación de políticas basadas en evidencia.
Abstract
This study analyzes the evolution of the leading causes of death at both global and national levels from 1990 to 2021, and generates projections for 2022 using multivariate statistical techniques applied to data from the Global Burden of Disease (GBD). Recognizing the limitations of traditional univariate approaches to capture the structural complexity of mortality, the research adopts a mixed-methods strategy that integrates exploratory analysis, Principal Component Analysis (PCA), and predictive algorithms such as Long Short-Term Memory (LSTM) neural networks and Random Forest. The methodology included data cleaning and standardization through age-adjusted rates per 100,000 inhabitants and Z-scores, enabling valid comparisons across countries and time. PCA reduced 32 causes of death to five latent epidemiological dimensions, which facilitated the identification of regional patterns. Results showed that in low-income countries, transmissible diseases are more prevalent, whereas in high-income countries such as the United States, mortality is primarily driven by chronic diseases and mental disorders. The Random Forest model demonstrated superior performance (R² = 0.99; MAE = 512), outperforming LSTM, and allowed for estimating that in 2022, cardiovascular diseases would account for 35.6% of global deaths. Predictor variables included country, year, and the number of deaths per cause, while the response variable was the adjusted mortality rate by cause. Overall, the findings support the use of multivariate statistics as a robust tool for analyzing complex public health phenomena and informing evidence-based policy-making.