cleaning and standardization through age-adjusted rates per 100,000 inhabitants and Z-
scores, enabling valid comparisons across countries and time. PCA reduced 32 causes of
death to five latent epidemiological dimensions, which facilitated the identification of
regional patterns. Results showed that in low-income countries, transmissible diseases are
more prevalent, whereas in high-income countries such as the United States, mortality is
primarily driven by chronic diseases and mental disorders. The Random Forest model
demonstrated superior performance (R² = 0.99; MAE = 512), outperforming LSTM, and
allowed for estimating that in 2022, cardiovascular diseases would account for 35.6% of
global deaths. Predictor variables included country, year, and the number of deaths per
cause, while the response variable was the adjusted mortality rate by cause. Overall, the
findings support the use of multivariate statistics as a robust tool for analyzing complex
public health phenomena and informing evidence-based policy-making.
Keywords: Multivariate Techniques, Random Forest, PCA, mortal rate, Statistical Prediction,
LSTM Neural Networks, Causes of Death
INTRODUCCIÓN
El estudio de las causas de muerte no se limita únicamente al ámbito médico, sino que
trasciende hacia la construcción de métricas que cuantifican el funcionamiento de los
sistemas de salud, mide la eficacia de las políticas públicas, y que se relaciona con el nivel de
progreso económico y social de un país por medio de la esperanza de vida (1). En años
actuales, esos enfoques han sido entendidos, llevando al estudio de las causas de muerte a
ser uno de los aspectos más estudiados, hasta convertirse en insumos para la toma de
decisiones en planeación sanitaria, evaluación de planes médicos preventivos y de
proyecciones demográficas, como lo reconoce la Organización Mundial de la Salud (2).
A pesar de su importancia, gran parte de los estudios existentes se centran únicamente en
estudios univariados, y a enfoques netamente descriptivos que, aunque son adecuados para
generar visualizaciones, establecer rankings simples, o detectar aumentos o disminuciones
en enfermedades específicas, presentan debilidades y limitaciones en estructurar relaciones
complejas entre variables, modelos de comportamiento, y evoluciones temporales. Como
solución de estas carencias, la estadística multivariante ofrece un conjunto de técnicas
capaces de abordar simultáneamente múltiples dimensiones, extrayendo comportamientos
y patrones ocultos, constituyéndose en la mejor manera de mantener y comprender la
información que los datos poseen (3).
La aplicación de estas técnicas multivariantes requiere bases de datos robustas, como la
proporcionada por la Global Burden of Disease (GBD), que es elaborada por un centro de
investigaciones afiliado a la Universidad de Washington denominado Institute for Health
Metrics and Evaluation (IHME). Esta base de datos se constituye en uno de los mayores
esfuerzos que busca recopilar, estandarizar y almacenar la información de las causas de
muerte a nivel mundial. El GBD integra los datos provenientes de los registros civiles,
partidas médicas, y todo tipo de registros de defunción de más de 250 países y territorios.
Para su levantamiento, la IHME cuenta con procedimientos rigurosos de corrección de
registros, imputación de valores faltantes, ajuste por edad y género, así como el empleo de
modelos bayesianos jerárquicos que buscan reducir el sesgo sistemático, constituyéndola en