Abstract:
En trabajos de investigación acerca de la incidencia de contaminantes ambientales sobre alteraciones o enfermedades en poblaciones humanas, ocasionalmente se utilizan enfoques multivariados en el análisis de los datos debido al alto número de variables intervinientes. Asimismo, el carácter sociológico-cultural de esta problemática trae aparejada consigo la naturaleza mixta de las variables, ordinales, nominales, continuas, etc.. Otra particularidad a tener en cuenta, es la de encontrarse, en muchas ocasiones, con una importante cantidad de datos faltantes ocasionados por cuestiones fortuitas, olvidos u omisiones. En esta tesis, las alternativas propuestas para el abordaje multivariado comprendieron dos estrategias a las que llamamos “de una Etapa” y “Bietápica”. Estas consistieron, respectivamente, en hallar una matriz de distancia mediante un coeficiente de similaridad para variables mixtas conocido como coeficiente general de Gower, aplicando posteriormente una técnica factorial de representación; en la segunda se obtuvieron por separado representaciones de las variables cuantitativas y cualitativas, consensuando dichas ordenaciones mediante Análisis de Procrustes Generalizado. Teniendo en cuenta que los procedimientos suelen ser ineficientes cuando la proporción de faltantes en la base de datos es significativa, se investigó en qué grado se distorsiona la información original, a medida que aumenta la proporción de estos. En este sentido, se estudiaron por separado dos comportamientos complementarios de las estrategias utilizadas: por un lado, la calidad de representación ante la presencia de los datos faltantes; y por otro lado su aplicabilidad. Para ello se desarrolló una rutina que permitió generar conjuntos de datos que combinaron variables categóricas y continuas, respetando las estructuras de correlación de la base de datos original. Modificando la proporción de faltantes se extrajeron datos de manera aleatoria y se observaron los alejamientos que sufrían las representaciones de las estrategias ante la ausencia de esos valores, como así también la proporción de veces que éstas podían aplicarse. Los resultados mostraron que la Estrategia Bietápica fue más eficaz en cuanto a que conservó mejor la representación de los datos originales, mientras que la Estrategia de una Etapa fue más robusta en el sentido de aplicabilidad.