Red de conocimientos sobre prescripción popular - Colección de remedios caseros - ¿Qué es el análisis de componentes principales? ¡Las estadísticas deberían ser útiles! !

¿Qué es el análisis de componentes principales? ¡Las estadísticas deberían ser útiles! !

El análisis de componentes principales, también llamado análisis de componentes principales, tiene como objetivo utilizar la idea de reducción de dimensionalidad para transformar múltiples indicadores en unos pocos indicadores integrales. En el estudio de problemas empíricos, para analizar el problema de manera integral y sistemática, debemos considerar muchos factores que influyen. Estos factores involucrados generalmente se denominan indicadores y también se denominan variables en el análisis estadístico multivariado. Debido a que cada variable refleja cierta información sobre el problema en estudio en diversos grados, y los indicadores tienen una cierta correlación entre sí, la información reflejada por los datos estadísticos obtenidos se superpone hasta cierto punto. Cuando se utilizan métodos estadísticos para estudiar problemas de múltiples variables, demasiadas variables aumentarán la cantidad de cálculo y aumentarán la complejidad del problema de análisis. La gente espera que en el proceso de análisis cuantitativo se involucren menos variables y se obtenga más información. . El análisis de componentes principales es un método de transformación matemática que convierte un conjunto dado de variables relacionadas en otro conjunto de variables no correlacionadas mediante transformación lineal. Estas nuevas variables se organizan en orden de varianza decreciente. En la transformación matemática, la varianza total de las variables se mantiene constante, de modo que la primera variable tiene la varianza más grande, lo que se llama primer componente principal, y la segunda variable tiene la segunda varianza más grande y no está relacionada con la primera variable. , que se denomina segundo componente principal. Por analogía, las variables tienen componentes principales. Entre ellos, Li es un vector ortogonalizado p-dimensional (Li*Li=1). Zi no está correlacionado entre sí y está dispuesto en orden de varianza descendente. Se denomina I-ésimo componente principal de X. Supongamos que la matriz de covarianza del vector de coeficientes Li corresponde al I-ésimo componente principal Zi, y la tasa de contribución de la varianza de Zi se define como λi/Σλj. Generalmente se requiere que el número k de componentes principales extraídos satisfaga Σλk/Σλj>. 0,85. El propósito es utilizar menos variables para explicar la mayor parte de la variación en los datos originales y transformar muchas variables altamente correlacionadas en nuestras manos en variables que sean independientes o no estén correlacionadas entre sí. Por lo general, se seleccionan varias variables nuevas, los llamados componentes principales, que tienen menos variables que las variables originales y pueden explicar la mayor parte de la variación en los datos, y se utilizan para explicar los indicadores integrales de los datos. Se puede ver que el análisis de componentes principales es en realidad un método de reducción de dimensionalidad