Hlavní Jiný Analýza průzkumných faktorů

Analýza průzkumných faktorů

Přehled

Software

Popis

Webové stránky

Čtení

Kurzy

Přehled

Tato stránka stručně popisuje metody Exploratory Factor Analysis (EFA) a poskytuje anotovaný seznam zdrojů.

[Níže uvedený příběh těžce čerpá z James Neill (2013) a Tucker a MacCallum (1997) , ale byl destilován pro doktorandy Epi a mladší výzkumné pracovníky.]

Popis

Faktorová analýza je 100 let stará rodina technik používaných k identifikaci struktury / dimenze pozorovaných dat a odhalení základních konstrukcí, které vedou k pozorovaným jevům. Techniky identifikují a zkoumají shluky vzájemně korelovaných proměnných; tyto shluky se nazývají faktory nebo latentní proměnné (viz obrázek 1). Ze statistického hlediska je faktorová analýza metodou modelování populační kovarianční matice sady proměnných pomocí ukázkových dat. Faktorová analýza se používá pro vývoj teorie, vývoj psychometrických nástrojů a redukci dat.


Obrázek 1. Příklad faktorové struktury běžných psychiatrických poruch. Zdá se, že běžné poruchy představují dvě latentní dimenze, internalizující a externalizující poruchy. Od Krueger, R. F., 1999, Struktura běžných duševních poruch. Archiv obecné psychiatrie. 56: 921-926.

Faktorovou analýzu propagoval psycholog a statistik Charles Spearman (ze Spearmanova korelačního koeficientu) v roce 1904 ve své práci o základních dimenzích inteligence. Jeho použití bylo až do zavedení statistických výpočtů omezeno obtížnými ručními výpočty; od té doby tato technika vzkvétala.

Existují dva hlavní typy faktorové analýzy: průzkumná a potvrzovací. V analýze průzkumných faktorů (EFA, zaměření této stránky zdrojů) je každá pozorovaná proměnná potenciálně měřítkem každého faktoru a cílem je určit vztahy (mezi pozorovanými proměnnými a faktory), které jsou nejsilnější. V konfirmační faktorové analýze (CFA) se předpokládá jednoduchá struktura faktorů, každá proměnná může být měřítkem pouze jednoho faktoru a korelační struktura dat se testuje proti předpokládané struktuře pomocí testů dobré shody. Obrázek 2 je grafické znázornění EFA a CFA.


Obrázek 2. EFA (vlevo) a CFA (vpravo). Převzato z Wall, M., 20. září 2012, hostující přednáška na zasedání 3 Epidemiologie problémů s drogami a alkoholem, Hassin, D., Columbia University Mailman School of Public Health

Pro různé scénáře měření a dat existují různé faktorové analytické techniky:

  1. Pozorované proměnné jsou spojité, u latentních proměnných se předpokládá, že jsou spojité

  2. Pozorované jsou spojité, latentní jsou kategorické

  3. Pozorované jsou kategorické, latentní jsou spojité

  4. Pozorované jsou kategorické, latentní jsou kategorické

Tato stránka zdroje se zaměří na scénáře 1 a 3.

Obrázky 3 a 4 níže ilustrují některé základní předpoklady teorie měření ve vztahu k faktorové analýze:

  1. Faktory nebo latentní proměnné systematicky ovlivňují pozorované proměnné (tj. Když měříme pozorované proměnné, jsou tato měření / pozorování způsobena alespoň částečně latentními proměnnými)

    příklad endemického onemocnění
  2. Interindividuální rozdíly (tj. Rozptyl) ve sledovaných proměnných jsou způsobeny latentními proměnnými a chybou měření

  3. Každý typ faktoru (běžný, specifický - viz níže) kromě chyby měření přispívá k části odchylky


Obrázek 3. Prvky, které ovlivňují sledované proměnné. Obrázek převzatý z Tucker, LR a MacCallum, RC. 1997, Exploratory Factor Analysis: http://www.unc.edu/~rcm/book/factornew.htm

Obrázek 3 ukazuje, že pozorované proměnné ovlivňují tři věci. Dva jsou typy latentních proměnných nebo faktorů. Prvním z nich jsou společné faktory, které způsobují vznik více než jedné ze sledovaných proměnných (např. Matematické schopnosti mohou vést k nárůstu skóre testu sčítání, skóre testu násobení a skóre testu dělení). Druhým jsou specifické faktory, které vedou k vzniku pouze jedné ze sledovaných proměnných (společný faktor se může stát specifickým faktorem, pokud odstraníte všechny kromě jedné ze sledovaných proměnných, z nichž vznikly). Třetí věcí, která ovlivňuje pozorované proměnné, je chyba měření, která není latentní, ale je často způsobena nesystematickými událostmi, které ovlivňují měření. Chyba měření úzce souvisí se spolehlivostí.

Každý z prvků, které ovlivňují pozorované proměnné, také přispívá k variabilitě těchto proměnných. Obrázek 4 ukazuje, že rozptyl dané pozorované proměnné je částečně způsoben faktory, které ovlivňují jiné sledované proměnné, faktory, které ovlivňují pouze danou pozorovanou proměnnou, a chybou měření. Společný rozptyl se někdy označuje jako obecnost a konkrétní rozptyl a odchylka chyby se často kombinují a označují se jako jedinečnost.


Obrázek 4. Varianční struktura sledovaných proměnných. Obrázek od Jamese Neilla, 2013, Exploratory Factor Analysis, Lecture 5, Survey Research and Design in Psychology. http://www.slideshare.net/jtneill/exploratory-factor-analysis

Obrázek také ukazuje jeden klíčový rozdíl mezi faktorovou analýzou aanalýza hlavních komponent. V analýze hlavních složek je cílem zohlednit co nejvíce celkové odchylky ve sledovaných proměnných; k vytváření komponent se používají lineární kombinace pozorovaných proměnných. Ve faktorové analýze je cílem vysvětlit kovarianci mezi proměnnými; sledované proměnné jsou definovány jako lineární kombinace faktorů.

Hlavním bodem je, že faktorová analytická teorie je o účtování kovariace mezi pozorovanými proměnnými. Když jsou pozorované proměnné vzájemně korelované, faktorová analytická teorie říká, že korelace je alespoň částečně způsobena vlivem běžných latentních proměnných.

Předpoklady

Faktorová analýza má následující předpoklady, které lze podrobněji prozkoumat v níže odkazovaných zdrojích:

  1. Velikost vzorku (např. 20 pozorování na proměnnou)

  2. Úroveň měření (např. Výše ​​uvedené scénáře měření / dat)

  3. Normálnost

  4. Linearita

  5. Odlehlé hodnoty (faktorová analýza je citlivá na odlehlé hodnoty)

  6. Faktorovatelnost

    jak velkou šířku pásma využívá zoom

Vlastní čísla a zatížení faktorů

[Poznámka: tento přehled maticové algebry vám pomůže pochopit, co se děje pod kapotou s vlastními hodnotami a faktorovým zatížením, ale není to zcela nutné pro interpretaci výsledků faktorové analýzy.]

Faktory jsou extrahovány z korelačních matic transformací takových matic vlastními vektory. Vlastní vektor čtvercové matice je vektor, který, když je předem vynásoben čtvercovou maticí, získá vektor, který je celočíselným násobkem původního vektoru. Tento celočíselný násobek je vlastní číslo.

Vlastní hodnota představuje množství rozptylu, za který každý faktor odpovídá. Každý extrahovaný faktor bude mít vlastní číslo (celočíselný násobek původního vektoru). První extrahovaný faktor se pokusí absorbovat co největší část rozptylu, jak je to možné, takže následná vlastní čísla budou nižší než ta první. Vlastní čísla nad 1 jsou stabilní. Součet všech vlastních čísel je počet pozorovaných proměnných v modelu.


Obrázek 5. Scree plot, od Jamese Neilla, 2013, Exploratory Factor Analysis, Lecture 5, Survey Research and Design in Psychology. http://www.slideshare.net/jtneill/exploratory-factor-analysis

Každá proměnná přispívá rozptylem 1. Vlastní hodnoty jsou poté přiřazeny faktorům podle vysvětleného množství rozptylu. Grafy suti (obrázek 5 níže) jsou běžným výstupem v softwaru pro analýzu faktorů a jsou spojnicovými grafy vlastních čísel. Znázorňují míru rozptylu vysvětlenou každým faktorem a mezní hodnotou je počet faktorů těsně před ohybem v grafu suti, např. Kolem 2 nebo 3 faktorů na obrázku 5. Vlastní čísla a grafy suti vás mohou vést při určování toho, jak pro vaše data se nejlépe hodí mnoho faktorů.

Načtení faktorů je maticí toho, jak pozorované proměnné souvisejí s vámi zadanými faktory. Z geometrického hlediska jsou zatížení numerickými koeficienty odpovídajícími směrovým cestám spojujícím společné faktory se sledovanými proměnnými. Poskytují základ pro interpretaci latentních proměnných. Vyšší zatížení znamená, že pozorovaná proměnná silněji souvisí s faktorem. Pravidlem je uvažovat o zatížení nad 0,3.

Rotace

Faktory se otáčejí (doslova v geometrickém prostoru), aby usnadnily interpretaci. Existují dva typy rotace: ortogonální (kolmé), u nichž není dovoleno vzájemné korelace faktorů, a šikmé, při kterých mohou faktory zaujímat libovolnou polohu v prostoru faktorů a lze je navzájem korelovat. Příklady ortogonální rotace zahrnují varimax, quartimax a equamax. Mezi příklady šikmé rotace patří oblimin, promax a geomin. Postup výběru metody rotace najdete v níže uvedených zdrojích.

Po rotaci jsou faktory znovu uspořádány tak, aby optimálně procházely shluky sdíleného rozptylu, takže faktory lze snáze interpretovat. To je podobné výběru referenční skupiny v regresi. Obrázek 6 ilustruje rotaci faktorů pomocí varimaxu, ale je pouze pro koncepční účely. Rotace probíhají pod kapotou vašeho softwaru.


Obrázek 6. Příklad ortogonální rotace varimaxu. Pozorované proměnné byly pro charakteristiky vína. Od Abdiho, Hervé. http://www.utdallas.edu/~herve/Abdi-rotations-pretty.pdf

EFA s dichotomickými položkami

Pearsonova korelační matice není vhodná pro kategorické nebo dichotomické položky, takže pro provedení EFA s takovými daty musíte vytvořit vhodnou korelační matici, která se nazývá tetrachorická (pro dichotomické položky) nebo polychorická (pro jiné kategorické položky). Tetrachorická korelační matice je odvozená Pearsonova korelace z tabulky 2 × 2 s předpokladem bivariační normality. Polychoric to zobecňuje na tabulku n x m.

Myšlenka, ilustrovaná na obrázku 7, je, že představují dichotomické položky
spojité konstrukty. Při vytváření tetrachorické korelační matice v zásadě odhadujete model založený na proporcích, které spadají do každé oblasti v pravém dolním rohu obrázku 7. Počítač zkouší četné prahové hodnoty a kombinace.


Obrázek 7. Reprezentace pozorované dichotomické proměnné (stlačená ano / ne) a spojitý latentní konstrukt. Dolní roh ukazuje, jak je model vymodelován prvně jmenovaným.

Od jara 2013 je MPlus zlatým standardem pro provádění EFA na dichotomických položkách, ale je také možné jej implementovat v R. Viz níže zdroje, zejména dokumentace Psych balíčku.

Čtení

Učebnice a kapitoly

Metodické články

Metodické (teorie a pozadí)

Metodické (aplikované)

Články o aplikaci

Software

install.packages (psych)
knihovna (psych)

? fa

# rychlé demo průzkumné faktorové analýzy

data (Harman)

head (Harman.Holzinger) # 9 × 9 korelační matice testů kognitivní ablity, N = 696

cor.plot (Harman.Holzinger)

pa<- fa(Harman.Holzinger, 4, fm=pa, rotate=varimax, SMC=FALSE)
print (pa, sort = TRUE)

#prints results, sort = TRUE zobrazuje načítání podle absolutní hodnoty. u ^ 2 je jedinečnost a h ^ 2 je # spolehlivost. Podívejte se na hodnoty v? Fa, jak volat konkrétní výsledky

sutina (Harman.Holzinger, faktory = PRAVDA, pc = PRAVDA, hlavní = spiknutí, hline = NULL, přidání = FALSE)

# vytvoří scree spiknutí - spojnicové grafy vlastních čísel. Znázorňují míru rozptylu # vysvětlenou každým faktorem a cut-off je počet faktorů těsně před ohybem # na grafu suti, např. Kolem 2 nebo 3 faktorů na obrázku 5. Vlastní čísla a obrázky suti vás mohou vést při určování, kolik faktorů je pro vaše data nejvhodnější.
fa.diagram (pa, sort = TRUE, cut = .3, simple = TRUE, errors = FALSE, digits = 1, e.size = .05, rsize = 0.15)

# dobře známý diagram vztahu mezi faktory a pozorovanými proměnnými
# kód pro dichotomické položky

vaše.data<-read.csv(, header=TRUE, stringsAsFactors=FALSE)
your.fa<-fa.poly(your.data, nfactors=3, n.obs = 184, n.iter=1, rotate=geominQ, scores=tenBerge, SMC=TRUE, symmetric=TRUE, warnings=TRUE, fm=wls,
alfa = 0,1, p = 0,05, šikmé skóre = PRAVDA)

#hlavním rozdílem je rotace (musíte zvolit šikmou metodu - geominQ je # nejblíže tomu, co dělá MPlus), factoringová metoda (vážené nejméně čtverce nebo wls, je nejblíže k # MPlus, ale není přesné), a skóre = tenBerge.

# Pokud si chcete tetrachorickou korelační matici vyrobit sami, použijte balíček polychor

install.packages (polycor)
knihovna (polycor)

? hetcor

částečný úvazek ms program

Kurzy

Zajímavé Články