Software | |
Kurzy |
Přehled
Klastrová analýza je sada technik redukce dat, které jsou navrženy tak, aby seskupovaly podobná pozorování v datové sadě, takže pozorování ve stejné skupině jsou si navzájem co nejvíce podobná a podobně se pozorování v různých skupinách navzájem liší. možný. Ve srovnání s jinými technikami redukce dat, jako je faktorová analýza (FA) a analýza hlavních komponent (PCA), jejichž cílem je seskupit podle podobností mezi proměnnými (sloupci) datové sady, má clusterová analýza za cíl seskupit pozorování podle podobností mezi řádky.
Popis
K-means je jedna metoda shlukové analýzy, která seskupuje pozorování minimalizací euklidovských vzdáleností mezi nimi. Euklidovské vzdálenosti jsou analogické měření přepony trojúhelníku, kde jsou rozdíly mezi dvěma pozorováními dvou proměnných (x a y) zapojeny do Pythagorovy rovnice, aby se vyřešila nejkratší vzdálenost mezi dvěma body (délka přepony). Euklidovské vzdálenosti lze rozšířit na n-dimenze libovolným počtem n a vzdálenosti se vztahují k číselným rozdílům na jakékoli měřené spojité proměnné, nejen na prostorové nebo geometrické vzdálenosti. Tato definice euklidovské vzdálenosti proto vyžaduje, aby všechny proměnné použité k určení shlukování pomocí k-means musely být spojité.
Postup
Aby bylo možné provést shlukování k-means, algoritmus náhodně přiřadí k počátečních center (k určených uživatelem), a to buď náhodným výběrem bodů v euklidovském prostoru definovaných všemi n proměnnými, nebo vzorkováním k bodů všech dostupných pozorování, aby sloužily jako počáteční centra. Poté iterativně přiřadí každé pozorování nejbližšímu středu. Dále vypočítá nové centrum pro každý shluk jako těžiště střední hodnoty shlukových proměnných pro novou sadu pozorování každého shluku. K-means znovu iteruje tento proces a přiřadí pozorování k nejbližšímu středu (některá pozorování změní shluk). Tento proces se opakuje, dokud nová iterace již nepřidělí žádná pozorování novému klastru. V tomto okamžiku se algoritmus považuje za konvergovaný a konečné přiřazení klastru tvoří klastrové řešení.
Existuje několik algoritmů k-means. Standardní algoritmus je Hartigan-Wongův algoritmus, jehož cílem je minimalizovat euklidovské vzdálenosti všech bodů s jejich nejbližšími centry klastru minimalizací součtu čtvercových chyb v rámci klastru (SSE).
Software
K-means je implementován v mnoha statistických softwarových programech:
federální pracovně-studijní program
V R v klastrovém balíčku použijte funkci: k-means (x, středy, iter.max = 10, nstart = 1). Datový objekt, na kterém se má provádět shlukování, je deklarován v x. Počet klastrů k je určen uživatelem v centrech = #. k-means () se bude opakovat s různými počátečními centroidy (náhodně vzorkované z celé datové sady) nstart = # krát a zvolí nejlepší běh (nejmenší SSE). iter.max = # nastavuje maximální povolený počet iterací (výchozí je 10) na běh.
Ve STATA použijte příkaz: cluster kmeans [varlist], k (#) [možnosti]. Použijte [varlist] k deklaraci shlukujících proměnných, k (#) k deklaraci k. Místo euklidovských vzdáleností lze určit další podobnost.
V SAS použijte příkaz: PROC FASTCLUS maxclusters = k; var [varlist]. To vyžaduje zadání k a shlukování proměnných v [varlist].
V SPSS použijte funkci: Analyzovat -> Klasifikovat -> K-Means Cluster. Další soubory nápovědy jsou k dispozici online.
Úvahy
K-means clustering vyžaduje, aby všechny proměnné byly spojité. Jiné metody, které nevyžadují, aby všechny proměnné byly spojité, včetně některých heirarchických metod klastrování, mají různé předpoklady a jsou popsány v níže uvedeném seznamu zdrojů. K-means shlukování také vyžaduje apriorní specifikaci počtu shluků, k. I když to lze provést empiricky s daty (pomocí screeplot ke grafu SSE v rámci skupiny proti každému řešení klastru), rozhodnutí by mělo být založeno na teorii a nesprávné volby mohou vést k chybným klastrům. Níže najdete příklady výběru klastrových řešení v Peeplesově online R skriptu R pro R klastrová analýza K-means.
Obzvláště důležitá je také volba shlukování proměnných. Obecně platí, že metody klastrové analýzy vyžadují předpoklad, že proměnné zvolené k určení klastrů jsou komplexní reprezentací podkladové zájmové konstrukce, která seskupuje podobná pozorování. Zatímco výběr proměnných zůstává diskutovaným tématem, konsensus v této oblasti doporučuje shlukování co největšího počtu proměnných, pokud tato sada odpovídá tomuto popisu, a proměnné, které nepopisují velkou část rozptylu v euklidovských vzdálenostech mezi pozorováními, přispějí méně přiřazení klastru. Analýzy citlivosti se doporučují pomocí různých klastrových řešení a sad klastrových proměnných k určení robustnosti klastrového algoritmu.
Cílem K-means ve výchozím nastavení je minimalizovat součet čtvercových chyb v rámci skupiny měřených euklidovskými vzdálenostmi, ale to není vždy oprávněné, pokud nejsou splněny předpoklady dat. Projděte si učebnice a online příručky v níže uvedené části zdrojů, zejména Robinsonův R-blog: K-means shlukování není oběd zdarma pro příklady problémů, se kterými se shlukování k-means při porušení předpokladů setkalo.
A konečně, metody klastrové analýzy jsou podobné ostatním technikám redukce dat v tom, že jsou převážně průzkumnými nástroji, proto by výsledky měly být interpretovány opatrně. Existuje mnoho technik pro ověřování výsledků klastrové analýzy, včetně interně s křížovým ověřováním nebo bootstrappingem, ověřování na koncepčních skupinách teoretizovaných a priori nebo s odborným názorem nebo externí ověřování se samostatnými datovými soubory. Běžná aplikace klastrové analýzy je jako nástroj pro předpovídání členství v klastru na budoucích pozorováních pomocí stávajících dat, ale nepopisuje, proč jsou pozorování takto seskupena. Jako taková se shluková analýza často používá ve spojení s faktorovou analýzou, kde se shluková analýza používá k popisu podobnosti pozorování a faktorová analýza k popisu, proč jsou pozorování podobná. Platnost výsledků klastrové analýzy by měla být nakonec určena na základě teorie a užitečnosti popisů klastrů.
Čtení
Učebnice a kapitoly
-
Aldenderfer MS a Blashfield RK (1984). Shluková analýza. Sage University Paper series on Quantitative Applications in the Social Sciences, series no. 07-044. Newbury Park, Kalifornie: Sage Publications. Zelená kniha o klastrové analýze je klasickým referenčním textem o teorii a metodách klastrové analýzy a také pokyny pro vykazování výsledků.
-
Everitt BS, Landau S, Leese M, Stahl D (2011). Cluster Analysis, 5. vydání. Wiley Series. Podrobný a současný popis různých typů metod klastrové analýzy, jak se pole vyvíjelo.
-
Lorr M (1983). Cluster Analysis for Social Scientists. Série společenských a behaviorálních věd Jossey-Bass. Lorrovy klasické textové podrobnosti týkající se metod s daty, se kterými se obvykle setkáváme ve společenských vědách - s daty ve společenských vědách je často obtížné se setkat s předpoklady o údajích K-means, a diskutuje se o alternativách.
Metodické články
-
Hauser J a Rybakowski J (1997). Tři skupiny alkoholiků. Závislost na alkoholu; 48 (3): 243-50. Příklad seskupování typů chování ve výzkumu závislostí.
-
Breuhl S, et al. (1999). Využití analýzy klastrů k ověření diagnostických kritérií IHS pro migrénu a bolesti hlavy typu napětí. Bolest hlavy; 39 (3): 181-9. Studie validace diagnostických kritérií pomocí k-means na vzorcích příznaků.
-
Guthrie E a kol. (2003). Klastrová analýza příznaků a chování při hledání zdraví odlišuje podskupiny pacientů se syndromem těžkého dráždivého tračníku. Střevo; 52 (11): 1616-22. Vzory chování hledající péči se liší klastrovou analýzou.
Články o aplikaci
-
MacQueen J (1967). Některé metody klasifikace a analýzy vícerozměrných pozorování. Proceedings of the 5th Berkeley Symposium on Math. Statist. a Prob., sv. 1. Časné statistické metody pojednávají o k-znamená shlukovací algoritmus od jednoho z prvních vývojářů.
-
Salim SZ a Ismail MA. (1984). Algoritmy typu K: zobecněný teorém konvergence a charakterizace lokální optimality. IEEE Trans Pattern Anal Mach Intell; 6 (1): 81-7. Metodické úvahy a doporučení pro použití shlukování k-means.
-
Saeed F a kol. (2012). Kombinace shluků K-znamená chemických struktur pomocí klastrového algoritmu rozdělení podobnosti. Komunikace v počítačové a informační vědě; 322: 304-312. Nedávný článek o zlepšení výkonu k-means klastrových řešení pomocí vícenásobné iterace a kombinačních přístupů.
Webové stránky
Různé návody pro použití softwaru R k provádění klastrové analýzy k-means s použitými příklady a ukázkovým kódem.
-
statmethods.net: Quick-R: Cluster Analysis http://www.statmethods.net/advstats/cluster.html
-
2. Blog R-statistics: K-means clustering http://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/
-
3. Peeples MA (2011). R skript pro K-means Cluster Analysis http://www.mattpeeples.net/kmeans.html
-
4. Robinson D (2015). R bloggeři: K-means clustering není oběd zdarma http://www.r-bloggers.com/k-means-clustering-is-not-a-free-lunch/
Technické zdroje R.
-
York University - Clusterová analýza R. Příkazy http://wiki.math.yorku.ca/index.php/R:_Cluster_analysis
-
Soubor nápovědy R kmeans () https://stat.ethz.ch/R-manual/R-devel/library/stats/html/kmeans.html
Související techniky redukce dat
-
Exploratory factor analysis (EFA) on Advanced Epidemiology
-
Analýza hlavních komponent (PCA) v pokročilé epidemiologii