Hlavní Jiný K-znamená shlukovou analýzu

K-znamená shlukovou analýzu

Přehled

Software

Popis

Webové stránky

Čtení

Kurzy

Přehled

Klastrová analýza je sada technik redukce dat, které jsou navrženy tak, aby seskupovaly podobná pozorování v datové sadě, takže pozorování ve stejné skupině jsou si navzájem co nejvíce podobná a podobně se pozorování v různých skupinách navzájem liší. možný. Ve srovnání s jinými technikami redukce dat, jako je faktorová analýza (FA) a analýza hlavních komponent (PCA), jejichž cílem je seskupit podle podobností mezi proměnnými (sloupci) datové sady, má clusterová analýza za cíl seskupit pozorování podle podobností mezi řádky.

Popis

K-means je jedna metoda shlukové analýzy, která seskupuje pozorování minimalizací euklidovských vzdáleností mezi nimi. Euklidovské vzdálenosti jsou analogické měření přepony trojúhelníku, kde jsou rozdíly mezi dvěma pozorováními dvou proměnných (x a y) zapojeny do Pythagorovy rovnice, aby se vyřešila nejkratší vzdálenost mezi dvěma body (délka přepony). Euklidovské vzdálenosti lze rozšířit na n-dimenze libovolným počtem n a vzdálenosti se vztahují k číselným rozdílům na jakékoli měřené spojité proměnné, nejen na prostorové nebo geometrické vzdálenosti. Tato definice euklidovské vzdálenosti proto vyžaduje, aby všechny proměnné použité k určení shlukování pomocí k-means musely být spojité.

Postup

Aby bylo možné provést shlukování k-means, algoritmus náhodně přiřadí k počátečních center (k určených uživatelem), a to buď náhodným výběrem bodů v euklidovském prostoru definovaných všemi n proměnnými, nebo vzorkováním k bodů všech dostupných pozorování, aby sloužily jako počáteční centra. Poté iterativně přiřadí každé pozorování nejbližšímu středu. Dále vypočítá nové centrum pro každý shluk jako těžiště střední hodnoty shlukových proměnných pro novou sadu pozorování každého shluku. K-means znovu iteruje tento proces a přiřadí pozorování k nejbližšímu středu (některá pozorování změní shluk). Tento proces se opakuje, dokud nová iterace již nepřidělí žádná pozorování novému klastru. V tomto okamžiku se algoritmus považuje za konvergovaný a konečné přiřazení klastru tvoří klastrové řešení.

Existuje několik algoritmů k-means. Standardní algoritmus je Hartigan-Wongův algoritmus, jehož cílem je minimalizovat euklidovské vzdálenosti všech bodů s jejich nejbližšími centry klastru minimalizací součtu čtvercových chyb v rámci klastru (SSE).

Software

K-means je implementován v mnoha statistických softwarových programech:

federální pracovně-studijní program

V R v klastrovém balíčku použijte funkci: k-means (x, středy, iter.max = 10, nstart = 1). Datový objekt, na kterém se má provádět shlukování, je deklarován v x. Počet klastrů k je určen uživatelem v centrech = #. k-means () se bude opakovat s různými počátečními centroidy (náhodně vzorkované z celé datové sady) nstart = # krát a zvolí nejlepší běh (nejmenší SSE). iter.max = # nastavuje maximální povolený počet iterací (výchozí je 10) na běh.

Ve STATA použijte příkaz: cluster kmeans [varlist], k (#) [možnosti]. Použijte [varlist] k deklaraci shlukujících proměnných, k (#) k deklaraci k. Místo euklidovských vzdáleností lze určit další podobnost.

V SAS použijte příkaz: PROC FASTCLUS maxclusters = k; var [varlist]. To vyžaduje zadání k a shlukování proměnných v [varlist].

V SPSS použijte funkci: Analyzovat -> Klasifikovat -> K-Means Cluster. Další soubory nápovědy jsou k dispozici online.

Úvahy

K-means clustering vyžaduje, aby všechny proměnné byly spojité. Jiné metody, které nevyžadují, aby všechny proměnné byly spojité, včetně některých heirarchických metod klastrování, mají různé předpoklady a jsou popsány v níže uvedeném seznamu zdrojů. K-means shlukování také vyžaduje apriorní specifikaci počtu shluků, k. I když to lze provést empiricky s daty (pomocí screeplot ke grafu SSE v rámci skupiny proti každému řešení klastru), rozhodnutí by mělo být založeno na teorii a nesprávné volby mohou vést k chybným klastrům. Níže najdete příklady výběru klastrových řešení v Peeplesově online R skriptu R pro R klastrová analýza K-means.

Obzvláště důležitá je také volba shlukování proměnných. Obecně platí, že metody klastrové analýzy vyžadují předpoklad, že proměnné zvolené k určení klastrů jsou komplexní reprezentací podkladové zájmové konstrukce, která seskupuje podobná pozorování. Zatímco výběr proměnných zůstává diskutovaným tématem, konsensus v této oblasti doporučuje shlukování co největšího počtu proměnných, pokud tato sada odpovídá tomuto popisu, a proměnné, které nepopisují velkou část rozptylu v euklidovských vzdálenostech mezi pozorováními, přispějí méně přiřazení klastru. Analýzy citlivosti se doporučují pomocí různých klastrových řešení a sad klastrových proměnných k určení robustnosti klastrového algoritmu.

Cílem K-means ve výchozím nastavení je minimalizovat součet čtvercových chyb v rámci skupiny měřených euklidovskými vzdálenostmi, ale to není vždy oprávněné, pokud nejsou splněny předpoklady dat. Projděte si učebnice a online příručky v níže uvedené části zdrojů, zejména Robinsonův R-blog: K-means shlukování není oběd zdarma pro příklady problémů, se kterými se shlukování k-means při porušení předpokladů setkalo.

A konečně, metody klastrové analýzy jsou podobné ostatním technikám redukce dat v tom, že jsou převážně průzkumnými nástroji, proto by výsledky měly být interpretovány opatrně. Existuje mnoho technik pro ověřování výsledků klastrové analýzy, včetně interně s křížovým ověřováním nebo bootstrappingem, ověřování na koncepčních skupinách teoretizovaných a priori nebo s odborným názorem nebo externí ověřování se samostatnými datovými soubory. Běžná aplikace klastrové analýzy je jako nástroj pro předpovídání členství v klastru na budoucích pozorováních pomocí stávajících dat, ale nepopisuje, proč jsou pozorování takto seskupena. Jako taková se shluková analýza často používá ve spojení s faktorovou analýzou, kde se shluková analýza používá k popisu podobnosti pozorování a faktorová analýza k popisu, proč jsou pozorování podobná. Platnost výsledků klastrové analýzy by měla být nakonec určena na základě teorie a užitečnosti popisů klastrů.

Čtení

Učebnice a kapitoly

  1. Aldenderfer MS a Blashfield RK (1984). Shluková analýza. Sage University Paper series on Quantitative Applications in the Social Sciences, series no. 07-044. Newbury Park, Kalifornie: Sage Publications. Zelená kniha o klastrové analýze je klasickým referenčním textem o teorii a metodách klastrové analýzy a také pokyny pro vykazování výsledků.

  2. Everitt BS, Landau S, Leese M, Stahl D (2011). Cluster Analysis, 5. vydání. Wiley Series. Podrobný a současný popis různých typů metod klastrové analýzy, jak se pole vyvíjelo.

  3. Lorr M (1983). Cluster Analysis for Social Scientists. Série společenských a behaviorálních věd Jossey-Bass. Lorrovy klasické textové podrobnosti týkající se metod s daty, se kterými se obvykle setkáváme ve společenských vědách - s daty ve společenských vědách je často obtížné se setkat s předpoklady o údajích K-means, a diskutuje se o alternativách.

Metodické články

  1. Hauser J a Rybakowski J (1997). Tři skupiny alkoholiků. Závislost na alkoholu; 48 (3): 243-50. Příklad seskupování typů chování ve výzkumu závislostí.

  2. Breuhl S, et al. (1999). Využití analýzy klastrů k ověření diagnostických kritérií IHS pro migrénu a bolesti hlavy typu napětí. Bolest hlavy; 39 (3): 181-9. Studie validace diagnostických kritérií pomocí k-means na vzorcích příznaků.

  3. Guthrie E a kol. (2003). Klastrová analýza příznaků a chování při hledání zdraví odlišuje podskupiny pacientů se syndromem těžkého dráždivého tračníku. Střevo; 52 (11): 1616-22. Vzory chování hledající péči se liší klastrovou analýzou.

Články o aplikaci

  1. MacQueen J (1967). Některé metody klasifikace a analýzy vícerozměrných pozorování. Proceedings of the 5th Berkeley Symposium on Math. Statist. a Prob., sv. 1. Časné statistické metody pojednávají o k-znamená shlukovací algoritmus od jednoho z prvních vývojářů.

  2. Salim SZ a Ismail MA. (1984). Algoritmy typu K: zobecněný teorém konvergence a charakterizace lokální optimality. IEEE Trans Pattern Anal Mach Intell; 6 (1): 81-7. Metodické úvahy a doporučení pro použití shlukování k-means.

  3. Saeed F a kol. (2012). Kombinace shluků K-znamená chemických struktur pomocí klastrového algoritmu rozdělení podobnosti. Komunikace v počítačové a informační vědě; 322: 304-312. Nedávný článek o zlepšení výkonu k-means klastrových řešení pomocí vícenásobné iterace a kombinačních přístupů.

Webové stránky

Různé návody pro použití softwaru R k provádění klastrové analýzy k-means s použitými příklady a ukázkovým kódem.

  1. statmethods.net: Quick-R: Cluster Analysis http://www.statmethods.net/advstats/cluster.html

  2. 2. Blog R-statistics: K-means clustering http://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/

  3. 3. Peeples MA (2011). R skript pro K-means Cluster Analysis http://www.mattpeeples.net/kmeans.html

  4. 4. Robinson D (2015). R bloggeři: K-means clustering není oběd zdarma http://www.r-bloggers.com/k-means-clustering-is-not-a-free-lunch/

Technické zdroje R.

  1. York University - Clusterová analýza R. Příkazy http://wiki.math.yorku.ca/index.php/R:_Cluster_analysis

  2. Soubor nápovědy R kmeans () https://stat.ethz.ch/R-manual/R-devel/library/stats/html/kmeans.html

Související techniky redukce dat

  1. Exploratory factor analysis (EFA) on Advanced Epidemiology

  2. Analýza hlavních komponent (PCA) v pokročilé epidemiologii

Zajímavé Články

Redakce Choice

Htc u11 plus cena, specifikace, datum vydání, cena v Indii 2018, USA
Htc u11 plus cena, specifikace, datum vydání, cena v Indii 2018, USA
HTC U11 plus htc mobile Cena v Indii, USA. HTC U11 plus mobilní specifikace HTC, datum vydání, funkce, baterie, barvy, velikost obrazovky, uživatelské rozhraní HTC
Kimberle W. Crenshaw
Kimberle W. Crenshaw
Kimberlé W. Crenshaw je průkopnicí v oblasti občanských práv, teorie kritické rasy, černé feministické právní teorie a rasy, rasismu a práva. Kromě své pozice na Columbia Law School je významnou profesorkou práva na Kalifornské univerzitě v Los Angeles. Crenshawova práce byla základem v teorii kritických ras a v intersekcionalitě, což je termín, který vytvořila k popisu dvojí vazby současných rasových a genderových předsudků. Její studie, psaní a aktivismus identifikovaly klíčové problémy při udržování nerovnosti, včetně potrubí školy k vězení pro afroamerické děti a kriminalizace chování mezi černými dospívajícími dívkami. Prostřednictvím Columbia Law School African American Policy Forum (AAPF), které spoluzaložila, se Crenshaw spoluautorem (spolu s Andreou Ritchie) podílela na Say Her Name: Resisting Police Brutality Against Black Women, která dokumentovala a upozorňovala na zabíjení černých žen. a dívky policií. Crenshaw a AAPF následně zahájily kampaň #SayHerName s cílem upozornit na policejní násilí páchané na černých ženách a dívkách. Crenshaw je vyhledávaným řečníkem a vede workshopy a školení. Je také spoluautorkou knihy Black Girls Matter: Pushed Out, Overpoliced ​​a Underprotected. Její psaní se objevilo v Harvard Law Review, National Black Law Journal, Stanford Law Review a Southern California Law Review. Je zakládající koordinátorkou workshopu Critical Race Theory a spolueditorkou Critical Race Theory: Key Documents that Shaped the Movement. V roce 1981 asistovala v právním týmu Anity Hillové při jejím svědectví při potvrzovacím slyšení soudce Nejvyššího soudu Clarence Thomase. Crenshaw pravidelně píše pro The New Republic, The Nation a Ms. a poskytuje komentáře pro média, včetně MSNBC a NPR, a hostí podcast Intertersectionality Matters! Kromě častých angažmá, školení a radnic Crenshaw pořádal workshopy pro aktivisty v oblasti lidských práv v Brazílii a v Indii a pro soudce ústavních soudů v Jižní Africe. Působí ve Výboru pro právo a spravedlnost Národních akademií věd. Průkopnická práce společnosti Crenshaw na intersekcionalitě měla vliv na vypracování doložky o rovnosti v jihoafrické ústavě. Je autorkou podkladového dokumentu o rasové a genderové diskriminaci pro Světovou konferenci OSN o rasismu v roce 2001, pracovala jako zpravodajka pro skupinu odborníků na genderovou a rasovou diskriminaci na konferenci a koordinovala úsilí nevládních organizací o zajištění začlenění pohlaví do WCAR. Prohlášení konference.
Oslava života „boje“ Belly Abzugové45
Oslava života „boje“ Belly Abzugové45
Letos v červenci si připomínáme 100. výročí narození průkopníka.
LG Q7 cena, specifikace, datum vydání
LG Q7 cena, specifikace, datum vydání
Specifikace lg q7- IPS LCD, 5,5palcový displej, Android 8.1 (Oreo), Snapdragon 450, MediaTek MT6750S, 16MP,13MP Jeden zadní,8MP přední fotoaparát, 3000mAH
Dokumenty o penzijním úvěru SBI, způsobilost, úroková sazba, EMI, online žádost
Dokumenty o penzijním úvěru SBI, způsobilost, úroková sazba, EMI, online žádost
Dokumenty o penzijním úvěru SBI, způsobilost, úroková sazba, EMI, online žádost, formulář žádosti, prohlášení o důchodu
Magisterský titul
Magisterský titul
Program Master of Arts trénuje zkušené novináře, aby šli hlouběji, a vybaví je odbornými znalostmi v dané oblasti, aby mohli veřejnosti vysvětlit složité problémy. Studenti si ve své koncentraci vytvoří intelektuální základnu, která jim umožní klást informovanější otázky, hodnotit důkazy pro konkurenční teorie a vytvářet propracované a jemné příběhy.
PhD program
PhD program
Získejte titul Ph.D. v sociální práci na Kolumbijské univerzitě. Nabízíme renomovaného a vlivného Ph.D. program od roku 1950.