Principal Alte Analiza clusterului K-Means

Analiza clusterului K-Means

Prezentare generală

Software

Descriere

Site-uri web

cerere de împrumut federal plus

Lecturi

Cursuri

Prezentare generală

Analiza cluster este un set de tehnici de reducere a datelor care sunt concepute pentru a grupa observații similare într-un set de date, astfel încât observațiile din același grup să fie cât mai similare între ele posibil și, în mod similar, observațiile din diferite grupuri sunt la fel de diferite între ele ca posibil. Comparativ cu alte tehnici de reducere a datelor, cum ar fi analiza factorială (FA) și analiza componentelor principale (PCA), care urmăresc să grupeze după asemănări între variabile (coloane) ale unui set de date, analiza clusterului urmărește să grupeze observațiile după similarități între rânduri.

Descriere

K-means este o metodă de analiză cluster care grupează observațiile prin minimizarea distanțelor euclidiene între ele. Distanțele euclidiene sunt analoage cu măsurarea hipotenuzei unui triunghi, unde diferențele dintre două observații pe două variabile (x și y) sunt conectate la ecuația pitagorică pentru a rezolva cea mai mică distanță dintre cele două puncte (lungimea hipotenuzei). Distanțele euclidiene pot fi extinse la n-dimensiuni cu orice număr n, iar distanțele se referă la diferențele numerice ale oricărei variabile continue măsurate, nu doar la distanțele spațiale sau geometrice. Prin urmare, această definiție a distanței euclidiene necesită ca toate variabilele utilizate pentru a determina gruparea utilizând mijloace k trebuie să fie continue.

Procedură

Pentru a efectua gruparea k-mijloacelor, algoritmul atribuie aleator k centre inițiale (k specificate de utilizator), fie prin alegerea aleatorie a punctelor din spațiul euclidian definit de toate n variabilele, fie prin eșantionarea de puncte k din toate observațiile disponibile pentru a servi ca centre inițiale. Apoi atribuie iterativ fiecare observație celui mai apropiat centru. Apoi, calculează noul centru pentru fiecare cluster ca medie a centrului variabilelor de cluster pentru noul set de observații ale fiecărui cluster. K-înseamnă reiterează acest proces, atribuind observații la cel mai apropiat centru (unele observații vor schimba clusterul). Acest proces se repetă până când o nouă iterație nu mai repartizează nicio observație unui nou cluster. În acest moment, algoritmul este considerat a fi convergent, iar atribuțiile finale de cluster constituie soluția de clustering.

Există mai mulți algoritmi k-mijloace disponibili. Algoritmul standard este algoritmul Hartigan-Wong, care își propune să minimizeze distanțele euclidiene ale tuturor punctelor cu centrele lor de cluster cele mai apropiate, prin minimizarea sumei de erori pătrate (SSE) din cadrul clusterului.

Software

K-means este implementat în multe programe software statistice:

În R, în pachetul cluster, utilizați funcția: k-înseamnă (x, centre, iter.max = 10, nstart = 1). Obiectul de date pe care se efectuează clusterizarea este declarat în x. Numărul de clustere k este specificat de utilizator în centre = #. k-means () se va repeta cu centroizi inițiali diferiți (eșantionați aleatoriu din întregul set de date) nstart = # ori și alegeți cea mai bună rulare (cea mai mică SSE). iter.max = # setează un număr maxim de iterații permise (implicit este 10) pe fiecare rulare.

În STATA, utilizați comanda: cluster kmeans [varlist], k (#) [opțiuni]. Folosiți [varlist] pentru a declara variabilele de grupare, k (#) pentru a declara k. Există alte opțiuni pentru a specifica măsuri de similitudine în locul distanțelor euclidiene.

În SAS, utilizați comanda: PROC FASTCLUS maxclusters = k; var [varlist]. Acest lucru necesită specificarea k și a variabilelor de grupare în [varlist].

În SPSS, utilizați funcția: Analizați -> Clasificați -> Clusterul K-Means. Fișiere de ajutor suplimentare sunt disponibile online.

Considerații

K-înseamnă că clusterizarea necesită ca toate variabilele să fie continue. Alte metode care nu necesită ca toate variabilele să fie continue, inclusiv unele metode de grupare ereditare, au presupuneri diferite și sunt discutate în lista de resurse de mai jos. K-înseamnă grupare necesită, de asemenea, o specificație a priori a numărului de clustere, k. Deși acest lucru se poate face empiric cu datele (folosind un grafic pentru a grafica SSE din cadrul grupului în funcție de fiecare soluție de cluster), decizia ar trebui să fie condusă de teorie, iar alegerile necorespunzătoare pot duce la clustere eronate. Consultați scriptul R online al lui Peeples pentru analiza clusterului K-means de mai jos pentru exemple de alegere a soluțiilor cluster.

structura guvernului Statelor Unite

Alegerea variabilelor de grupare are, de asemenea, o importanță deosebită. În general, metodele de analiză a clusterelor presupun presupunerea că variabilele alese pentru determinarea clusterelor reprezintă o reprezentare cuprinzătoare a constructului subiacent al interesului care grupează observații similare. În timp ce alegerea variabilelor rămâne un subiect dezbătut, consensul din domeniu recomandă gruparea pe cât mai multe variabile posibil, atâta timp cât setul se potrivește acestei descrieri, iar variabilele care nu descriu o mare parte a varianței distanțelor euclidiene între observații vor contribui mai puțin pentru a aloca cluster. Analizele de sensibilitate sunt recomandate folosind diferite soluții de cluster și seturi de variabile de clusterizare pentru a determina robustețea algoritmului de clusterizare.

K-mijloace implicit urmărește să minimizeze suma din interiorul grupului de erori pătrate, măsurată de distanțele euclidiene, dar acest lucru nu este întotdeauna justificat atunci când ipotezele datelor nu sunt îndeplinite. Consultați manuale și ghiduri online în secțiunea de resurse de mai jos, în special R-blogul lui Robinson: K-înseamnă clustering nu este un prânz gratuit pentru exemple de probleme întâmpinate cu k-means clustering atunci când presupunerile sunt încălcate.

În cele din urmă, metodele de analiză cluster sunt similare cu alte tehnici de reducere a datelor, întrucât sunt instrumente exploratorii în mare parte, astfel rezultatele ar trebui interpretate cu prudență. Există multe tehnici pentru validarea rezultatelor din analiza cluster-ului, inclusiv intern cu validare încrucișată sau bootstrapping, validarea pe grupuri conceptuale teoretizate a priori sau cu opinia experților sau validarea externă cu seturi de date separate. O aplicație obișnuită a analizei clusterului este ca un instrument pentru prezicerea apartenenței clusterului la observațiile viitoare folosind datele existente, dar nu descrie de ce observațiile sunt grupate în acest fel. Ca atare, analiza cluster este adesea utilizată împreună cu analiza factorială, unde analiza cluster este utilizată pentru a descrie modul în care observațiile sunt similare, iar analiza factorială este utilizată pentru a descrie de ce observațiile sunt similare. În cele din urmă, validitatea rezultatelor analizei de cluster ar trebui să fie determinată de teorie și de utilitatea descrierilor de cluster.

Lecturi

Manuale și capitole

  1. Aldenderfer MS și Blashfield RK (1984). Analiza grupului. Sage University Paper series on Quantitative Applications in the Social Sciences, seria nr. 07-044. Newbury Park, California: Sage Publications. Cartea verde privind analiza clusterelor este un text clasic de referință asupra teoriei și metodelor de analiză cluster, precum și ghiduri pentru raportarea rezultatelor.

  2. Everitt BS, Landau S, Leese M, Stahl D (2011). Cluster Analysis, ediția a V-a. Seria Wiley. Descrieri aprofundate și contemporane ale diferitelor tipuri de metode de analiză a clusterelor pe măsură ce domeniul s-a dezvoltat.

    brandenburg v ohio 1969
  3. Lorr M (1983). Analiza cluster pentru oamenii de știință sociali. Seria de științe sociale și comportamentale Jossey-Bass. Textul clasic al lui Lorr detaliază metodele legate de datele întâlnite de obicei în științele sociale - K-înseamnă că presupunerile de date sunt adesea dificil de întâlnit cu datele din științele sociale și se discută despre alternative.

Articole metodologice

  1. Hauser J și Rybakowski J (1997). Trei grupuri de alcoolici de sex masculin. Alcoolul de droguri depinde; 48 (3): 243-50. Un exemplu de grupare a tipurilor de comportament în cercetarea dependenței.

  2. Breuhl S și colab. (1999). Utilizarea analizei clusterelor pentru validarea criteriilor de diagnostic IHS pentru migrenă și cefalee de tip tensiune. Durere de cap; 39 (3): 181-9. Un studiu al validării criteriilor de diagnostic utilizând mijloacele k pe tiparele de simptome.

  3. Guthrie E și colab. (2003). Analiza cluster a simptomelor și comportamentul în căutarea sănătății diferențiază subgrupurile de pacienți cu sindromul intestinului iritabil sever. Intestin; 52 (11): 1616-22. Modelele de comportament care caută îngrijire sunt diferențiate prin analiza clusterelor.

Articole de aplicare

  1. MacQueen J (1967). Câteva metode de clasificare și analiză a observațiilor multivariate. Lucrările celui de-al cincilea Simpozion Berkeley despre matematică. Statistică. și Prob., Vol. 1. Lucrarea metodelor statistice timpurii despre k-înseamnă algoritmul de grupare de la unul dintre dezvoltatorii timpurii.

  2. Salim SZ și Ismail MA. (1984). Algoritmi de tip K-means: O teorie generală de convergență și caracterizarea optimității locale. IEEE Trans Pattern Anal Mach Intell; 6 (1): 81-7. Considerații metodologice și recomandări pentru utilizarea grupării k-mijloacelor.

  3. Saeed F și colab. (2012). Combinarea K-înseamnă grupări de structuri chimice utilizând algoritmul de partiționare a similarității bazat pe cluster. Comunicații în informatică și știința informației; 322: 304-312. Un articol recent despre îmbunătățirea performanței soluțiilor cluster k-înseamnă prin abordări multiple și iterații combinate.

Site-uri web

Diverse progrese pentru utilizarea software-ului R pentru a efectua analiza clusterului k-means, cu exemple aplicate și cod de eșantion.

  1. statmethods.net: Quick-R: Cluster Analysis http://www.statmethods.net/advstats/cluster.html

  2. 2. Blogul R-statistics: K-înseamnă clustering http://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/

  3. 3. Peeples MA (2011). R Script pentru K-înseamnă analiza cluster http://www.mattpeeples.net/kmeans.html

  4. 4. Robinson D (2015). Bloggeri R: K-înseamnă că gruparea nu este un prânz gratuit http://www.r-bloggers.com/k-means-clustering-is-not-a-free-lunch/

Resurse R tehnice

  1. York University - Cluster analysis R comenzile http://wiki.math.yorku.ca/index.php/R:_Cluster_analysis

  2. R kmeans () fișier de ajutor https://stat.ethz.ch/R-manual/R-devel/library/stats/html/kmeans.html

Tehnici de reducere a datelor conexe

brandenburg v. ohio (1969)
  1. Analiza factorilor exploratori (EFA) pe epidemiologie avansată

  2. Analiza componentelor principale (PCA) pe epidemiologie avansată

Articole Interesante

Alegerea Editorului

Paris, Mon Amour - Jacqueline Kennedy Onassis la Reid Hall
Paris, Mon Amour - Jacqueline Kennedy Onassis la Reid Hall
Fosta primă doamnă a Statelor Unite a petrecut un an la Paris, la actuala Reid Hall din Columbia, studiind limba și literatura franceză ca student la Vassar.
John Christopher Depp II împotriva News Group Newspapers Ltd. și Dan Wootton
John Christopher Depp II împotriva News Group Newspapers Ltd. și Dan Wootton
Columbia Global Freedom of Expression încearcă să promoveze înțelegerea normelor și instituțiilor internaționale și naționale care protejează cel mai bine fluxul liber de informații și exprimare într-o comunitate globală interconectată cu provocări comune majore de abordat. Pentru a-și îndeplini misiunea, Libertatea de exprimare globală întreprinde și comandă proiecte de cercetare și politici, organizează evenimente și conferințe și participă la dezbateri globale privind protecția libertății de exprimare și de informare în secolul XXI și contribuie la acestea.
Instruire pentru ofițer de siguranță radiațională (RSO)
Instruire pentru ofițer de siguranță radiațională (RSO)
ACTUALIZARE COVID-19: Instruirea pentru ofițerii pentru siguranța radiațiilor din 2021 va fi desfășurată de la distanță prin intermediul fluxului live. Vezi mai jos datele și calendarul. Înregistrare deschisă! Alăturați-vă pentru următorul training RSO live-stream: 9-11 iulie și 16-18 iulie 2021 CURS DE 40 DE ORE DE FORMARE (DOUĂ SĂPTĂMÂNI LUNGI) Alăturați-vă pentru două weekend-uri lungi de la distanță, prin video live-stream pentru cele 40 de ore necesare de formare pentru a deveni un
Criterion Channel dedică programul filmelor „Regizat de Bette Gordon” pentru streaming
Criterion Channel dedică programul filmelor „Regizat de Bette Gordon” pentru streaming
Programul special de streaming de pe Criterion Channel va evidenția rolul influent al lui Gordon în comunitatea cinematografică independentă pe 17 iunie.
De ce atât de mulți adolescenți primesc BTS?
De ce atât de mulți adolescenți primesc BTS?
Potrivit experților în sănătate publică la un simpozion recent privind sănătatea adolescenților, ratele bolilor cu transmitere sexuală sunt în creștere, iar tinerii, în special adolescenții, au cel mai mare risc de a se infecta cu orice tip de vârstă. eveniment organizat de New York City STD Prevention Training Center de la Columbia
Facultate
Facultate
O recenzie a jucătorilor despre CryptoKitties
O recenzie a jucătorilor despre CryptoKitties