Clustering and Classification

Ang mga pamamaraan ng clustering at klasipikasyon ay ginagamit sa pag-aaral ng makina, pagkuha ng impormasyon, imbestigasyon ng imahe, at mga kaugnay na gawain.

Ang dalawang diskarte ay ang dalawang pangunahing dibisyon ng mga proseso ng pagmimina ng data. Sa mundo ng pagtatasa ng data, ang mga ito ay mahalaga sa pamamahala ng mga algorithm. Sa partikular, ang parehong mga proseso ay hinati ang data sa mga set. Ang gawaing ito ay lubos na may kaugnayan sa edad ng impormasyon sa ngayon dahil ang napakalawak na pagtaas ng data na isinama sa mga pangangailangan ng pag-unlad ay dapat na madaling mapabilis.

Kapansin-pansin, tinutulungan ng pag-cluster at pag-uuri ang mga pandaigdigang isyu tulad ng krimen, kahirapan, at sakit sa pamamagitan ng agham ng data.

Ano ang Clustering?

Sa pangkalahatan, ang clustering ay nagsasangkot ng pagsasama ng data tungkol sa kanilang pagkakatulad. Ito ay pangunahing nag-aalala sa mga panukalang distansya at clustering algorithm na kinakalkula ang pagkakaiba sa pagitan ng data at hatiin ang mga ito nang sistematiko.

Halimbawa, ang mga estudyante na may mga katulad na estilo ng pag-aaral ay pinagsama-sama at itinuturo nang hiwalay mula sa mga may iba't ibang mga diskarte sa pag-aaral. Sa data mining, ang clustering ay karaniwang tinutukoy bilang "unsupervised learning technic" habang ang grupo ay batay sa isang natural o likas na katangian.

Ito ay inilalapat sa ilang mga pang-agham na larangan tulad ng teknolohiya ng impormasyon, biology, kriminolohiya, at gamot.

Mga Katangian ng Clustering:

Walang Eksaktong Kahulugan

Ang Clustering ay walang tiyak na kahulugan na ang dahilan kung bakit mayroong iba't ibang mga clustering algorithm o kumpol na mga modelo. Halos nagsasalita, ang dalawang uri ng clustering ay mahirap at malambot. Ang hard clustering ay nag-aalala sa pag-label ng isang bagay bilang pag-aari lamang sa isang kumpol o hindi. Sa kaibahan, ang malambot na clustering o fuzzy clustering ay tumutukoy sa degree kung paano ang isang bagay ay pag-aari sa isang partikular na grupo.

Mahirap na Pagsusuri

Ang pagpapatunay o pagtatasa ng mga resulta mula sa pagtatasa ng clustering ay kadalasang mahirap matukoy dahil sa likas na kawalan nito.

Hindi pinangangasiwaan

Dahil ito ay isang unsupervised na diskarte sa pag-aaral, ang pagtatasa ay batay lamang sa mga kasalukuyang tampok; sa gayon, walang mahigpit na regulasyon ang kinakailangan.

Ano ang Klasipikasyon?

Ang klasipikasyon ay nangangailangan ng pagtatalaga ng mga label sa mga umiiral nang sitwasyon o klase; samakatuwid, ang terminong "pag-uuri". Halimbawa, ang mga mag-aaral na nagpapakita ng ilang mga katangian sa pag-aaral ay itinuturing na mga visual na mag-aaral.

Ang klasipikasyon ay kilala rin bilang "supervised learning technic" kung saan ang mga machine matuto mula sa na may label o naiuri data. Ito ay lubos na naaangkop sa pagkilala ng pattern, mga istatistika, at biometrics.

Mga Katangian ng Pag-uuri

Gumamit ng isang "Classifier"

Upang pag-aralan ang data, ang isang classifier ay isang tinukoy na algorithm na concretely mapa ng isang impormasyon sa isang partikular na klase. Halimbawa, ang isang algorithm ng klasipikasyon ay magsanay ng isang modelo upang matukoy kung ang isang partikular na selula ay malignant o benign.

Na-evaluate sa pamamagitan ng Karaniwang Sukatan

Ang kalidad ng pag-uuri ng pag-uuri ay kadalasang tinatasa sa pamamagitan ng katumpakan at pagpapabalik kung saan popular ang mga pamamaraan ng panukat. Ang isang tagatanyas ay nasuri tungkol sa katumpakan at sensitivity nito sa pagkilala sa output.

Pinangangasiwaan

Ang klasipikasyon ay isang pinasadyang teknikal na pag-aaral habang nagtatalaga ito ng mga dati nang tinukoy na pagkakakilanlan batay sa mga katulad na katangian. Ito deduces isang function mula sa isang label na hanay ng pagsasanay.

Pagkakaiba sa pagitan ng Clustering at Classification

Pangangasiwa

Ang pangunahing kaibahan ay ang clustering ay unsupervised at itinuturing na "self-learning" kung saan ang pag-uuri ay pinangangasiwaan dahil depende ito sa mga paunang natukoy na mga label.

Paggamit ng Training Set

Ang clustering ay hindi lubusang gumamit ng mga set ng pagsasanay, na mga grupo ng mga pagkakataon na nagtatrabaho upang bumuo ng mga grupo, samantalang nangangailangan ng klasipikasyon ang mga set ng pagsasanay upang makilala ang mga katulad na tampok.

Pag-label

Ang Clustering ay gumagana sa walang-label na data dahil hindi ito kailangan ng pagsasanay. Sa kabilang panig, ang pag-uuri ay may kaugnayan sa parehong walang label at may label na data sa mga proseso nito.

Layunin

Ang mga grupong clustering ay may layunin na pahintulutan ang mga relasyon pati na rin matutunan ang nobelang impormasyon mula sa mga nakatagong mga pattern habang ang pag-uuri ay naghahanap upang matukoy kung aling tahasang grupo ang isang bagay na pag-aari.

Mga detalye

Habang ang pag-uuri ay hindi tumutukoy kung ano ang kailangang matutunan, tinatantya ng clustering ang kinakailangang pagpapabuti habang itinuturo nito ang mga pagkakaiba sa pamamagitan ng pagsasaalang-alang ng pagkakatulad sa pagitan ng data.

Mga Phase

Sa pangkalahatan, ang clustering ay binubuo lamang ng isang yugto (pangkat) habang ang klasipikasyon ay may dalawang yugto, pagsasanay (natutunan ng modelo mula sa hanay ng pagsasanay na pagsasanay) at pagsubok (hinuhulaan ang target na klase).

Mga Kundisyon ng Boundary

Ang pagtukoy sa mga kondisyon ng hangganan ay napakahalaga sa proseso ng pag-uuri kumpara sa clustering. Halimbawa, ang pag-alam sa porsiyento ng hanay ng "mababa" kumpara sa "katamtaman" at "mataas" ay kinakailangan sa pagtatag ng klasipikasyon.

Prediction

Kung ikukumpara sa clustering, ang klasipikasyon ay mas kasangkot sa hula na partikular na nilalayon sa mga klase ng target na pagkakakilanlan. Halimbawa, maaaring ilapat ito sa "pagtuklas ng mga pangunahing puntos ng mukha" dahil magagamit ito sa paghula kung ang isang partikular na saksi ay namamalagi o hindi.

Pagiging kumplikado

Dahil ang pag-uuri ay binubuo ng higit pang mga yugto, nagtatalakay sa hula, at nagsasangkot ng mga antas o antas, ang 'kalikasan nito ay mas kumplikado kumpara sa clustering na higit sa lahat ay nababahala sa pagpapangkat ng magkatulad na mga katangian.

Bilang ng mga Probable Algorithm

Ang mga algorithm ng clustering ay higit sa lahat sa linear at nonlinear habang ang pag-uuri ay binubuo ng higit pang mga tool sa algorithm tulad ng mga linear classifier, mga neural network, kinalabasan ng Kernel, puno ng desisyon, at suporta sa mga vector machine.

Clustering vs Classification: Talaan ng paghahambing ng pagkakaiba sa pagitan ng Clustering at Classification

Clustering	Pag-uuri
Hindi superbisor na data	Pinamahalaang data
Hindi ba mataas ang halaga ng mga hanay ng pagsasanay	Lubos na pinahahalagahan ang mga hanay ng pagsasanay
Gumagana lamang sa walang-label na data	Naglalaman ng parehong hindi naka-label at may label na data
Ang layunin ay upang matukoy ang pagkakatulad sa data	Ang layunin ay upang mapatunayan kung saan nabibilang ang datum
Tinutukoy ang kinakailangang pagbabago	Hindi tinukoy ang kinakailangang pagpapabuti
May isang yugto	May dalawang yugto
Ang pagtukoy sa mga kondisyon ng hangganan ay hindi mahalaga	Ang pagkilala sa mga kondisyon ng hangganan ay mahalaga sa pagsasagawa ng mga yugto
Hindi pangkaraniwang nakikitungo sa hula	Deal sa hula
Ang pangunahing ginagamit ng dalawang algorithm	Mayroong isang bilang ng mga posibleng algorithm upang gamitin
Mas kaunti ang proseso	Ang proseso ay mas kumplikado

Buod sa Clustering at Classification

Ang parehong clustering at pag-uuri ng pinag-aaralan ay mataas na nagtatrabaho sa mga proseso ng pagmimina ng data.
Ang mga pamamaraan na ito ay inilalapat sa isang napakaraming mga agham na mahalaga sa paglutas ng mga pandaigdigang isyu.
Kadalasa'y, ang clustering deal sa unsupervised data; sa gayon, walang label habang gumagana ang pag-uuri sa pinangangasiwaang data; sa gayon, may label na. Ito ay isa sa mga pangunahing dahilan kung bakit ang clustering ay hindi nangangailangan ng mga set ng pagsasanay habang ang pag-uuri ay ginagawa.
Mayroong higit pang mga algorithm na nauugnay sa pag-uuri kumpara sa clustering.
Tinutulungan ng pag-cluster na i-verify kung paano pareho o di-magkatulad ang data sa bawat isa habang nakatuon ang pag-uuri sa pagtukoy ng "mga klase" o grupo ng data. Ginagawa nito ang proseso ng pag-cluster na mas nakatutok sa mga kondisyon ng hangganan at mas kumplikado ang pag-uuri ng pag-uuri sa kamalayan na may higit pang mga yugto.