Clustering and Classification
Ang mga pamamaraan ng clustering at klasipikasyon ay ginagamit sa pag-aaral ng makina, pagkuha ng impormasyon, imbestigasyon ng imahe, at mga kaugnay na gawain.
Ang dalawang diskarte ay ang dalawang pangunahing dibisyon ng mga proseso ng pagmimina ng data. Sa mundo ng pagtatasa ng data, ang mga ito ay mahalaga sa pamamahala ng mga algorithm. Sa partikular, ang parehong mga proseso ay hinati ang data sa mga set. Ang gawaing ito ay lubos na may kaugnayan sa edad ng impormasyon sa ngayon dahil ang napakalawak na pagtaas ng data na isinama sa mga pangangailangan ng pag-unlad ay dapat na madaling mapabilis.
Kapansin-pansin, tinutulungan ng pag-cluster at pag-uuri ang mga pandaigdigang isyu tulad ng krimen, kahirapan, at sakit sa pamamagitan ng agham ng data.
Ano ang Clustering?
Sa pangkalahatan, ang clustering ay nagsasangkot ng pagsasama ng data tungkol sa kanilang pagkakatulad. Ito ay pangunahing nag-aalala sa mga panukalang distansya at clustering algorithm na kinakalkula ang pagkakaiba sa pagitan ng data at hatiin ang mga ito nang sistematiko.
Halimbawa, ang mga estudyante na may mga katulad na estilo ng pag-aaral ay pinagsama-sama at itinuturo nang hiwalay mula sa mga may iba't ibang mga diskarte sa pag-aaral. Sa data mining, ang clustering ay karaniwang tinutukoy bilang "unsupervised learning technic" habang ang grupo ay batay sa isang natural o likas na katangian.
Ito ay inilalapat sa ilang mga pang-agham na larangan tulad ng teknolohiya ng impormasyon, biology, kriminolohiya, at gamot.
Mga Katangian ng Clustering:
- Walang Eksaktong Kahulugan
Ang Clustering ay walang tiyak na kahulugan na ang dahilan kung bakit mayroong iba't ibang mga clustering algorithm o kumpol na mga modelo. Halos nagsasalita, ang dalawang uri ng clustering ay mahirap at malambot. Ang hard clustering ay nag-aalala sa pag-label ng isang bagay bilang pag-aari lamang sa isang kumpol o hindi. Sa kaibahan, ang malambot na clustering o fuzzy clustering ay tumutukoy sa degree kung paano ang isang bagay ay pag-aari sa isang partikular na grupo.
- Mahirap na Pagsusuri
Ang pagpapatunay o pagtatasa ng mga resulta mula sa pagtatasa ng clustering ay kadalasang mahirap matukoy dahil sa likas na kawalan nito.
- Hindi pinangangasiwaan
Dahil ito ay isang unsupervised na diskarte sa pag-aaral, ang pagtatasa ay batay lamang sa mga kasalukuyang tampok; sa gayon, walang mahigpit na regulasyon ang kinakailangan.
Ano ang Klasipikasyon?
Ang klasipikasyon ay nangangailangan ng pagtatalaga ng mga label sa mga umiiral nang sitwasyon o klase; samakatuwid, ang terminong "pag-uuri". Halimbawa, ang mga mag-aaral na nagpapakita ng ilang mga katangian sa pag-aaral ay itinuturing na mga visual na mag-aaral.
Ang klasipikasyon ay kilala rin bilang "supervised learning technic" kung saan ang mga machine matuto mula sa na may label o naiuri data. Ito ay lubos na naaangkop sa pagkilala ng pattern, mga istatistika, at biometrics.
Mga Katangian ng Pag-uuri
- Gumamit ng isang "Classifier"
Upang pag-aralan ang data, ang isang classifier ay isang tinukoy na algorithm na concretely mapa ng isang impormasyon sa isang partikular na klase. Halimbawa, ang isang algorithm ng klasipikasyon ay magsanay ng isang modelo upang matukoy kung ang isang partikular na selula ay malignant o benign.
- Na-evaluate sa pamamagitan ng Karaniwang Sukatan
Ang kalidad ng pag-uuri ng pag-uuri ay kadalasang tinatasa sa pamamagitan ng katumpakan at pagpapabalik kung saan popular ang mga pamamaraan ng panukat. Ang isang tagatanyas ay nasuri tungkol sa katumpakan at sensitivity nito sa pagkilala sa output.
- Pinangangasiwaan
Ang klasipikasyon ay isang pinasadyang teknikal na pag-aaral habang nagtatalaga ito ng mga dati nang tinukoy na pagkakakilanlan batay sa mga katulad na katangian. Ito deduces isang function mula sa isang label na hanay ng pagsasanay.
Pagkakaiba sa pagitan ng Clustering at Classification
- Pangangasiwa
Ang pangunahing kaibahan ay ang clustering ay unsupervised at itinuturing na "self-learning" kung saan ang pag-uuri ay pinangangasiwaan dahil depende ito sa mga paunang natukoy na mga label.
- Paggamit ng Training Set
Ang clustering ay hindi lubusang gumamit ng mga set ng pagsasanay, na mga grupo ng mga pagkakataon na nagtatrabaho upang bumuo ng mga grupo, samantalang nangangailangan ng klasipikasyon ang mga set ng pagsasanay upang makilala ang mga katulad na tampok.
- Pag-label
Ang Clustering ay gumagana sa walang-label na data dahil hindi ito kailangan ng pagsasanay. Sa kabilang panig, ang pag-uuri ay may kaugnayan sa parehong walang label at may label na data sa mga proseso nito.
- Layunin
Ang mga grupong clustering ay may layunin na pahintulutan ang mga relasyon pati na rin matutunan ang nobelang impormasyon mula sa mga nakatagong mga pattern habang ang pag-uuri ay naghahanap upang matukoy kung aling tahasang grupo ang isang bagay na pag-aari.
- Mga detalye
Habang ang pag-uuri ay hindi tumutukoy kung ano ang kailangang matutunan, tinatantya ng clustering ang kinakailangang pagpapabuti habang itinuturo nito ang mga pagkakaiba sa pamamagitan ng pagsasaalang-alang ng pagkakatulad sa pagitan ng data.
- Mga Phase
Sa pangkalahatan, ang clustering ay binubuo lamang ng isang yugto (pangkat) habang ang klasipikasyon ay may dalawang yugto, pagsasanay (natutunan ng modelo mula sa hanay ng pagsasanay na pagsasanay) at pagsubok (hinuhulaan ang target na klase).
- Mga Kundisyon ng Boundary
Ang pagtukoy sa mga kondisyon ng hangganan ay napakahalaga sa proseso ng pag-uuri kumpara sa clustering. Halimbawa, ang pag-alam sa porsiyento ng hanay ng "mababa" kumpara sa "katamtaman" at "mataas" ay kinakailangan sa pagtatag ng klasipikasyon.
- Prediction
Kung ikukumpara sa clustering, ang klasipikasyon ay mas kasangkot sa hula na partikular na nilalayon sa mga klase ng target na pagkakakilanlan. Halimbawa, maaaring ilapat ito sa "pagtuklas ng mga pangunahing puntos ng mukha" dahil magagamit ito sa paghula kung ang isang partikular na saksi ay namamalagi o hindi.
- Pagiging kumplikado
Dahil ang pag-uuri ay binubuo ng higit pang mga yugto, nagtatalakay sa hula, at nagsasangkot ng mga antas o antas, ang 'kalikasan nito ay mas kumplikado kumpara sa clustering na higit sa lahat ay nababahala sa pagpapangkat ng magkatulad na mga katangian.
- Bilang ng mga Probable Algorithm
Ang mga algorithm ng clustering ay higit sa lahat sa linear at nonlinear habang ang pag-uuri ay binubuo ng higit pang mga tool sa algorithm tulad ng mga linear classifier, mga neural network, kinalabasan ng Kernel, puno ng desisyon, at suporta sa mga vector machine.
Clustering vs Classification: Talaan ng paghahambing ng pagkakaiba sa pagitan ng Clustering at Classification
Clustering | Pag-uuri |
Hindi superbisor na data | Pinamahalaang data |
Hindi ba mataas ang halaga ng mga hanay ng pagsasanay | Lubos na pinahahalagahan ang mga hanay ng pagsasanay |
Gumagana lamang sa walang-label na data | Naglalaman ng parehong hindi naka-label at may label na data |
Ang layunin ay upang matukoy ang pagkakatulad sa data | Ang layunin ay upang mapatunayan kung saan nabibilang ang datum |
Tinutukoy ang kinakailangang pagbabago | Hindi tinukoy ang kinakailangang pagpapabuti |
May isang yugto | May dalawang yugto |
Ang pagtukoy sa mga kondisyon ng hangganan ay hindi mahalaga | Ang pagkilala sa mga kondisyon ng hangganan ay mahalaga sa pagsasagawa ng mga yugto |
Hindi pangkaraniwang nakikitungo sa hula | Deal sa hula |
Ang pangunahing ginagamit ng dalawang algorithm | Mayroong isang bilang ng mga posibleng algorithm upang gamitin |
Mas kaunti ang proseso | Ang proseso ay mas kumplikado |
Buod sa Clustering at Classification
- Ang parehong clustering at pag-uuri ng pinag-aaralan ay mataas na nagtatrabaho sa mga proseso ng pagmimina ng data.
- Ang mga pamamaraan na ito ay inilalapat sa isang napakaraming mga agham na mahalaga sa paglutas ng mga pandaigdigang isyu.
- Kadalasa'y, ang clustering deal sa unsupervised data; sa gayon, walang label habang gumagana ang pag-uuri sa pinangangasiwaang data; sa gayon, may label na. Ito ay isa sa mga pangunahing dahilan kung bakit ang clustering ay hindi nangangailangan ng mga set ng pagsasanay habang ang pag-uuri ay ginagawa.
- Mayroong higit pang mga algorithm na nauugnay sa pag-uuri kumpara sa clustering.
- Tinutulungan ng pag-cluster na i-verify kung paano pareho o di-magkatulad ang data sa bawat isa habang nakatuon ang pag-uuri sa pagtukoy ng "mga klase" o grupo ng data. Ginagawa nito ang proseso ng pag-cluster na mas nakatutok sa mga kondisyon ng hangganan at mas kumplikado ang pag-uuri ng pag-uuri sa kamalayan na may higit pang mga yugto.