Шаталсан ба хуваалтын кластер
Clustering нь өгөгдөлд дүн шинжилгээ хийх, ижил төстэй өгөгдлийн бүлэгт хуваах машин сургалтын техник юм. Эдгээр бүлэг эсвэл ижил төстэй өгөгдлийн багцыг кластер гэж нэрлэдэг. Кластерын шинжилгээ нь кластеруудыг автоматаар тодорхойлох боломжтой кластерын алгоритмуудыг хардаг. Шаталсан болон хуваалт нь кластерийн алгоритмуудын ийм хоёр ангилал юм. Шаталсан кластерийн алгоритмууд нь өгөгдлийг кластеруудын шатлал болгон хуваадаг. Хуваалцах алгоритмууд нь өгөгдлийн багцыг харилцан салангид хуваалтуудад хуваадаг.
Шаталсан кластер гэж юу вэ?
Шаталсан кластерын алгоритмууд нь жижиг кластеруудыг том бүлэгт нэгтгэх эсвэл том кластеруудыг жижиг бүлэгт хуваах мөчлөгийг давтана. Аль ч тохиолдолд энэ нь дендограм гэж нэрлэгддэг кластеруудын шатлалыг үүсгэдэг. Агломератив кластерын стратеги нь кластеруудыг том бүлэгт нэгтгэх доороос дээш хандлагыг ашигладаг бол хуваах кластерын стратеги нь жижиг хэсгүүдэд хуваах дээрээс доош чиглэсэн хандлагыг ашигладаг. Дүрмээр бол аль том/жижиг кластеруудыг нэгтгэх/хуваахад ашиглахыг шийдэхдээ шунахай хандлагыг ашигладаг. Евклидийн зай, Манхэттэний зай ба косинусын ижил төстэй байдал нь тоон өгөгдлийн хувьд ижил төстэй байдлын хамгийн түгээмэл хэрэглэгддэг хэмжүүрүүдийн нэг юм. Тоон бус өгөгдлийн хувьд Хаммингийн зай гэх мэт хэмжигдэхүүнүүдийг ашигладаг. Зөвхөн зайн матриц хангалттай байдаг тул шаталсан бөөгнөрөлд бодит ажиглалт (нөхцөл) шаардлагагүй гэдгийг анхаарах нь чухал юм. Дендограм нь шатлалыг маш тодорхой харуулдаг кластеруудын дүрслэл юм. Хэрэглэгч дендограммыг хэрчсэн түвшнээс хамаарч өөр өөр кластер авах боломжтой.
Хуваалтын кластер гэж юу вэ?
Хэсэгчилсэн кластерийн алгоритмууд нь янз бүрийн хуваалтуудыг үүсгэж дараа нь зарим шалгуураар үнэлдэг. Тэдгээрийг мөн шаталсан бус гэж нэрлэдэг, учир нь жишээ бүр нь бие биенээ үгүйсгэдэг k кластерын яг аль нэгэнд байрладаг. Зөвхөн нэг багц кластер нь ердийн хуваалтын кластерийн алгоритмын гаралт учраас хэрэглэгчээс хүссэн тооны кластерыг (ихэвчлэн k гэж нэрлэдэг) оруулах шаардлагатай байдаг. Хамгийн түгээмэл хэрэглэгддэг хуваалтын кластерийн алгоритмуудын нэг бол k-means кластерийн алгоритм юм. Хэрэглэгч эхлэхээс өмнө кластерын тоог (k) өгөх шаардлагатай бөгөөд алгоритм нь эхлээд k хуваалтын төвүүдийг (эсвэл центроидуудыг) эхлүүлдэг. Товчхондоо k- кластерын алгоритм нь одоо байгаа төвүүд дээр үндэслэн гишүүдийг хуваарилж, одоогийн гишүүдэд тулгуурлан төвүүдийг дахин тооцоолдог гэсэн үг юм. Кластер доторх ижил төстэй байдлын зорилгын функц болон кластер хоорондын ялгааны зорилгын функцийг оновчтой болгох хүртэл эдгээр хоёр алхам давтагдана. Тиймээс төвүүдийг мэдрэмжтэй эхлүүлэх нь хуваах кластерийн алгоритмаас чанартай үр дүнд хүрэхэд маш чухал хүчин зүйл болдог.
Шаталсан болон хуваалтын кластерын ялгаа нь юу вэ?
Шаталсан болон хуваалтын кластер нь ажиллах хугацаа, таамаглал, оролтын параметрүүд болон үр дүнгийн кластеруудад гол ялгаа байдаг. Дүрмээр бол хуваах кластер нь шаталсан кластераас хурдан байдаг. Шаталсан кластер нь зөвхөн ижил төстэй байдлын хэмжүүрийг шаарддаг бол хуваах кластер нь кластерын тоо, анхны төвүүд гэх мэт илүү хүчтэй таамаглалыг шаарддаг. Шаталсан кластер нь ямар ч оролтын параметр шаарддаггүй бол хуваалтын кластерын алгоритмууд ажиллаж эхлэхийн тулд кластеруудын тоог шаарддаг. Шаталсан кластер нь кластеруудын илүү утга учиртай, субъектив хуваагдлыг буцаадаг боловч хуваах кластер нь яг k кластер үүсгэдэг. Ижил төстэй байдлын хэмжүүрийг зохих ёсоор тодорхойлох боломжтой бол шаталсан кластерийн алгоритмууд нь ангиллын өгөгдөлд илүү тохиромжтой.