Кластер хийх ба ангилах хоёрын гол ялгаа нь кластер хийх нь ижил төстэй тохиолдлуудыг онцлог шинжээр нь бүлэглэдэг хяналтгүй сургалтын арга, харин ангилал нь онцлог шинж чанарт үндэслэн инстанцуудад урьдчилан тодорхойлсон шошго оноодог хяналттай сургалтын арга техник юм.
Хэдийгээр кластер хийх, ангилах нь ижил төстэй үйл явц мэт боловч тэдгээрийн утгын хувьд ялгаа бий. Өгөгдлийн уурхайн ертөнцөд кластер хийх, ангилах нь хоёр төрлийн сургалтын арга юм. Эдгээр аргууд хоёулаа объектуудыг нэг буюу хэд хэдэн онцлогоор нь бүлэг болгон тодорхойлдог.
Кластер гэж юу вэ?
Clustering гэдэг нь ижил төстэй шинж чанартай объектуудыг нэгтгэж, ялгаатай шинж чанартай объектуудыг салгах байдлаар объектуудыг бүлэглэх арга юм. Энэ нь машин сурах, өгөгдөл олборлоход зориулсан статистик мэдээлэлд дүн шинжилгээ хийх нийтлэг арга юм. Хайгуулын өгөгдөлд дүн шинжилгээ хийх, нэгтгэх нь мөн кластерчлалыг ашигладаг салбар юм.
Зураг 01: Кластер
Кластер нь хяналтгүй өгөгдөл олборлолтод хамаарна. Энэ нь нэг тодорхой алгоритм биш, гэхдээ энэ нь даалгаврыг шийдвэрлэх ерөнхий арга юм. Тиймээс янз бүрийн алгоритмуудыг ашиглан кластерт хүрэх боломжтой. Тохиромжтой кластерийн алгоритм ба параметрийн тохиргоо нь өгөгдлийн багцаас хамаарна. Энэ бол автомат ажил биш, гэхдээ энэ нь дахин давтагдах нээлтийн үйл явц юм. Тиймээс үр дүн нь хүссэн шинж чанарт хүрэх хүртэл өгөгдөл боловсруулах, параметрийн загварчлалыг өөрчлөх шаардлагатай. K-тэдгээрийн кластер болон шаталсан кластер нь өгөгдөл олборлолтод түгээмэл хэрэглэгддэг кластер хийх хоёр алгоритм юм.
Ангилал гэж юу вэ?
Ангилал гэдэг нь объектыг таних, ялгах, ойлгоход сургалтын багц өгөгдлийг ашигладаг ангилах үйл явц юм. Ангилал гэдэг нь сургалтын багц болон зөв тодорхойлсон ажиглалтыг ашиглах боломжтой хяналттай сургалтын арга юм.
Зураг 02: Ангилал
Ангилалыг хэрэгжүүлдэг алгоритм нь ангилагч, харин ажиглалт нь жишээ юм. K-Хамгийн ойрын хөршийн алгоритм ба шийдвэрийн модны алгоритмууд нь өгөгдөл олборлох хамгийн алдартай ангиллын алгоритмууд юм.
Бүлэглэх, ангилах хоёрын ялгаа юу вэ?
Кластер хийх нь хяналтгүй суралцах бол Ангилал нь хяналтгүй суралцах арга юм. Энэ нь ижил төстэй тохиолдлуудыг онцлог шинж чанараар нь бүлэглэдэг бол ангилал нь шинж чанаруудын үндсэн дээр тохиолдлуудад урьдчилан тодорхойлсон шошго оноодог. Кластер нь ижил төстэй шинж чанартай тохиолдлуудыг бүлэглэхийн тулд өгөгдлийн багцыг дэд олонлогт хуваадаг. Энэ нь шошготой өгөгдөл эсвэл сургалтын багцыг ашигладаггүй. Нөгөө талаас, сургалтын багцын ажиглалтын дагуу шинэ өгөгдлийг ангил. Сургалтын багц шошготой.
Бүлэглэх зорилго нь объектуудын хооронд ямар нэгэн хамаарал байгаа эсэхийг олохын тулд багц объектуудыг бүлэглэх явдал байдаг бол ангилал нь урьдчилан тодорхойлсон ангиудын багцаас шинэ объект аль ангилалд хамаарахыг олох зорилготой юм.
Тогтоон – Ангилал ба кластер
Өгөгдөл олборлолтын алгоритм хоёулаа өгөгдлийн багцыг дэд бүлэгт хуваадаг тул өгөгдлийн цуглуулгад найдвартай мэдээлэл олж авахын тулд өгөгдөл олборлоход ашигладаг хоёр өөр сургалтын арга техник юм. Кластер хийх болон ангилах хоёрын ялгаа нь кластер хийх нь ижил төстэй тохиолдлуудыг онцлог шинжээр нь бүлэглэдэг хяналтгүй сургалтын арга, харин ангилал нь онцлог шинж чанар дээр үндэслэн инстансуудад урьдчилан тодорхойлсон шошго оноодог хяналттай сургалтын арга техник юм.
Зургийн зөвшөөрөл:
1.”Cluster-2″ by Cluster-2.gif: hellisp дериватив ажил: (Нийтийн эзэмшлийн) Wikimedia Commons 2-ээр дамжуулан.“Соронзон” Жон Аплесседийн – Өөрийн бүтээл. (Нийтийн домэйн) Wikimedia Commons