KDD болон Дата олборлолтын ялгаа

KDD болон Дата олборлолтын ялгаа
KDD болон Дата олборлолтын ялгаа

Видео: KDD болон Дата олборлолтын ялгаа

Видео: KDD болон Дата олборлолтын ялгаа
Видео: Zombies in Asia - Season 1. All series ( Countryballs ) 2024, Арваннэгдүгээр
Anonim

KDD vs Data mining

KDD (Өгөгдлийн сан дахь мэдлэгийг илрүүлэх) нь тоон хэлбэрт шилжүүлсэн өгөгдлийн томоохон цуглуулгаас хэрэгтэй болон урьд өмнө мэдэгдээгүй мэдээллийг (жишээ нь мэдлэг) гаргаж авахад хүмүүст туслах хэрэгсэл, онолыг багтаасан компьютерийн шинжлэх ухааны салбар юм. KDD нь хэд хэдэн үе шатаас бүрдэх ба тэдгээрийн нэг нь Data Mining юм. Өгөгдөл олборлолт нь өгөгдлөөс хэв маягийг гаргаж авахын тулд тодорхой алгоритмын хэрэглээ юм. Гэсэн хэдий ч KDD болон Data Mining хоёрыг сольж ашигладаг.

KDD гэж юу вэ?

Дээр дурьдсанчлан KDD нь компьютерийн шинжлэх ухааны салбар бөгөөд түүхий өгөгдлөөс урьд өмнө мэдэгдээгүй, сонирхолтой мэдээллийг гаргаж авдаг. KDD нь зохих арга, арга техникийг боловсруулах замаар өгөгдлийг ойлгохыг оролдох бүх үйл явц юм. Энэ процесс нь доод түвшний өгөгдлийг илүү авсаархан, хийсвэр, хэрэгцээтэй бусад хэлбэрт оруулахтай холбоотой. Энэ нь богино тайлан гаргах, өгөгдөл үүсгэх үйл явцыг загварчлах, ирээдүйн тохиолдлуудыг урьдчилан таамаглах боломжтой урьдчилан таамаглах загваруудыг боловсруулах замаар хийгддэг. Өгөгдлийн экспоненциал өсөлтийн улмаас, ялангуяа бизнес гэх мэт салбарт KDD нь сүүлийн хэдэн арван жилд хэв маягийг гараар гаргаж авах боломжгүй мэт санагдах болсон тул энэ их хэмжээний өгөгдлийг бизнесийн оюун ухаанд хөрвүүлэх маш чухал үйл явц болсон. Жишээлбэл, одоогоор үүнийг нийгмийн сүлжээний шинжилгээ, залилан илрүүлэх, шинжлэх ухаан, хөрөнгө оруулалт, үйлдвэрлэл, харилцаа холбоо, өгөгдөл цэвэрлэх, спорт, мэдээлэл хайх, маркетинг зэрэг олон төрлийн хэрэглээнд ашиглаж байна. KDD нь ихэвчлэн Wal-Mart-аас ирэх жил өндөр ашиг олоход туслах гол бүтээгдэхүүн юу вэ гэх мэт асуултуудад хариулахад ашиглагддаг. Энэ үйл явц нь хэд хэдэн үе шаттай. Энэ нь хэрэглээний домэйн болон зорилгын талаархи ойлголтыг хөгжүүлж, дараа нь зорилтот өгөгдлийн багц үүсгэхээс эхэлдэг. Үүний дараа өгөгдлийг цэвэрлэх, урьдчилан боловсруулах, багасгах, проекцлох үйл ажиллагаа явагдана. Дараагийн алхам бол загварыг тодорхойлохын тулд Data Mining (доор тайлбарласан) ашиглах явдал юм. Эцэст нь нээсэн мэдлэгийг дүрслэн харуулах ба/эсвэл тайлбарлах замаар нэгтгэдэг.

Дата олборлолт гэж юу вэ?

Дээр дурдсанчлан Дата олборлолт нь KDD-ийн ерөнхий үйл явцын зөвхөн нэг алхам юм. Аппликешны зорилгын дагуу өгөгдөл олборлох хоёр үндсэн зорилго байдаг бөгөөд тэдгээр нь баталгаажуулалт эсвэл нээлт юм. Баталгаажуулалт нь өгөгдлийн талаарх хэрэглэгчийн таамаглалыг баталгаажуулах бөгөөд нээлт нь автоматаар сонирхолтой хэв маягийг олох явдал юм. Мэдээлэл олборлох дөрвөн үндсэн ажил байдаг: кластер, ангилал, регресс, холбоо (дүгнэлт). Бүтэцгүй өгөгдлөөс ижил төстэй бүлгүүдийг тодорхойлохыг кластер гэдэг. Ангилал гэдэг нь шинэ өгөгдөлд хэрэглэж болох сургалтын дүрэм юм. Регресс нь өгөгдлийг загварчлахад хамгийн бага алдаатай функцүүдийг олох явдал юм. Мөн ассоциаци нь хувьсагчдын хоорондын хамаарлыг хайж байдаг. Дараа нь тодорхой өгөгдөл олборлох алгоритмыг сонгох шаардлагатай. Зорилгоос хамааран шугаман регресс, логистик регресс, шийдвэрийн мод, Naïve Bayes гэх мэт өөр өөр алгоритмуудыг сонгож болно. Дараа нь нэг буюу хэд хэдэн төлөөллийн маягтуудын сонирхлын хэв маягийг хайдаг. Эцэст нь загваруудыг урьдчилан таамаглах нарийвчлал эсвэл ойлгомжтой байдлаар үнэлдэг.

KDD болон Data mining хоёрын ялгаа юу вэ?

Хэдийгээр KDD болон Data Mining гэсэн хоёр нэр томъёо нь харилцан адилгүй хэрэглэгддэг боловч тэдгээр нь хоорондоо холбоотой боловч арай өөр ойлголтыг хэлдэг. KDD нь өгөгдлөөс мэдлэг гаргаж авах ерөнхий үйл явц бөгөөд Дата олборлолт нь KDD процессын доторх алхам бөгөөд өгөгдлийн хэв маягийг тодорхойлох явдал юм. Өөрөөр хэлбэл, Data Mining нь зөвхөн KDD үйл явцын ерөнхий зорилгод суурилсан тодорхой алгоритмын хэрэглээ юм.

Зөвлөмж болгож буй: