Өгөгдлийн олборлолт ба мэдээллийн агуулах хоёрын ялгаа

Өгөгдлийн олборлолт ба мэдээллийн агуулах хоёрын ялгаа
Өгөгдлийн олборлолт ба мэдээллийн агуулах хоёрын ялгаа

Видео: Өгөгдлийн олборлолт ба мэдээллийн агуулах хоёрын ялгаа

Видео: Өгөгдлийн олборлолт ба мэдээллийн агуулах хоёрын ялгаа
Видео: VPS | [Хиймэл оюуны шинжлэх ухаан] 2024, Долдугаар сарын
Anonim

Data mining vs Data Warehousing

Өгөгдлийн олборлолт ба мэдээллийн агуулах нь өгөгдөлд дүн шинжилгээ хийх маш хүчирхэг бөгөөд түгээмэл арга юм. Статистик мэдээлэлд дуртай хэрэглэгчид Data Mining ашигладаг. Тэд өгөгдлийн далд хэв маягийг хайхын тулд статистикийн загваруудыг ашигладаг. Өгөгдөл олборлогчид өөр өөр өгөгдлийн элементүүдийн хооронд ашигтай харилцааг олох сонирхолтой байдаг бөгөөд энэ нь эцэстээ бизнесүүдэд ашигтай байдаг. Харин нөгөө талаас бизнесийн хэмжигдэхүүнд шууд дүн шинжилгээ хийж чаддаг өгөгдлийн мэргэжилтнүүд өгөгдлийн агуулахыг ашиглах хандлагатай байдаг.

Өгөгдлийн олборлолтыг өгөгдөлд мэдлэг олж илрүүлэх (KDD) гэж бас нэрлэдэг. Дээр дурьдсанчлан, энэ нь урьд өмнө мэдэгдээгүй, сонирхолтой мэдээллийг түүхий мэдээллээс гаргаж авдаг компьютерийн шинжлэх ухааны салбар юм. Өгөгдлийн экспоненциал өсөлтийн улмаас, ялангуяа бизнес гэх мэт салбарт өгөгдөл олборлох нь сүүлийн хэдэн арван жилд хэв маягийг гараар задлах боломжгүй мэт санагдах болсон тул энэ их хэмжээний өгөгдлийг бизнесийн оюун ухаанд хөрвүүлэх маш чухал хэрэгсэл болсон. Жишээлбэл, энэ нь одоогоор нийгмийн сүлжээний шинжилгээ, залилан илрүүлэх, маркетинг гэх мэт янз бүрийн програмуудад ашиглагдаж байна. Өгөгдлийн олборлолт нь ихэвчлэн кластер, ангилал, регресс, холбоо гэсэн дөрвөн ажлыг гүйцэтгэдэг. Бүтэцгүй өгөгдлөөс ижил төстэй бүлгүүдийг тодорхойлохыг кластер гэдэг. Ангилал гэдэг нь шинэ өгөгдөлд хэрэглэж болох сургалтын дүрэм бөгөөд ихэвчлэн дараах алхмуудыг багтаана: өгөгдлийг урьдчилан боловсруулах, загварчлах, суралцах/онцлогын сонголт, үнэлгээ/баталгаажуулалт. Регресс нь өгөгдлийг загварчлахад хамгийн бага алдаатай функцүүдийг олох явдал юм. Мөн ассоциаци нь хувьсагчдын хоорондын хамаарлыг хайж байдаг. Дата олборлолтыг ихэвчлэн Wal-Mart-аас ирэх жил өндөр ашиг олоход туслах гол бүтээгдэхүүн юу вэ? гэх мэт асуултуудад хариулахад ашигладаг.

Дээр дурьдсанчлан өгөгдлийн агуулахыг өгөгдөлд дүн шинжилгээ хийхэд ашигладаг, гэхдээ өөр өөр хэрэглэгчдийн багц, арай өөр зорилготой. Жишээлбэл, жижиглэн худалдааны салбарын тухайд Дата агуулахын хэрэглэгчид үйлчлүүлэгчдийн дунд ямар төрлийн худалдан авалт түгээмэл байдаг талаар илүү их санаа зовдог тул шинжилгээний үр дүн нь хэрэглэгчийн туршлагыг сайжруулах замаар үйлчлүүлэгчдэд туслах болно. Гэхдээ өгөгдөл олборлогчид эхлээд ямар хэрэглэгчид тодорхой төрлийн бүтээгдэхүүнийг худалдаж авдаг гэх мэт таамаглал дэвшүүлж, таамаглалыг шалгахын тулд өгөгдөлд дүн шинжилгээ хийдэг. Мэдээллийн агуулахыг Нью-Йоркийн дэлгүүрүүд Чикагогийн дэлгүүрүүдээс хамаагүй хурдан борлуулдаг болохыг олж мэдэхийн тулд дэлгүүрүүдээ ижил хэмжээтэй бүтээгдэхүүнээр хадгалдаг томоохон жижиглэнгийн худалдаачид хийж болно. Тиймээс, энэ үр дүнг харснаар жижиглэнгийн худалдаачин Нью-Йоркийн дэлгүүрийг Чикагогийн дэлгүүрүүдтэй харьцуулахад жижиг хэмжээтэй байх боломжтой.

Тиймээс, таны харж байгаагаар эдгээр хоёр төрлийн шинжилгээ нь энгийн нүдээр харахад ижил шинж чанартай юм шиг санагддаг. Аль аль нь түүхэн өгөгдөл дээр үндэслэн ашгаа нэмэгдүүлэх талаар санаа зовж байна. Гэхдээ мэдээж гол ялгаанууд бий. Энгийнээр хэлбэл, Data Mining болон Data Warehousing нь янз бүрийн төрлийн аналитикийг хангахад зориулагдсан боловч өөр өөр төрлийн хэрэглэгчдэд зориулагдсан. Өөрөөр хэлбэл, Data Mining нь статистикийн таамаглалыг дэмжих корреляц, загваруудыг эрэлхийлдэг. Гэхдээ Өгөгдлийн агуулах нь харьцангуй өргөн асуултанд хариулдаг бөгөөд цаашид сайжруулах арга замыг танихын тулд тэндээс өгөгдлийг хэрчиж, жижиглэн үздэг.

Зөвлөмж болгож буй: