Data Mining vs OLAP
Өгөгдлийн олборлолт болон OLAP хоёулаа Бизнесийн тагнуулын (BI) нийтлэг технологиуд юм. Бизнесийн тагнуул гэдэг нь бизнесийн мэдээллээс хэрэгтэй мэдээллийг олж илрүүлэх, олж авах компьютерт суурилсан аргуудыг хэлдэг. Өгөгдөл олборлолт нь том хэмжээний өгөгдлөөс сонирхолтой хэв маягийг гаргаж авдаг компьютерийн шинжлэх ухааны салбар юм. Энэ нь хиймэл оюун ухаан, статистик, мэдээллийн сангийн менежмент зэрэг олон аргыг хослуулсан. Нэрнээс нь харахад OLAP (онлайн аналитик боловсруулалт) нь олон хэмжээст мэдээллийн сангаас лавлагаа авах арга замуудын эмхэтгэл юм.
Өгөгдлийн олборлолтыг өгөгдөлд мэдлэг олж илрүүлэх (KDD) гэж бас нэрлэдэг. Дээр дурьдсанчлан, энэ нь урьд өмнө мэдэгдээгүй, сонирхолтой мэдээллийг түүхий мэдээллээс гаргаж авдаг компьютерийн шинжлэх ухааны салбар юм. Өгөгдлийн экспоненциал өсөлтийн улмаас, ялангуяа бизнес гэх мэт салбарт өгөгдөл олборлох нь сүүлийн хэдэн арван жилд хэв маягийг гараар задлах боломжгүй мэт санагдах болсон тул энэ их хэмжээний өгөгдлийг бизнесийн оюун ухаанд хөрвүүлэх маш чухал хэрэгсэл болсон. Жишээлбэл, энэ нь одоогоор нийгмийн сүлжээний шинжилгээ, залилан илрүүлэх, маркетинг гэх мэт янз бүрийн програмуудад ашиглагдаж байна. Өгөгдлийн олборлолт нь ихэвчлэн кластер, ангилал, регресс, холбоо гэсэн дөрвөн ажлыг гүйцэтгэдэг. Бүтэцгүй өгөгдлөөс ижил төстэй бүлгүүдийг тодорхойлохыг кластер гэдэг. Ангилал гэдэг нь шинэ өгөгдөлд хэрэглэж болох сургалтын дүрэм бөгөөд ихэвчлэн дараах алхмуудыг багтаана: өгөгдлийг урьдчилан боловсруулах, загварчлах, суралцах/онцлогын сонголт, үнэлгээ/баталгаажуулалт. Регресс нь өгөгдлийг загварчлахад хамгийн бага алдаатай функцүүдийг олох явдал юм. Мөн ассоциаци нь хувьсагчдын хоорондын хамаарлыг хайж байдаг. Дата олборлолтыг ихэвчлэн Wal-Mart-аас ирэх жил өндөр ашиг олоход туслах гол бүтээгдэхүүнүүд юу вэ гэх мэт асуултуудад хариулахад ашигладаг.
OLAP нь олон хэмжээст асуултуудад хариулт өгдөг системүүдийн ангилал юм. Ихэвчлэн OLAP нь маркетинг, төсөв боловсруулах, урьдчилан таамаглах болон үүнтэй төстэй хэрэглээнд ашиглагддаг. OLAP-д ашигладаг мэдээллийн сангууд нь хурдан гүйцэтгэлийг харгалзан нарийн төвөгтэй, түр зуурын асуулгад зориулагдсан байдаг гэдгийг хэлэх нь зүйтэй. Ихэвчлэн матрицыг OLAP-ийн гаралтыг харуулахад ашигладаг. Мөр ба баганууд нь асуулгын хэмжээсээр үүсгэгддэг. Дүгнэлт гаргахын тулд тэд олон хүснэгтэд нэгтгэх аргыг ихэвчлэн ашигладаг. Жишээлбэл, өнгөрсөн жилтэй харьцуулахад Wal-Mart-ын энэ жилийн борлуулалтын талаар мэдэхэд ашиглаж болох уу? Ирэх улирлын борлуулалтын таамаглал юу вэ? Хувийн өөрчлөлтийг харвал чиг хандлагын талаар юу хэлэх вэ?
Хэдийгээр Data mining болон OLAP нь оюун ухаан олж авахын тулд өгөгдөл дээр ажилладаг учраас ижил төстэй байдаг нь ойлгомжтой боловч гол ялгаа нь өгөгдөл дээр хэрхэн ажилладагт байдаг. OLAP хэрэгслүүд нь олон хэмжээст өгөгдлийн дүн шинжилгээ хийх боломжийг олгодог бөгөөд тэдгээр нь өгөгдлийн хураангуйг өгдөг боловч ялгаатай нь өгөгдөл олборлолт нь өгөгдлийн багц дахь харьцаа, хэв маяг, нөлөөллийг анхаарч үздэг. Энэ нь "нэмэлт" -ээр дамжуулан өгөгдлийн ажиллагаатай холбоотой OLAP хэлцэл юм, гэхдээ өгөгдөл олборлолт нь "хуваалт"-тай тохирдог. Өөр нэг мэдэгдэхүйц ялгаа нь өгөгдөл олборлох хэрэгслүүд нь өгөгдлийг загварчилж, хэрэгжүүлэх боломжтой дүрмийг буцаадаг бол OLAP нь бодит цаг хугацаанд бизнесийн хэмжүүрээр харьцуулах, ялгах арга техникийг явуулах болно.