डेटा खनन मध्ये वर्गीकरण

वर्गीकरण हे एक डेटा खाण तंत्र आहे जे अधिक अचूक पूर्वानुमाने आणि विश्लेषणात मदत करण्यासाठी डेटा संकलनाची श्रेणी प्रदान करते. याला कधीकधी ' डेझिशन ट्री ' असेही म्हणतात, वर्गीकरण खूप मोठ्या डेटासेटचे विश्लेषण प्रभावी करण्यासाठी वापरण्याच्या अनेक पद्धतींपैकी एक आहे.

वर्गीकरण का?

आजच्या जगात "मोठ्या प्रमाणातील डेटा" मध्ये खूप मोठे डाटाबेस सर्वसामान्य होत आहेत. डेटाची एकापेक्षा जास्त टेराबाईट्स असलेल्या डेटाबेसची कल्पना करा - एक टेराबाईट डेटा एक ट्रिलियन बाइट्स आहे.

फक्त फेसबुक प्रत्येक दिवसात 600 टेराबाईट्स प्रत्येक दिवस क्रश करतो (2014 प्रमाणे, गेल्या वेळी ही चष्मा नोंदवली) मोठे डेटाचा प्राथमिक आव्हान म्हणजे त्याचा अर्थ कसा लावावा.

आणि निखालस व्हॉल्यूम ही एकमेव समस्या नाही: मोठे डेटा देखील विविध, असंघटित आणि वेगाने बदलणारे आहे. ऑडिओ आणि व्हिडिओ डेटा, सोशल मीडिया पोस्ट, 3 डी डेटा किंवा भूस्थानिक डेटा विचार करा या प्रकारची माहिती सहजपणे वर्गीकृत किंवा संघटित केली जात नाही.

या आव्हानाला सामोरे जाण्यासाठी उपयुक्त माहिती काढण्यासाठी अनेक पद्धती विकसित केल्या गेल्या आहेत.

वर्गीकरण कसे कार्य करते?

टेक-स्काईंगमध्ये खूप दूर जाण्याच्या धोक्यामध्ये, वर्गीकरण कसे कार्य करते यावर चर्चा करूया. वर्गीकरण नियमांचा एक समूह तयार करणे हे आहे जे एक प्रश्नाचे उत्तर देतील, निर्णय घेतील किंवा वागण्याचा अंदाज लावेल. प्रारंभ करण्यासाठी, प्रशिक्षण डेटाचा एक संच विकसित केला आहे ज्यामध्ये विशिष्ट वैशिष्ट्यांचा तसेच संभाव्य परिणामाचा समावेश आहे.

वर्गीकरण अल्गोरिदमची कार्ये हे कसे शोधते आहे की गुणधर्मांचा संच या निष्कर्षापर्यंत पोहोचतो

दृश्य: कदाचित क्रेडिट कार्ड कंपनी क्रेडिट कार्डाच्या कोणत्या ऑफरला प्राप्त करावी हे निश्चित करण्याचा प्रयत्न करत आहे.

हे प्रशिक्षण डेटाचा संच असू शकतो:

प्रशिक्षण डेटा
नाव वय लिंग वार्षिक उत्पन्न क्रेडिट कार्ड ऑफर
जॉन डो 25 एम $ 39,500 नाही
जेन डो 56 F $ 125,000 होय

वय , लिंग आणि वार्षिक उत्पन्नाने "प्रीडिक्टर ऍट्रीब्यूबिट" क्रेडिट कार्ड ऑफरचे मूल्य ठरविणारा "प्रेक्षक" स्तंभ. प्रशिक्षणाच्या सेटमध्ये, प्रोटोक्टरचे गुणधर्म ओळखले जाते. नंतर वर्गीकरण अल्गोरिदम हे ठरविण्याचा प्रयत्न करते की भविष्यकथन गुणधर्मचे मूल्य कसे गाठले गेले: कोणत्या गोष्टी प्रेक्षक आणि निर्णय दरम्यान अस्तित्वात आहेत? हे पूर्वानुमान नियमांचा संच विकसित करेल, सामान्यतः IF / THEN स्टेटमेंट, उदाहरणार्थ:

IF (वय> 18 किंवा वय <75) आणि वार्षिक उत्पन्न> 40,000 THEN क्रेडिट कार्ड ऑफर = होय

अर्थात हे एक सोपे उदाहरण आहे आणि येथे दाखवलेल्या दोन रेकॉर्डपेक्षा अल्गोरिदमला मोठ्या प्रमाणात डेटा नमूनाची आवश्यकता आहे. पुढे, अंदाज नियमांपेक्षा जास्त गुंतागुंतीच्या असतात, विशेष गुणविशेष प्राप्त करण्याच्या उप-नियमांसह.

पुढे, अल्गोरिदमला विश्लेषित करण्यासाठी डेटाचा "अंदाज संच" दिला जातो, परंतु या संचामध्ये पूर्वानुमान विशेषता (किंवा निर्णय) नसतो:

प्रख्यात डेटा
नाव वय लिंग वार्षिक उत्पन्न क्रेडिट कार्ड ऑफर
जॅक फ्रॉस्ट 42 एम $ 88,000
मेरी मरे 16 F $ 0

हा अंदाजणारा अंदाज वर्तनाविषयीच्या नियमांची अचूकता वाढविण्यात मदत करतो आणि विकासकाला अंदाजापेक्षा प्रभावी आणि उपयुक्त समजत असेपर्यंत नियम टवे केले जातात.

वर्गवारीचे वर्गीकरण उदा

वर्गीकरण, आणि इतर डेटा खाण तंत्र, ग्राहकांना म्हणून आमच्या दैनंदिन अनुभव जास्त मागे आहे

हवामान अंदाज पावसाळी, सनी किंवा ढगाळ असेल की नाही याची तक्रार करण्यासाठी वर्गीकरणाचा वापर करू शकतात. वैद्यकीय व्यवसाय वैद्यकीय निष्कर्षांचा अंदाज लावण्यासाठी आरोग्य स्थितींचे विश्लेषण करू शकतात. एक प्रकारचा वर्गीकरण पद्धत, साधा बेयसियन स्पॅम ईमेल श्रेणीबद्ध करण्यासाठी सशर्त संभाव्यता वापरते. उत्पादन ऑफरसाठी फसवणुकीच्या शोधावरून, वर्गीकरण डेटाचे विश्लेषण आणि अंदाज तयार करणार्या प्रत्येक दिवसांच्या मागे आहे.