K- म्हणजे क्लस्टरिंग म्हणजे काय?

K- अर्थ अल्गोरिदम डेटा खाण

K- म्हणजे क्लस्टरिंग अल्गोरिदम म्हणजे एक डेटा खनन आणि मशीन शिकण्याचे साधन जे या संबंधांचे पूर्वीचे ज्ञान न घेता संबंधित निरिक्षणांच्या गटामध्ये निरीक्षणे क्लस्टर करण्यासाठी वापरले जाते. नमूना करून, अल्गोरिदम कोणत्या श्रेणीमध्ये दर्शविण्याचा प्रयत्न करतो, किंवा क्लस्टर, डेटा संबंधित आहे, ज्यास मूल्य k द्वारे परिभाषित केले जात आहे .

K- म्हणजे अल्गोरिदम सर्वात सोपी क्लस्टरिंग तंत्रांपैकी एक आहे आणि हे सामान्यतः मेडिकल इमेजिंग, बायोमेट्रिक्स आणि संबंधित फील्डमध्ये वापरले जाते. K- म्हणजे क्लस्टरिंगचा फायदा म्हणजे आपल्या डेटाविषयी (त्याच्या अनुचित स्वरूपाचा वापर करून) प्रारंभ करण्याच्या ऐवजी आपल्याला अल्गोरिदम (अॅल्गोरिदमच्या पर्यवेक्षी स्वरूपात) वापरून शिकविण्याऐवजी.

याला कधीकधी लॉयडचे अल्गोरिदम असे संबोधले जाते, विशेषतः संगणक विज्ञान मंडळे मध्ये कारण मानक अल्गोरिदम प्रथम 1 9 57 मध्ये स्टुअर्ट लॉयड यांनी प्रस्तावित केला होता. "के-अर्थ" हा शब्द 1 9 67 मध्ये जेम्स मॅक्क्वीन यांनी तयार केला होता.

के-अर्थ अल्गोरिदम कार्य कसे

K- म्हणजे अल्गोरिदम एक विकासक अल्गोरिदम आहे ज्याचे ऑपरेशनच्या त्याच्या पद्धतीवरून त्याचे नाव प्राप्त होते. ए गटांमधील अल्गोरिदम क्लस्टर निरीक्षणे, जेथे k हे इनपुट पॅरामीटर म्हणून प्रदान केले आहे. हे क्लस्टरच्या अचूकतेच्या आधारे क्लस्टरच्या प्रत्येक निरीक्षणास देतात. क्लस्टरचा अर्थ नंतर पुनमूचीत आहे आणि प्रक्रिया पुन्हा सुरू होते. अल्गोरिदम कसे कार्य करते ते येथे आहे:

  1. अल्गोरिदम स्वैरपणे प्रारंभिक क्लस्टर सेंटर्स (अर्थ) म्हणून के पॉइंटची निवड करतो.
  2. प्रत्येक बिंदु आणि प्रत्येक क्लस्टर सेंटर दरम्यान यूक्लिडियन अंतर यावर डेटासेटमधील प्रत्येक बिंदू बंद क्लस्टरला नियुक्त केला जातो.
  3. त्या क्लस्टरमधील गुणांची सरासरी म्हणून प्रत्येक क्लस्टर सेंटरचे पुनर्क्रमित केले जाते.
  4. क्लस्टर्समध्ये एकत्र होईपर्यंत चरण 2 आणि 3 पुन्हा करा अंमलबजावणीनुसार कन्व्हर्जन्स वेगळ्या प्रकारे परिभाषित केले जाऊ शकते, परंतु सामान्यतः याचा अर्थ असा की जेव्हा चरण 2 आणि 3 पुन्हा पुन्हा केले जातात तेव्हा कोणतेही निरीक्षण क्लस्टर बदलत नाहीत किंवा बदल क्लस्टरच्या परिभाषामध्ये भौतिक फरक करत नाहीत.

क्लस्टर्सची संख्या निवडणे

K- म्हणजे क्लस्टरिंग म्हणजे मुख्य नुकसान म्हणजे खर्या अर्थाने आपण अल्गोरिदमला इनपुट म्हणून क्लस्टरची संख्या निर्दिष्ट करणे आवश्यक आहे. डिझाइन केल्याप्रमाणे, अल्गोरिदम योग्य संख्या क्लस्टर तयार करण्यास सक्षम नाही आणि हे वापरकर्त्यांना आधीच ओळखण्यासाठी यावर अवलंबून आहे.

उदाहरणार्थ, जर आपण बायोगॅरीतील स्त्री-पुरुष संबंधांनुसार समाजातील असंख्य लोकांचे गट असत, तर k = अर्थ एल्गोरिद्म k-3 वापरुन k = 3 वापरतात तेव्हा लोकांना फक्त दोनच वेळी तीन क्लस्टर्समध्ये सक्ती करते. k = 2 चे इनपुट, अधिक नैसर्गिक तंदुरुस्त पुरवेल.

त्याचप्रमाणे जर एखाद्या व्यक्तीचा गट घरातील अवस्थाच्या आधारावर सहजपणे क्लस्टर झाला आणि आपण k = 20 ने इनपुट केल्व्हर अल्गोरिदम म्हटले तर त्याचे निष्कर्ष परिणामकारक होण्यास फारसामान्य होऊ शकतात.

या कारणास्तव, आपला डेटा अनुकूल असलेल्या मूल्याची ओळखण्यासाठी के विविध मूल्यांचे केव्हर्स वापरणे नेहमीच चांगली कल्पना असते. आपण मशीन-शिकलेल्या ज्ञानाच्या शोधात इतर डेटा खाण अल्गोरिदमचा वापर एक्सप्लोर करू शकता.