Ierarxik va qismli klasterlash
Klasterlash - bu ma'lumotlarni tahlil qilish va o'xshash ma'lumotlar guruhlariga bo'lish uchun mashinani o'rganish usuli. Ushbu guruhlar yoki o'xshash ma'lumotlar to'plami klasterlar deb nomlanadi. Klaster tahlili klasterlarni avtomatik ravishda aniqlay oladigan klasterlash algoritmlarini ko'rib chiqadi. Ierarxik va qismli - bu klasterlash algoritmlarining ikkita sinfidir. Ierarxik klasterlash algoritmlari ma'lumotlarni klasterlar ierarxiyasiga ajratadi. Paritional algoritmlar maʼlumotlar toʻplamini oʻzaro ajratilgan boʻlimlarga ajratadi.
Ierarxik klasterlash nima?
Ierarxik klasterlash algoritmlari kichikroq klasterlarni kattaroqlariga birlashtirish yoki kattaroq klasterlarni kichikroqlarga bo'lish siklini takrorlaydi. Qanday bo'lmasin, u dendogramma deb ataladigan klasterlar ierarxiyasini hosil qiladi. Aglomerativ klasterlash strategiyasi klasterlarni kattaroqlariga birlashtirishning pastdan yuqoriga yondashuvidan foydalanadi, bo'linuvchi klasterlash strategiyasi esa kichikroqlarga bo'linishning yuqoridan pastga yondashuvidan foydalanadi. Odatda, qaysi katta/kichik klasterlarni birlashtirish/bo'lish uchun ishlatilishini hal qilishda ochko'z yondashuv qo'llaniladi. Evklid masofasi, Manxetten masofasi va kosinus o'xshashligi raqamli ma'lumotlar uchun eng ko'p ishlatiladigan o'xshashlik ko'rsatkichlaridan biridir. Raqamli bo'lmagan ma'lumotlar uchun Hamming masofasi kabi ko'rsatkichlar qo'llaniladi. Shuni ta'kidlash kerakki, ierarxik klasterlash uchun haqiqiy kuzatuvlar (nasollar) kerak emas, chunki faqat masofalar matritsasi etarli. Dendogramma - bu ierarxiyani juda aniq ko'rsatadigan klasterlarning vizual tasviri. Foydalanuvchi dendogrammaning kesish darajasiga qarab turli xil klasterlarni olishi mumkin.
Qismli klasterlash nima?
Bo'limli klasterlash algoritmlari turli bo'limlarni yaratadi va keyin ularni qandaydir mezon bo'yicha baholaydi. Ular, shuningdek, ierarxik bo'lmagan deb ham ataladi, chunki har bir misol bir-birini istisno qiluvchi k klasterdan biriga joylashtirilgan. Klasterlarning faqat bitta to'plami odatiy bo'linuvchi klasterlash algoritmining chiqishi bo'lganligi sababli, foydalanuvchidan kerakli miqdordagi klasterlarni kiritish talab qilinadi (odatda k deb ataladi). Ko'p qo'llaniladigan bo'limli klasterlash algoritmlaridan biri k-o'rtacha klasterlash algoritmidir. Ishni boshlashdan oldin foydalanuvchi klasterlar sonini (k) ko'rsatishi kerak va algoritm birinchi navbatda k bo'limlarning markazlarini (yoki markazlarini) boshlaydi. Xulosa qilib aytganda, k-klasterlash algoritmi so'ngra joriy markazlar asosida a'zolarni tayinlaydi va joriy a'zolar asosida markazlarni qayta baholaydi. Ushbu ikki bosqich ma'lum bir klaster ichidagi o'xshashlik maqsadi funktsiyasi va klasterlararo o'xshashlik maqsadi funksiyasi optimallashtirilgunga qadar takrorlanadi. Shuning uchun markazlarni oqilona ishga tushirish qismlarga bo'lingan klasterlash algoritmlaridan sifatli natijalar olishda juda muhim omil hisoblanadi.
Ierarxik va qismli klasterlashning farqi nimada?
Ierarxik va qismli klasterlash ish vaqti, taxminlar, kiritish parametrlari va natijaviy klasterlarda asosiy farqlarga ega. Odatda, qismli klasterlash ierarxik klasterga qaraganda tezroq. Ierarxik klasterlash faqat o'xshashlik o'lchovini talab qiladi, qisman klasterlash esa klasterlar soni va boshlang'ich markazlar kabi kuchliroq taxminlarni talab qiladi. Ierarxik klasterlash hech qanday kiritish parametrlarini talab qilmaydi, qismli klasterlash algoritmlari esa ishlay boshlash uchun klasterlar sonini talab qiladi. Ierarxik klasterlash klasterlarning ancha mazmunli va sub'ektiv bo'linishini qaytaradi, lekin qismli klasterlash aynan k klasterga olib keladi. Ierarxik klasterlash algoritmlari toifali ma'lumotlar uchun mos keladi, agar o'xshashlik o'lchovi mos ravishda aniqlanishi mumkin.