اعتبار خوشه ­بندي،پایان نامه درباره تحليل رفتار مشتريان

 • معيارهاي اعتبار خوشه­بندي

از آن­جا که خوشه­بندي داده­ها فرآيندي بدون نظارت است و کاربر در اين فرآيند دخالت نمي­کند، تعداد طبقات از پيش تعيين شده يا مثال­هايي وجود ندارد که نشان دهد نتايج بدست آمده از اعتبار برخوردار مي­باشند يا نه. بنابراين بايد از معيارهايي استفاده نمود که اعتبار مدل و خوشه­بندي را ارزيابي مي­کنند. همان گونه که قبلاً نيز اشاره شد، اين معيارها به سه دسته تقسيم مي­شوند (Halkidi, Batistakis, & Vazirgiannis, 2002):

 1. معيارهاي بيروني
 2. معيارهاي دروني
 3. معيارهاي نسبي

در شکل 2-7 انواع روش­هاي محاسبه اين معيارها نام برده شد. در زير به معرفي برخي از اين معيارها خواهيم پرداخت.

 • شاخص ديويس- بولدين[1] (DB) به تعداد خوشه­ها و الگوريتم­هاي خوشه­بندي وابستگي ندارد (Davies & Bouldin, 1979). مقدار اين شاخص هر چه قدر کمتر باشد خوشه­بندي بهتر است.
 • شاخص دان بوسيله (Dunn, 1974) طراحي شد و هدف آن مشخص کردن خوشه­هاي فشرده و مجزا[2] مي­باشد. هر چه مقدار شاخص دان بيشتر باشد خوشه­بندي بهتر است و اعضاي خوشه­ها فشرده­تر و خوشه­ها مجزاتر خواهند بود. تعداد خوشه­هايي که متناظر با حداکثر شاخص دان است به عنوان تعداد خوشه­هاي بهينه­اي خواهد بود که برازنده مجموعه داده­هاست(مومنی, 1390).
 • شاخص گودمن- کروسکال[3] (GK) در سال 1954 ارائه شد. در اين شاخص همه چهارتايي­هاي ممکن (q,r,s,t) را در نظر مي­گيرد. اگر d(x,y) را فاصله بين دو شي X و Y در نظر بگيريم، يک چهارگانه را همنوا[4] مي­گوييم اگر يکي از دو شرط زير را داشته باشد:
 1. d(q.r) < d(s,t)، که q و r در خوشه­هاي يکسان و s و r در خوشه­هاي متفاوتي باشند.
 2. d(s,t) > d(q.r)، که q و r در خوشه­هاي متفاوت و s و r در خوشه­هاي يکساني باشند.

ولي اگر يکي از دو شرط زير را داشته باشند نا همنوا ناميده مي­شوند:

 1. d(q.r) < d(s,t)، که q و r در خوشه­هاي متفاوت و s و r در خوشه­هاي يکساني باشند.
 2. d(s,t) > d(q.r)، که q و r در خوشه­هاي يکسان و s و r در خوشه­هاي متفاوتي باشند.

خوشه­بندي خوب، خوشه­بندي است که تعداد همنواهاي آن زياد و ناهمنواهاي آن کم باشد (مومنی, 1390). هر چه مقدار GK بيشتر باشد خوشه­بندي بهتر است.

 • شاخص انزوا[5] هر چه بيشتر باشد خوشه­بندي بهتر است.
 • شاخص جاکارد[6] هر چه به يک نزديک­تر باشد (بيشتر باشد) خوشه­بندي بهتر است.
 • شاخص دقت[7] هر چه بيشتر باشد خوشه­بندي بهتر است.
 • شاخص راند[8] هر چه به يک نزديک­تر باشد (بيشتر باشد) خوشه­بندي بهتر است.

 

[1] Davies-Bouldin index

[2] compact and well separated

[3] Goodman- Kruskal index

[4] concordant

[5] Isolation Index

[6] Jaccard Index

[7] ClassAccuracy

[8] Rand Index