A Comparative Investigation of K-means and Partition Around Medoid Methods of Clustering - a Case Study with Acute Lymphoblastic Leukemia Data

Clustering methods are important tool in data mining. The main challenge of clustering is to select the suitable method to be used for a given data set and the estimation of the number of clusters in the data set, especially in case of the unsupervised data. In this paper, a comparison between two important partitioning clustering methods namely the K-means and the Partition Around Medoid (PAM) have been considered and a special index for each has been used to estimate number of clusters. Also different indices of internal validation and stability measures have been used to compare these two methods to evaluate their performance by using these indices. Internal validation and stability measures have been used to compare between K-means and PAM for B-cells and T-cells and it has been found that for B-cells the K-means performs better than PAM by Connectivity, Dunn, Silhouette, APN, ADM, FOM indexes and PAM perform better than K-means by AD index. For T-cells, PAM performs better than K-means by Connectivity index and K-means performs better than PAM by Dunn, Silhouette, APN, AD, ADM, FOM indices. Keywords: B-cells, T-cells, K-means, PAM, Calinski, Silhouette, Connectivity, Dunn, APN, AD, ADM, FOM. طرق التحلیل العنقودي مھمة جداً لفھم البیانات ، یعتبر أھم تحدي لاجراء التحلیل العنقودي ھو اختیار الطریقة المناسبة للتحلیل العنقودي وكذلك تقدیر عدد العناقید في البیانات خاصة في البیانات، الغیر مصنفة أصلاً وفي ھذا البحث قام الباحثان بالمقارنة بین أحد أھم الطرق لتقسیم البیانات وھما طریقة التحلیل العنقودي المجمعة حول الوسط وطریقة التحلیل العنقودي المجمعة حول الوسیط، وتم استخدام مؤشرات قیاسیة لكل طریقة للتنبؤ بعدد العناقید في كل طریقة وأیضأ تم استخدام عدة مؤشرات لقیاس التحقق الداخلي والثبات في كل طریقة لتقییم النتائج في كل منھما وكذلك لاختبار كفاءة كل مؤشر من المؤشرات. كما تم فحص الاستقرار الداخلي لكل طریقة ومن خلال ھذا الفحص تبین أن طریقة التحلیل العنقودي المجمعة حول الوسط كانت أكفأ باستخدام المعاییر بینما كانت طریقة التحلیل العنقودي المجمعة حول الوسیط أكفأ باستخدام معیار (Connectivity, Dunn, Silhouette, APN, ADM, FOM) (AD)، عند التطبیق على خلایا بي. بینما طریقة التحلیل العنقودي المجمعة حول الوسط كانت أكفأباستخدام المعاییر العنقودي التحلیل طریقة بینما (Dunn, Silhouette, APN, AD, ADM, FOM) المجمعة حول الوسیط كانت أكفأ باستخدام معیار(Connectivity) عند التطبیق على خلایا تي.