A Comparative Investigation of K-means and Partition Around Medoid Methods of Clustering - a Case Study with Acute Lymphoblastic Leukemia Data
A Comparative Investigation of K-means and Partition Around Medoid Methods of Clustering - a Case Study with Acute Lymphoblastic Leukemia Data
No Thumbnail Available
Date
2016-06-01
Authors
Almaghri ، Khaled
Chakraborty , S
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Clustering methods are important tool in data mining. The
main challenge of clustering is to select the suitable method to
be used for a given data set and the estimation of the number
of clusters in the data set, especially in case of the
unsupervised data. In this paper, a comparison between two
important partitioning clustering methods namely the K-means
and the Partition Around Medoid (PAM) have been
considered and a special index for each has been used to
estimate number of clusters. Also different indices of internal
validation and stability measures have been used to compare
these two methods to evaluate their performance by using
these indices.
Internal validation and stability measures have been used to
compare between K-means and PAM for B-cells and T-cells
and it has been found that for B-cells the K-means performs
better than PAM by Connectivity, Dunn, Silhouette, APN,
ADM, FOM indexes and PAM perform better than K-means
by AD index. For T-cells, PAM performs better than K-means
by Connectivity index and K-means performs better than
PAM by Dunn, Silhouette, APN, AD, ADM, FOM indices.
Keywords: B-cells, T-cells, K-means, PAM, Calinski,
Silhouette, Connectivity, Dunn, APN, AD, ADM, FOM.
طرق التحلیل العنقودي مھمة جداً لفھم البیانات ، یعتبر أھم تحدي لاجراء التحلیل
العنقودي ھو اختیار الطریقة المناسبة للتحلیل العنقودي وكذلك تقدیر عدد العناقید في
البیانات خاصة في البیانات، الغیر مصنفة أصلاً وفي ھذا البحث قام الباحثان بالمقارنة
بین أحد أھم الطرق لتقسیم البیانات وھما طریقة التحلیل العنقودي المجمعة حول الوسط
وطریقة التحلیل العنقودي المجمعة حول الوسیط، وتم استخدام مؤشرات قیاسیة لكل
طریقة للتنبؤ بعدد العناقید في كل طریقة وأیضأ تم استخدام عدة مؤشرات لقیاس التحقق
الداخلي والثبات في كل طریقة لتقییم النتائج في كل منھما وكذلك لاختبار كفاءة كل
مؤشر من المؤشرات.
كما تم فحص الاستقرار الداخلي لكل طریقة ومن خلال ھذا الفحص تبین أن طریقة
التحلیل العنقودي المجمعة حول الوسط كانت أكفأ باستخدام المعاییر
بینما كانت طریقة التحلیل العنقودي المجمعة حول الوسیط أكفأ باستخدام معیار (Connectivity, Dunn, Silhouette, APN, ADM, FOM) (AD)،
عند التطبیق على خلایا بي.
بینما طریقة التحلیل العنقودي المجمعة حول الوسط كانت أكفأباستخدام المعاییر
العنقودي التحلیل طریقة بینما (Dunn, Silhouette, APN, AD, ADM, FOM)
المجمعة حول الوسیط كانت أكفأ باستخدام معیار(Connectivity) عند التطبیق على
خلایا تي.