Deep Clustering Approaches for Carotid Artery Calcification Detection in Panoramic Radiographs for Enhancing Cardiovascular Risk Prediction
Date
2026-01-08
Authors
Nadeen Khaled Ibrahim Erekat
نادين خالد إبراهيم عريقات
Journal Title
Journal ISSN
Volume Title
Publisher
Al-Quds University
Abstract
Cardiovascular disease remains a leading cause of death worldwide, making early identification of vascular risk markers essential for prevention. Carotid artery calcifications can occasionally be visualized on panoramic dental radiographs, offering an opportunistic indicator of atherosclerotic burden during routine dental care. Yet, manual identification is challenged by inter-reader variability and the presence of anatomical mimics, and many published AI solutions rely on supervised learning that requires large, densely labeled datasets. This thesis investigates an alternative pathway by developing an unsupervised deep clustering framework for carotid region analysis on panoramic radiographs, and by integrating questionnaire-based risk factor modeling to support broader cardiovascular risk stratification.
This single-center retrospective cross-sectional observational study included 1,107 panoramic radiographs acquired between February 2025 and August 2025 during routine dental examinations at Abraj Dental Clinics affiliated with Al-Quds University, in collaboration with the Faculty of Dentistry. In addition, a cross-sectional questionnaire sub-study was prospectively administered to a subset of participants (n = 438) to capture cardiovascular risk profiles and support complementary non-imaging analyses. The imaging cohort comprised 48% males and 52% females, with an age range of 18–85 years and a mean age of approximately 40 years. Preprocessing consisted of contrast enhancement using Contrast Limited Adaptive Histogram Equalization (CLAHE) followed by extraction of bilateral carotid regions of interest (ROIs), resized to 128×128 pixels. To represent each ROI, a dual feature strategy was adopted. Interpretable handcrafted radiographic features were computed to quantify intensity distributions, texture patterns, and edge- and morphology-related cues potentially associated with calcification. In parallel, deep representations were learned using a convolutional autoencoder pretrained for 300 epochs with mean squared error loss and a low-dimensional latent space, producing compact feature vectors suitable for downstream clustering.
Four clustering methods were evaluated: K-Means, hierarchical clustering, Gaussian Mixture Models, and Deep Embedded Clustering (DEC). Clustering quality was assessed using internal validation metrics that do not require ground truth labels, including the Silhouette score, Davies–Bouldin index, and Calinski–Harabasz index. To connect unsupervised clustering outcomes to clinical relevance, the thesis adopted a patient-level validation strategy, where each patient contributed left and right ROI assignments. A high-risk validation subset of 21 patients was defined using confirmed cardiovascular disease history or documented carotid calcifications in clinical records. Patient-level accuracy was calculated based on the proportion of high-risk patients grouped into the dominant high-risk cluster. Model interpretability was further supported using GradCAM++ visualization to highlight salient ROI regions consistent with expected calcification-related patterns.
DEC achieved the strongest clustering performance across the internal metrics, with a Silhouette score of 0.214, a Davies–Bouldin index of 1.752, and a Calinski–Harabasz index of 524, indicating improved within-cluster cohesion and between-cluster separation relative to baseline methods. Patient-level validation also favored DEC, which achieved 95.2% accuracy in aggregating high-risk patients into a dominant cluster with fewer anomalous cases compared with K-Means, hierarchical clustering, and GMM.
To incorporate non-imaging determinants of cardiovascular risk, prospectively administered questionnaire data were analyzed for 438 participants (220 high risk, 218 low risk). Univariate association testing using chi-square statistics with Cramér’s V suggested notable associations with age, physical activity, sleep duration, sedentary time, dietary behaviors, selected health awareness indicators, and mental health measures such as relaxation difficulty and feelings of worthlessness. A Random Forest classifier trained on questionnaire features achieved high predictive performance (accuracy = 0.9318, ROC AUC = 0.9821, F1 = 0.9291), and feature importance analysis highlighted socioeconomic factors and psychological distress-related variables among influential predictors alongside age and lifestyle behaviors.
In conclusion, this thesis demonstrates that unsupervised deep clustering of anatomically defined carotid ROIs on panoramic radiographs can yield coherent groupings aligned with clinically defined high-risk status, while offering an interpretable and label-efficient screening support pathway. Combining imaging-based signals with questionnaire-derived risk factors may further strengthen cardiovascular risk stratification and support targeted referral for confirmatory vascular assessment. Future work should incorporate gold-standard vascular confirmation, multi-site external validation, and longitudinal outcome linkage to establish clinical reliability and generalizability.
تُعد أمراض القلب والأوعية الدموية من أهم أسباب الوفاة عالميًا، ويظل الاكتشاف المبكر للخطورة الوعائية وتوجيه الإحالة الوقائية تحدّيًا في كثير من الأنظمة الصحية. من المؤشرات التي اكتسبت اهتمامًا سريريًا متزايدًا تكلسات الشريان السباتي التي قد تظهر عرضيًا في صور الأشعة البانورامية للأسنان، حيث يمكن أن تعكس عبئًا تصلبيًا يرتبط بخطر أعلى لأحداث قلبية ودماغية مستقبلية. إلا أن رصد هذه التكلسات يدويًا يعتمد على خبرة الفاحص وقد يتأثر بمقلدات تشريحية شائعة، كما أن كثيرًا من حلول الذكاء الاصطناعي المنشورة تعتمد على التعلم المُراقب وتتطلب بيانات موسومة بكثافة، وهو ما قد يحد من التعميم والتطبيق العملي. تهدف هذه الرسالة إلى تطوير إطار غير مُراقب قائم على التجميع العميق لتحليل مناطق الشريان السباتي في الصور البانورامية، مع توسيع منظور “تصنيف الخطورة” عبر تحليل عوامل الخطورة المستندة إلى الاستبيانات. تُعد هذه الدراسة (single-center retrospective cross-sectional observational) وقد اعتمدت على قاعدة بيانات مكونة من 1107 صورة بانورامية لمرضى خضعوا لفحوصات سنية روتينية في عيادات الأبراج السنية التابعة لجامعة القدس، وبالتعاون مع كلية طب الأسنان، وذلك خلال الفترة بين February 2025 وAugust 2025 كما أُجريت دراسة فرعية استبيانية مقطعية مستعرضة بشكل Prospectively على عينة فرعية (n=438) لاستقصاء عوامل الخطورة القلبية الوعائية ودعم التحليلات غير التصويرية. شملت العينة التصويرية 48% ذكور و52% إناث، بمدى عمري من 18 إلى 85 سنة ومتوسط يقارب 40 سنة. تضمن خط المعالجة تحسين التباين باستخدام تقنية CLAHE، ثم استخراج منطقتين للاهتمام لكل مريض تمثلان منطقتي الشريان السباتي الأيسر والأيمن اعتمادًا على مواضع معيارية متسقة، مع توحيد الأبعاد إلى 128×128 بكسل لتقليل التباين الحسابي بين الصور. في تمثيل السمات، استخدمت الرسالة مقاربة مزدوجة تجمع بين السمات القابلة للتفسير والسمات العميقة. تم احتساب سمات يدوية لوصف توزيع الشدة، الملمس، الحواف، وبعض المؤشرات الشكلية المرتبطة باحتمال التكلس، ثم تمت معايرتها باستخدام Robust Scaler للتقليل من تأثير القيم الشاذة. بالتوازي، تم تدريب مُشفّر تلقائي التفافي لاستخراج تمثيل كامن منخفض الأبعاد (تمثيل كامن منخفض الأبعاد) بعد تدريب مسبق لمدة 300 حقبة باستخدام دالة خطأ متوسط مربع الخطأ، وذلك للحصول على تمثيل مضغوط يحافظ على البنية المرئية ذات الصلة داخل مناطق الاهتمام. بعد استخراج التمثيلات، تمت مقارنة أربع طرق للتجميع: K-Means ، التجميع الهرمي، نموذج الخلط الغاوسي (GMM)، وطريقة DEC (التجميع المضمّن العميق). تم تقييم جودة العناقيد باستخدام مؤشرات داخلية تشمل Silhouette وDavies–Bouldin وCalinski–Harabasz . ولربط النتائج بسياق سريري، تم اعتماد تحقق على مستوى المريض (يسار/يمين) بدلًا من مستوى القصاصة المفردة، مع استخدام مجموعة تحقق عالية الخطورة مكونة من 21 مريضًا مُعرّفين اعتمادًا على تاريخ قلبي وعائي مؤكد أو تكلسات موثقة في السجلات السريرية، ثم حُسبت الدقة بحسب قدرة الطريقة على تجميع غالبية هؤلاء المرضى ضمن العنقود السائد عالي الخطورة. كما استُخدمت GradCAM++ لدعم قابلية التفسير بصريًا وإبراز مناطق التركيز ضمن ROI. أظهرت النتائج تفوق DEC على الطرق الأخرى، محققة أفضل مؤشرات داخلية ( Silhouette=0.214، Davies–Bouldin=1.752، Calinski–Harabasz=524)، ما يدل على عناقيد أكثر تماسكًا وانفصالًا أفضل. وعلى مستوى التحقق السريري بالمريض، حققت DEC دقة 95.2% في تجميع حالات الخطورة العالية ضمن عنقود رئيسي مع عدد أقل من الحالات الشاذة مقارنةً بالطرق التقليدية. ولتعزيز التنبؤ متعدد الأبعاد، حللت الدراسة بيانات استبيان لعوامل الخطورة لعدد 438 مشاركًا (220 عالية الخطورة و218 منخفضة). تم إجراء اختبارات كاي-تربيع مع Cramér’s V، وأظهرت النتائج ارتباطات ملحوظة مع العمر، النشاط البدني، ساعات النوم، وقت الجلوس، أنماط غذائية محددة، بعض مؤشرات الوعي الصحي، إضافة إلى مؤشرات نفسية مثل صعوبة الاسترخاء والشعور بانعدام القيمة. كما تم تدريب نموذج غابة عشوائية للتنبؤ بفئة الخطورة اعتمادًا على الاستبيان، وحقق أداء مرتفعًا ( Accuracy=0.9318، ROC-AUC=0.9821، F1=0.9291) ، مع بروز مؤشرات اجتماعية اقتصادية ومؤشرات ضيق نفسي ضمن السمات الأعلى تأثيرًا إلى جانب عوامل نمط الحياة والعمر. تخلص الرسالة إلى أن التجميع العميق غير المُراقب لمناطق الشريان السباتي في الصور البانورامية يمكن أن ينتج أنماطًا ذات معنى سريري، وأن دمجه مع عوامل الخطورة المستخرجة من الاستبيانات قد يدعم مسارًا عمليًا للتحري المبكر والإحالة الوقائية. وتوصي الأعمال المستقبلية بتأكيد النتائج بمرجع ذهبي وعائي مثل دوبلر السباتي أو التصوير الوعائي، وبالتحقق الخارجي متعدد المراكز وربط النتائج بمتابعة طولية للأحداث القلبية والدماغية لضمان الاعتمادية السريرية والتعميم.
تُعد أمراض القلب والأوعية الدموية من أهم أسباب الوفاة عالميًا، ويظل الاكتشاف المبكر للخطورة الوعائية وتوجيه الإحالة الوقائية تحدّيًا في كثير من الأنظمة الصحية. من المؤشرات التي اكتسبت اهتمامًا سريريًا متزايدًا تكلسات الشريان السباتي التي قد تظهر عرضيًا في صور الأشعة البانورامية للأسنان، حيث يمكن أن تعكس عبئًا تصلبيًا يرتبط بخطر أعلى لأحداث قلبية ودماغية مستقبلية. إلا أن رصد هذه التكلسات يدويًا يعتمد على خبرة الفاحص وقد يتأثر بمقلدات تشريحية شائعة، كما أن كثيرًا من حلول الذكاء الاصطناعي المنشورة تعتمد على التعلم المُراقب وتتطلب بيانات موسومة بكثافة، وهو ما قد يحد من التعميم والتطبيق العملي. تهدف هذه الرسالة إلى تطوير إطار غير مُراقب قائم على التجميع العميق لتحليل مناطق الشريان السباتي في الصور البانورامية، مع توسيع منظور “تصنيف الخطورة” عبر تحليل عوامل الخطورة المستندة إلى الاستبيانات. تُعد هذه الدراسة (single-center retrospective cross-sectional observational) وقد اعتمدت على قاعدة بيانات مكونة من 1107 صورة بانورامية لمرضى خضعوا لفحوصات سنية روتينية في عيادات الأبراج السنية التابعة لجامعة القدس، وبالتعاون مع كلية طب الأسنان، وذلك خلال الفترة بين February 2025 وAugust 2025 كما أُجريت دراسة فرعية استبيانية مقطعية مستعرضة بشكل Prospectively على عينة فرعية (n=438) لاستقصاء عوامل الخطورة القلبية الوعائية ودعم التحليلات غير التصويرية. شملت العينة التصويرية 48% ذكور و52% إناث، بمدى عمري من 18 إلى 85 سنة ومتوسط يقارب 40 سنة. تضمن خط المعالجة تحسين التباين باستخدام تقنية CLAHE، ثم استخراج منطقتين للاهتمام لكل مريض تمثلان منطقتي الشريان السباتي الأيسر والأيمن اعتمادًا على مواضع معيارية متسقة، مع توحيد الأبعاد إلى 128×128 بكسل لتقليل التباين الحسابي بين الصور. في تمثيل السمات، استخدمت الرسالة مقاربة مزدوجة تجمع بين السمات القابلة للتفسير والسمات العميقة. تم احتساب سمات يدوية لوصف توزيع الشدة، الملمس، الحواف، وبعض المؤشرات الشكلية المرتبطة باحتمال التكلس، ثم تمت معايرتها باستخدام Robust Scaler للتقليل من تأثير القيم الشاذة. بالتوازي، تم تدريب مُشفّر تلقائي التفافي لاستخراج تمثيل كامن منخفض الأبعاد (تمثيل كامن منخفض الأبعاد) بعد تدريب مسبق لمدة 300 حقبة باستخدام دالة خطأ متوسط مربع الخطأ، وذلك للحصول على تمثيل مضغوط يحافظ على البنية المرئية ذات الصلة داخل مناطق الاهتمام. بعد استخراج التمثيلات، تمت مقارنة أربع طرق للتجميع: K-Means ، التجميع الهرمي، نموذج الخلط الغاوسي (GMM)، وطريقة DEC (التجميع المضمّن العميق). تم تقييم جودة العناقيد باستخدام مؤشرات داخلية تشمل Silhouette وDavies–Bouldin وCalinski–Harabasz . ولربط النتائج بسياق سريري، تم اعتماد تحقق على مستوى المريض (يسار/يمين) بدلًا من مستوى القصاصة المفردة، مع استخدام مجموعة تحقق عالية الخطورة مكونة من 21 مريضًا مُعرّفين اعتمادًا على تاريخ قلبي وعائي مؤكد أو تكلسات موثقة في السجلات السريرية، ثم حُسبت الدقة بحسب قدرة الطريقة على تجميع غالبية هؤلاء المرضى ضمن العنقود السائد عالي الخطورة. كما استُخدمت GradCAM++ لدعم قابلية التفسير بصريًا وإبراز مناطق التركيز ضمن ROI. أظهرت النتائج تفوق DEC على الطرق الأخرى، محققة أفضل مؤشرات داخلية ( Silhouette=0.214، Davies–Bouldin=1.752، Calinski–Harabasz=524)، ما يدل على عناقيد أكثر تماسكًا وانفصالًا أفضل. وعلى مستوى التحقق السريري بالمريض، حققت DEC دقة 95.2% في تجميع حالات الخطورة العالية ضمن عنقود رئيسي مع عدد أقل من الحالات الشاذة مقارنةً بالطرق التقليدية. ولتعزيز التنبؤ متعدد الأبعاد، حللت الدراسة بيانات استبيان لعوامل الخطورة لعدد 438 مشاركًا (220 عالية الخطورة و218 منخفضة). تم إجراء اختبارات كاي-تربيع مع Cramér’s V، وأظهرت النتائج ارتباطات ملحوظة مع العمر، النشاط البدني، ساعات النوم، وقت الجلوس، أنماط غذائية محددة، بعض مؤشرات الوعي الصحي، إضافة إلى مؤشرات نفسية مثل صعوبة الاسترخاء والشعور بانعدام القيمة. كما تم تدريب نموذج غابة عشوائية للتنبؤ بفئة الخطورة اعتمادًا على الاستبيان، وحقق أداء مرتفعًا ( Accuracy=0.9318، ROC-AUC=0.9821، F1=0.9291) ، مع بروز مؤشرات اجتماعية اقتصادية ومؤشرات ضيق نفسي ضمن السمات الأعلى تأثيرًا إلى جانب عوامل نمط الحياة والعمر. تخلص الرسالة إلى أن التجميع العميق غير المُراقب لمناطق الشريان السباتي في الصور البانورامية يمكن أن ينتج أنماطًا ذات معنى سريري، وأن دمجه مع عوامل الخطورة المستخرجة من الاستبيانات قد يدعم مسارًا عمليًا للتحري المبكر والإحالة الوقائية. وتوصي الأعمال المستقبلية بتأكيد النتائج بمرجع ذهبي وعائي مثل دوبلر السباتي أو التصوير الوعائي، وبالتحقق الخارجي متعدد المراكز وربط النتائج بمتابعة طولية للأحداث القلبية والدماغية لضمان الاعتمادية السريرية والتعميم.