Identification of Potential Diagnostic and Prognostic Biomarkers for Triple Negative Breast Cancer (TNBC) Using Artificial Intelligence (AI)
Date
2024-11-16
Authors
Shahd Mustafa Yehya Alqawasmi
شهد مصطفى يحيى القواسمة
Journal Title
Journal ISSN
Volume Title
Publisher
Al-Quds University
Abstract
Abstract
Triple-negative breast cancer (TNBC) is one of the most aggressive forms of breast cancer, linked to the highest mortality rates. TNBC is characterized by the absence of estrogen, progesterone, and human epidermal growth factor receptors. An encouraging strategy involves assessing biomarkers to identify tumors and their specific features, facilitating more personalized treatment options. MicroRNAs (miRNAs) play a key role in gene expression by interacting with messenger RNAs. Some miRNAs may act as biomarkers for diagnosing and predicting the prognosis of TNBC. The main aim of the study is to analyze the miRNA expression levels and clinical data of TNBC patients obtained from the Gene Expression Omnibus (GEO) to detect biomarkers for triple negative breast cancer (TNBC) using machine learning (ML). The study objectives are addressing the use of AI and ML to identify potential diagnostic and prognostic Biomarkers for TNBC. In addition, the process of constructing a model begins with conducting a meta-analysis, followed by differential expression analysis (DEA), which uncovers statistically significant correlations among multi-gene signatures. This study also includes comparing the miRNA expression profiles between TNBC and normal tissues, also between TNBC and non-TNBC tissues. Ultimately, build a machine learning (ML) model using a hybrid feature selection method for the biomarker selection. The study involved two datasets that were merged, resulting in a combined dataset of 4577 miRNAs. The miRNAs were filtered using statistical tests. In the ML model-building stage, a combination of feature selection methods is employed to identify biomarker profiles that distinguish TNBC from normal tissue. This includes a wrapper method using recursive feature elimination (RFE), along with embedded methods using random forest (RF) and support vector machine (SVM). Our study revealed significant variations in miRNA expression between TNBC and normal tissues. In contrast, the expression of miRNAs did not differ significantly between TNBC and non-TNBC tissues. In addition, the study shows that employing Recursive Feature Elimination, SVM, and Random Forest as a hybrid feature selection algorithm for miRNA expression profiles or similar datasets with large number of features in comparing to the number of samples can effectively eliminate redundant features, identify biomarkers with diagnostic relevance, and maintain high classification accuracy. Finally, the study identified that miR-32-5p can be used as a potential biomarker for the diagnosis of TNBC, high expression of miR-32-5p is substantially related with increasing overall survival in TNBC patients.
يُعد سرطان الثدي الثلاثي السلبي(TNBC) واحدًا من أكثر أنواع السرطان العدوانية، ويرتبط بأعلى معدلات الوفيات. يتميز سرطان الثدي الثلاثي السلبي بعدم وجود مستقبلات الاستروجين والبروجستيرون و عامل النمو البشري. تلعب الجزيئات الصغيرة من الحمض النووي الريبي (MicroRNA) دورًا رئيسيًا في التعبير الجيني من خلال تفاعلها مع جزيئات الحمض النووي الريبي الرسول.MicroRNA قد تعمل كمؤشرات حيوية لتشخيص سرطان الثدي الثلاثي السلبي والتنبؤ بتوقعات المرض. الهدف الرئيسي من الدراسة هو تحليل التعبير الجيني لجين MicroRNA عن طريق استخلاص مستويات التعبيرالجيني والبيانات السريرية لمرضى سرطان الثدي الثلاثي السلبي من قاعدة بيانات التعبير الجيني(GEO) لاكتشاف المؤشرات الحيوية لهذا النوع من السرطان باستخدام تعلم الآلة. تشمل أهداف الدراسة استخدام الذكاء الاصطناعي وتعلم الآلة لتحديد المؤشرات الحيوية المحتملة للتشخيص والتنبؤ لسرطان الثدي الثلاثي السلبي. بالإضافة إلى ذلك، بناء نموذج بإجراء تحليل تلوي، يليه تحليل التعبير التفاضلي، الذي يكشف عن الارتباطات ذات الأهمية الإحصائية بين التوقيعات الجينية المتعددة. تتضمن هذه الدراسة أيضًا مقارنة ملفات التعبيرالجيني بين أنسجة سرطان الثدي الثلاثي السلبي والأنسجة الطبيعية، وكذلك بين أنسجة سرطان الثدي الثلاثي السلبي وأنسجة السرطان غير الثلاثي السلبي. في النهاية، تم بناء نموذج تعلم الآلة باستخدام طريقة اختيار ميزات مهجنة لاختيار المؤشرات الحيوية. شاركت الدراسة في دمج مجموعتين من البيانات، مما نتج عنه مجموعة بيانات مدمجة تحتوي على 4577 MicroRNA. في مرحلة بناء نموذج تعلم الآلة، تم استخدام مجموعة من طرق اختيار الميزات لتحديد التوقيعات الحيوية التي تميز سرطان الثدي الثلاثي السلبي عن الأنسجة الطبيعية. يشمل ذلك طريقة الالتفاف باستخدام الاستبعاد التكراري للميزات، جنبًا إلى جنب مع طرق مدمجة باستخدام الغابات العشوائية وآلة المتجه الداعم. كشفت دراستنا عن اختلافات كبيرة في التعبير الجيني بين أنسجة سرطان الثدي الثلاثي السلبي والأنسجة الطبيعية. في المقابل، لم يختلف التعبيرالجيني بشكل كبير بين أنسجة سرطان الثدي الثلاثي السلبي وأنسجة غير الثلاثي السلبي. علاوة على ذلك، تُظهر الدراسة أن استخدام الاستبعاد التكراري للميزات وآلة المتجه الداعم والغابات العشوائية كخوارزمية اختيار ميزات هجينة لملفات التعبيرأو مجموعات بيانات مماثلة تحتوي على عدد كبير من الميزات مقارنة بعدد العينات يمكن أن يزيل الميزات الزائدة بشكل فعال، ويحدد المؤشرات الحيوية ذات الصلة التشخيصية، ويحافظ على دقة تصنيف عالية. وأخيرًا، حددت الدراسة أن(miR-32-5P ) يمكن أن يُستخدم كمؤشر حيوي محتمل لتشخيص سرطان الثدي الثلاثي السلبي، وأن التعبير العالي له يرتبط ارتباطًا كبيرًا بزيادة البقاء على قيد الحياة بشكل عام لدى مرضى سرطان الثدي الثلاثي السلبي.
يُعد سرطان الثدي الثلاثي السلبي(TNBC) واحدًا من أكثر أنواع السرطان العدوانية، ويرتبط بأعلى معدلات الوفيات. يتميز سرطان الثدي الثلاثي السلبي بعدم وجود مستقبلات الاستروجين والبروجستيرون و عامل النمو البشري. تلعب الجزيئات الصغيرة من الحمض النووي الريبي (MicroRNA) دورًا رئيسيًا في التعبير الجيني من خلال تفاعلها مع جزيئات الحمض النووي الريبي الرسول.MicroRNA قد تعمل كمؤشرات حيوية لتشخيص سرطان الثدي الثلاثي السلبي والتنبؤ بتوقعات المرض. الهدف الرئيسي من الدراسة هو تحليل التعبير الجيني لجين MicroRNA عن طريق استخلاص مستويات التعبيرالجيني والبيانات السريرية لمرضى سرطان الثدي الثلاثي السلبي من قاعدة بيانات التعبير الجيني(GEO) لاكتشاف المؤشرات الحيوية لهذا النوع من السرطان باستخدام تعلم الآلة. تشمل أهداف الدراسة استخدام الذكاء الاصطناعي وتعلم الآلة لتحديد المؤشرات الحيوية المحتملة للتشخيص والتنبؤ لسرطان الثدي الثلاثي السلبي. بالإضافة إلى ذلك، بناء نموذج بإجراء تحليل تلوي، يليه تحليل التعبير التفاضلي، الذي يكشف عن الارتباطات ذات الأهمية الإحصائية بين التوقيعات الجينية المتعددة. تتضمن هذه الدراسة أيضًا مقارنة ملفات التعبيرالجيني بين أنسجة سرطان الثدي الثلاثي السلبي والأنسجة الطبيعية، وكذلك بين أنسجة سرطان الثدي الثلاثي السلبي وأنسجة السرطان غير الثلاثي السلبي. في النهاية، تم بناء نموذج تعلم الآلة باستخدام طريقة اختيار ميزات مهجنة لاختيار المؤشرات الحيوية. شاركت الدراسة في دمج مجموعتين من البيانات، مما نتج عنه مجموعة بيانات مدمجة تحتوي على 4577 MicroRNA. في مرحلة بناء نموذج تعلم الآلة، تم استخدام مجموعة من طرق اختيار الميزات لتحديد التوقيعات الحيوية التي تميز سرطان الثدي الثلاثي السلبي عن الأنسجة الطبيعية. يشمل ذلك طريقة الالتفاف باستخدام الاستبعاد التكراري للميزات، جنبًا إلى جنب مع طرق مدمجة باستخدام الغابات العشوائية وآلة المتجه الداعم. كشفت دراستنا عن اختلافات كبيرة في التعبير الجيني بين أنسجة سرطان الثدي الثلاثي السلبي والأنسجة الطبيعية. في المقابل، لم يختلف التعبيرالجيني بشكل كبير بين أنسجة سرطان الثدي الثلاثي السلبي وأنسجة غير الثلاثي السلبي. علاوة على ذلك، تُظهر الدراسة أن استخدام الاستبعاد التكراري للميزات وآلة المتجه الداعم والغابات العشوائية كخوارزمية اختيار ميزات هجينة لملفات التعبيرأو مجموعات بيانات مماثلة تحتوي على عدد كبير من الميزات مقارنة بعدد العينات يمكن أن يزيل الميزات الزائدة بشكل فعال، ويحدد المؤشرات الحيوية ذات الصلة التشخيصية، ويحافظ على دقة تصنيف عالية. وأخيرًا، حددت الدراسة أن(miR-32-5P ) يمكن أن يُستخدم كمؤشر حيوي محتمل لتشخيص سرطان الثدي الثلاثي السلبي، وأن التعبير العالي له يرتبط ارتباطًا كبيرًا بزيادة البقاء على قيد الحياة بشكل عام لدى مرضى سرطان الثدي الثلاثي السلبي.
Description
Keywords
Citation
Alqawasmi، Shahd Mustafa. (2024). Identification of Potential Diagnostic and Prognostic Biomarkers for Triple Negative Breast Cancer (TNBC) Using Artificial Intelligence (AI) [رسالة ماجستير منشورة، جامعة القدس، فلسطين]. المستودع الرقمي لجامعة القدس.