Discovering Gene Associations Across Diseases Using a Knowledge-based Machine Learning Approach

Date
2024-11-04
Authors
Emma Mamdouh Jeries Qumsiyeh
ايما ممدوح جريس قمصية
Journal Title
Journal ISSN
Volume Title
Publisher
Al-Quds university
Abstract
Complex diseases such as diabetes, Alzheimer's, and cancer are influenced by a combination of genetic, lifestyle, and environmental factors that do not follow straightforward inheritance patterns. Biological systems are immensely complex and heterogeneous. To resolve the enigmas surrounding these systems, extensive research provides huge amounts of biological data. In this thesis and in our first study, a novel approach called GediNET was developed to integrate prior biological knowledge into disease-associated gene groups. GediNET employs a Grouping, Scoring, and Modeling (G-S-M) approach to identify top-performing gene groups, which are then used to train a machine-learning model. Following the data exploration and preprocessing steps, various classification models were built with 100-fold Monte Carlo Cross-Validation, and the performance of these models was evaluated. By applying Disease-Disease Association (DDA) based machine learning, GediNET uncovered new relationships between diseases, improving diagnosis, prognosis, and treatment approaches. In the second study, GediNETPro, an advanced version of GediNET, was developed. This version utilizes Cross-Validation (CV) information and clustering techniques, such as K-means, to identify patterns of disease group associations. GediNETPro provides visualization tools, like heatmaps and in-depth analysis of disease group clusters, offering insights for developing effective diagnostic interventions. The third study leveraged molecular-level data to develop effective methods for predicting Disease-Disease Associations (DDAs). A statistical technique was developed by employing the G-S-M-P model of GediNETPro to compute semantic similarity metrics between diseases. The semantic approach detects representative diseases within clusters and establishes a semantic relationship between the disease under investigation and other diseases. The studies presented in this thesis contribute to understanding disease complexity, uncovering disease associations, and identifying potential biomarkers and drug targets
إن الأمراض المعقدة مثل السكري ومرض الزهايمر والسرطان تتأثر بتركيبة من العوامل الوراثية ونمط الحياة والعوامل البيئية التي لا تتبع أنماطًا وراثية مباشرة. وتُعَدُّ الأنظمة البيولوجية معقدة للغاية ومتنوعة ومن أجل حل تلك التعقيدات المُحيطة بهذه الأنظمة يتم إجراء أبحاث واسعة النطاق في المختبرات، مما يُوَفِّر كميات هائلة من البيانات البيولوجية. في هذه الرسالة وفي دراستنا الأولى، تم تطوير نهجٍ جديد يستند إلى تعلم الآلة يسمى GediNET لدمج المعرفة البيولوجية السابقة في مجموعات الجينات المرتبطة بالأمراض. يستخدم GediNET نهج التجميع والتسجيل والنمذجة (G-S-M) لتحديد مجموعات الجينات الأفضل أداءً التي يتم استخدامها بعد ذلك لتدريب نموذج تعلم آلي. وبعد خطوات استكشاف البيانات وتحضيرها تم بناء نماذج تصنيف متنوعة باستخدام تقنية 100 fold- Monte Carlo Cross-Validation ومن ثم تقييم أداء هذه النماذج. من خلال تطبيق تعلم الآلة القائم على ارتباط المرض بالمرض (DDA)، يكتشف GediNET علاقات جديدة بين الأمراض، مما يحسن التشخيص وتوقع الإصابة بالمرض والمقاربات العلاجية. في الدراسة الثانية قمنا بتطويرGediNETPro، وهو إصدار متقدم من. GediNET يستخدم هذا الإصدار معلومات التحقق المتقاطع Cross-Validation (CV) وتقنيات التجميع مثل K-means لتحديد أنماط ارتباط مجموعات الأمراض. ويوفر GediNETProأدوات تصور مثل الخرائط الحرارية وتحليلًا عميقًا لتجمعات مجموعات الأمراض مما يساهم في تطوير تداخلات تشخيصية فعالة. أما بالنسبة للدراسة الثالثة فقد استفادت من البيانات على المستوى الجزيئي لتطوير أساليب فعالة لتوقع ارتباط الأمراض ببعضها وذلك من خلال تطوير تقنية إحصائية باستخدام نموذج G-S-M-P لـGediNETProلحساب مقاييس التشابه الدلالي بين الأمراض. تعمل طريقة التشابه الدلالية على اكتشاف الأمراض الممثلة ضمن التجمعات وإنشاء علاقة دلالية بين المرض المعني فيه بالبحث وبين أمراض أخرى. تسهم الدراسات المقدمة في هذه الرسالة في فهم تعقيدات الأمراض واكتشاف ارتباطاتها ببعضها البعض وتحديد العلامات البيولوجية المحتملة وأهداف العقاقير.
Description
Keywords
Citation
Qumsiyeh، Emma Mamdouh. (2024). Discovering Gene Associations Across Diseases Using a Knowledge-based Machine Learning Approach [أطروحة دكتوراة منشورة، جامعة القدس، فلسطين].