Machine Learning Drug Discovery for COVID-19

Date
2023-03-27
Authors
Claudia Alawi
كلوديا الياس رأفت علاوي
Journal Title
Journal ISSN
Volume Title
Publisher
Al-Quds University
Abstract
COVID-19 was a big issue facing the world, and the development of an effective drug for the virus is still under research. However, developing a new drug is a lengthy and costly process that might take up many years. Artificial intelligence can have a vital role for faster and more cost-effective drug discovery. The primary protease that is essential to SARS-CoV-2 replication is 3CLpro. In this thesis a machine learning model that can be used to predict the inhibitory activity of 3CLpro was developed based on decision tree regressor. The descriptors that represent the chemical molecules were obtained using PADEL descriptor software, and these descriptors were fed into the decision tree model to train it and predict the bioactivity of unknown compounds with the target protein. The model was optimized using pruning and ensemble methods, where the decision tree was combined with SVM to improve the model performance. The research focused on both external and internal approaches for validating model performance. The model successfully discovered 26 unknown compounds from Zinc natural product data source that showed bioactivity with the target protein. Moreover, Lipinski rule of five (RO5) was applied to prioritize drug-like compounds resulting in 25 of the discovered compounds having drug like properties and can be used in clinical trials. The model was validated using 10-folds cross validation and was also validated using external dataset from different data source than the data source used in training the model, on both external and internal datasets, the proposed model has proven to be effective, however, the model showed higher performance on the external validation with accuracy of 0.89, precision of 0.75, recall of 0.6 and f1 score of 0.67 for the internal validation, while for external validation 0.98 accuracy, 0.99 precision, recall of 0.93 and f1-score of 0.96. Compared to similar studies using deep learning, our machine learning model showed better performance. In conclusion the proposed model can be useful in the drug discovery of new compounds for the COVID-19 virus. ملخص كان فيروس كورونا مشكلة كبيرة تواجه العالم، ولا يزال تطوير دواء فعال للفيروس قيد البحث. ومع ذلك، فإن تطوير دواء جديد عملية طويلة ومكلفة وقد تستغرق سنوات عديدة. يمكن أن يلعب الذكاء الاصطناعي دورًا حيويًا في اكتشاف الأدوية بشكل أسرع وأكثر فعالية من حيث التكلفة. إن البروتياز الأساسي الضروري الازم لتضاعف و نمو الفيروس هو إنزيم البروتيز الرئيسي (3CLpro). في هذه الأطروحة، تم تطوير نموذج التعلم الآلي الذي يمكن استخدامه للتنبؤ بالنشاط المثبط للبروتيز الرئيسي من خلال تطبيق شجرة القرار. تم الحصول على الواصفات التي تمثل الجزيئات الكيميائية باستخدام برنامج واصفPADEL ، وتم إدخال هذه الواصفات في نموذج شجرة القرار لتدريبها والتنبؤ بالنشاط الحيوي لمركبات غير معروفة مع البروتين المستهدف. تم تحسين النموذج باستخدام طرق التقليم والتجميع، حيث تم دمج شجرة القرار مع آلة المتجه الداعم لتحسين أداء النموذج. ركز البحث على كلا النهجين الخارجي والداخلي للتحقق من أداء النموذج. اكتشف النموذج بنجاح 26 مركبًا غير معروف من مصدر بيانات منتج الزنك الطبيعي الذي أظهر نشاطًا حيويًا مع البروتين المستهدف. علاوة على ذلك ، تم تطبيق قاعدة Lipinski (RO5) لتحديد المركبات التي تصلح ان تكون عقاقير و لها خصائص العقاقير مما انتج عن 25 من المركبات المكتشفة التي لها خصائص شبيهة بالعقاقير ويمكن استخدامها في التجارب السريرية. تم التحقق من صحة النموذج باستخدام التحقق المتقاطع المتكون من 10 تقاطعات وتم التحقق من صحته أيضًا باستخدام مجموعة بيانات خارجية من مصدر بيانات مختلف عن مصدر البيانات المستخدم في تدريب النموذج ، وقد أثبت النموذج المقترح فعاليته على كل من مجموعات البيانات الخارجية والداخلية و لكن أظهر النموذج أداءً أعلى في البيانات الخارجية. فقد كانت النتائج بدقة 0.89 ، و إحكام 0.75 ، واسترجاع 0.6 و النتيجة الكاملة للكفائة ودقة النموذج 00.67 للتحقق الداخلي ، بينما بالنسبة للتحقق الخارجي 0.98 دقة، و إحكام 0.99، واسترجاع 0.93 و النتيجة الكاملة للكفائة ودقة النموذج 0.96. مقارنة بالدراسات المماثلة التي تستخدم التعلم العميق ، أظهر نموذج التعلم الآلي لدينا أداءً أفضل. في الختام، يمكن أن يكون النموذج المقترح مفيدًا في اكتشاف الأدوية لمركبات جديدة لفيروس كورونا.
Description
Keywords
Citation
Collections