Hybrid Anomaly Based Android Malware Detection Using Deep Neural Networks

Date
2023-08-29
Authors
Maher George Mousa Maria
ماهر جورج موسى ماريا
Journal Title
Journal ISSN
Volume Title
Publisher
Al-Quds University
Abstract
A malware detection system for mobile devices contributes to the field of computer security. Cybersecurity is a major current problem mainly motivated by the growing number of malwares; data loss due to computer breaches cost a great loss. In addition ethical problems. Due to the popularity of smartphones and tablets, mobile devices are becoming the target of malware and cyberattacks. It is therefore essential to explore new ways to prevent, detect and counter cyberattacks. In these detection mechanisms, machine learning is used to create classifiers that determine whether an application is compromised. The advantage of a neural network is that it allows you to adapt to new situations. Therefore, we used this new technology to be able to identify types of malicious behavior and to be able to generalize it to future malicious programs. The goal of this thesis is to propose a malware detection model on Android based on deep neural networks classification driven by sets of hybrid features. We reviewed and classified existing methods into two groups: the static methods which consist of examining the code of the mobile application and the dynamic methods which analyze the behavior of an application when it is running on a mobile terminal. Our goal is to use these two methods to take advantage of the both groups. To do this, we used the hybrid database “AMD” composed of 85 features. We are also conducted an experiment plan composed of hundreds of trainings in order to adjust the values of the hyperparameters improving the learning on this dataset as well as to select the most relevant remaining features, through this thesis, we work according to the most effective features from the AMD Dataset. And to improve detection accuracy that have time-dependent frequencies such as attacks, three new input features (s_sessiontime, r_sessiontime, and sr_sessionime) are devised by aggregating the flows based on source, destination, and timestamp attributes using a time window of one minute. Also, after preprocessing the input features, the most important 45 input features are selected. Moreover, the model’s parameters are learned using many multiclass labeled flows from the AMD dataset. The hyperparameters of the model are optimized for best performance in terms of accuracy, recall, precision, and training time of the model. The experimental results confirmed the high performance of the proposed model when tested from the “AMD” dataset. In addition, the optimal model architecture consists of one input layer, three hidden layers and one output layer. The model achieved an accuracy of 99.8 %, a false positive rate of less than 1%, and an area under the receiver operating characteristic curve (ROC-AUC) of 0.999. Also, the detection accuracy of the multiclass classifier is 99.6% When the proposed model is compared with other recent models in literature, that was evaluated on similar datasets like” AMD”, the experimental results show that the proposed model outperforms other models in terms of precision and recall.
تساهم أنظمة كشف البرمجيات الخبيثة (Malware detection systems) للأجهزة المحمولة في زيادة امن الأجهزة المحمولة الحاسوب. تشكل امن المعلومات الرقمية مشكلة رئيسية في الوقت الحالي تتدفع بشكل رئيسي لزيادة عدد البرمجيات الخبيثة، يكلف فقدان البيانات بسبب اختراقات الأجهزة المحمولة العديد من الدول خسارة كبيرة. وتنشأ مشاكل أخلاقية إذا تم الكشف عن المعلومات الشخصية للعملاء والمستخدمين. نظرًا لانتشار استخدام الهواتف الذكية والأجهزة المحمولة، لذا أصبحت الأجهزة المحمولة هدفًا للبرمجيات الخبيثة والهجمات السيبرانية. لذلك، من الضروري تطوير طرق جديدة لمنع واكتشاف ومواجهة الهجمات السيبرانية. في احدى هذه التقنيات، يُستخدم التعلم الآلي (Machine learning) لإنشاء أنظمة كاشفة تحدد ما إذا كان التطبيق خبيثاً أم لا. ميزة الشبكات العصبية العميق (DNN) هي أنها تسمح باتخاذ قرار بشأن البرامج غير المصنفات، على عكس الأنظمة التي تعتمد على قواعد بيانات ثابتة حيث تعتمد التكنولوجيا المقترحة في تحديد السلوك الخبيث لتعمم على الأنظمة التي تعتمد على القواعد الثابتة. في هذه الرسالة تم اقتراح نموذج لكشف البرمجيات الخبيثة لأنظمة Android بناءً على تصنيف الشبكات العصبية العميقة المعتمد على مجموعات من الميزات (Features). ويمكن تقسيمها إلى مجموعتين الطرق الثابتة(static) لفحص شفرة التطبيق المحمول اما الثانية الميزات الديناميكية (Dynamic) لتحليل سلوك التطبيق عند تشغيله على جهاز محمول. حيث تم اقتراح نموذج هجين (Hybrid) من هاتين الطريقتين للاستفادة من بعض المزايا التي تستخدم في الطريقتين التي تزيد من صحة الكشف (accuracy) ودقة الكشف (precision) في النموذج المقترح. للقيام بذلك، اخترنا استخدام قاعدة بيانات مختلطة تسمى "AMD" مكونة من 85 ميزة. لتحسين الدقة في الكشف والتي تعتمد على ترددات تتغير مع الزمن مثل الهجمات، قمنا باستخراج ثلاث ميزات جديدة للإدخال هي s_sessiontime وr_sessiontime وsr_sessionime عن طريق الجمع بين الميزات بناءً على السمات المصدر والوجهة والطابع الزمني باستخدام نافذة زمنية دقيقة واحدة. كما تم اختيار السمات الأكثر أهمية بعد معالجة ميزات الإدخال والتحقق منها. وايضا، سنقوم بتعليم النموذج العديد من المعلومات باستخدام عدد من الميزات ذات التصنيف المتعدد من قاعدة البيانات "AMD" .يتم تحسين الأوزان العالية للنموذج للحصول على أداء أفضل من حيث الدقة والاستدعاء والدقة ووقت التدريب. تم تحقيق نتائج عالية للنموذج المقترح عند تطبيقه باستخدام قاعدة البيانات "AMD". بالإضافة إلى ذلك، تتألف الهندسة المعمارية المثلى للنموذج من مدخل بطبقة واحدة ومخرج بطبقة واحدة وبينهم ثلاث طبقات مخفية. وقد حقق النموذج دقة بنسبة 99.8٪، مع معدل إيجابيات خاطئة أقل من 1٪، ومنطقة تحت منحنى السمت العملياتي للتشغيل (ROC-AUC) تبلغ 0.999. أيضًا، دقة الكشف للمصنف المتعدد تبلغ 99.6٪. وإذا تم مقارنة النموذج المقترح مع نماذج حديثة أخرى في الأدبيات، التي تم تقييمها على مجموعات بيانات مشابهة مثل "AMD"، يظهر أن النموذج الخاص بنا يفوق النماذج الأخرى من حيث الدقة والاستدعاء.
Description
Keywords
Citation