نحو استخراج مترادفات للغة العربية ألياً
Date
2025-01-11
Authors
ايمان عبد الكريم موسى نصر
Eman Abed Al-Kareem Mousa Naser
Journal Title
Journal ISSN
Volume Title
Publisher
Al-Quds University
Abstract
ث، وضعنا البيانات AraLexSubD على منصة GitHubعلى الرابط التالي:
https://github.com/karajah2024/Arabic-Lexical-Substitution.git
Synonyms extraction gains special attention as synonyms are essential in improving Natural Language Processing (NLP) application performance. The Lexical Substitution (LS) task is utilized for Synonym extraction, which generates a set of equivalent substitutions (i.e., synonyms) to the target word or phrase in a sentence that saves the sentence's meaning. This task can enhance writing, language understanding, and NLP models and address ambiguity. Recently, LS has attracted much attention in many languages. Despite the richness of Arabic vocabulary, limited research has been performed on the LS task due to the lack of annotated data. To bridge this gap, we present the first Arabic LS benchmark dataset, AraLexSubD for benchmarking LS pipelines. AraLexSubD is manually built by eight native Arabic speakers and linguists (six linguist annotators, a doctor, and an economist) who annotate the 630 sentences. AraLexSubD covers three domains: general, finance, and medical. It encompasses 2476 substitution candidates ranked according to their semantic relatedness. We also present an Arabic LS pipeline, AraLexSubPro, which offers different techniques for generating, selecting, and ranking substitutions. To make a thorough comparison, AraLexSubPro uses four different methods as baselines to generate substitute candidates for the target words: a synonym dictionary-based approach using Arabic Word Net (AWN), a pre-trained language model-based approach (AraBERT), AraBERT dropout (partial masking), and a hybrid approach between AraBERT and AWN. The results showed that the hybrid approach achieved the best results compared to the other approaches. The generated substitutions are filtered and then ranked based on six high-quality features to compare thoroughly: word similarity, word frequency, BERT prediction order (BERT probability), BERT-based language model (Loss), BERT similarity, and the BERTscore. The substitutions are then reranked based on our AraLexSubPro ranker. Additionally, an error analysis of the experiment is reported.
To evaluate the AraLexSubPro pipeline, we use our first benchmark dataset for the Arabic LS task AraLexSubD dataset, which can automatically evaluate the Arabic LS systems. To our knowledge, this is the first study on Arabic lexical substitution. The results were encouraging and fundamental for Arabic LS research. To speed up research on this field, we have put the AraLexSubD data on GitHub at the following link:
https://github.com/karajah2024/Arabic-Lexical-Substitution.git
حظي استخلاص المرادفات اهتماماً خاصاً نظراً لأهمية وضرورة المرادفات في تطوير أداء تطبيقات معالجة اللغة الطبيعية. وطُوِّرت مهمة الاستبدال المعجمي لاستخراج المرادفات والتي تهدف إلى انشاء قائمة من المرادفات لكلمة أو عبارة مستهدفة مع الحفاظ على المعنى الأصلي للجملة؛ وذلك لتحسين الكتابة و زيادة فهم اللغة و تعزيز آداء نماذج معالجة اللغة الطبيعية و التعامل مع الغموض اللغوي. كما تلقت هذه المهمة اهتماماً واسعاً في عدة لغات. وبالرغم من ثراء مفردات اللغة العربية إلا أن الأبحاث في هذه المهمة كانت محدودة نظراً لعدم توفر قاعدة بيانات موسمة. وبذلك نقدم لكم أول قاعدة بيانات موسمة للاستبدال اللغوي في اللغة العربية AraLexSubD. وأُعدت AraLexSubD يدوياً من قبل ثمانية من اللغويين والناطقين الأصليين باللغة العربية (ستة موسمين لغويين، ودكتور، واقتصادي) الذين قاموا بتوسيم 630 جملة. كما شملت AraLexSubD ثلاثة مجالات: المجال العام و المالي والطبي. وتضمنت 2476 كلمة بديلة محتملة مصنفة بناءً على ارتباطها الدلالي. كما نوفر أيضًا نهج للاستبدال المعجمي باللغة العربية، AraLexSubPro، الذي يتضمن عدة تقنيات لتوليد البدائل واختيارها وترتيبها. ولإجراء مقارنة شاملة، يعتمد AraLexSubPro على أربع طرق مختلفة كنقاط مرجعية لتوليد مرشحي البدائل للكلمات المستهدفة: نهج يعتمد على قاموس المرادفات (AWN)، ونهج يعتمد على نموذج لغة مدرب مسبقًا (AraBERT)، إخفاء جزئي AraBERT ، ونهج هجين يجمع بين AraBERT و AWN. يتم تصفية البدائل المولدة وترتيبها بناءً على ستة معايير عالية الجودة، بما في ذلك تشابه الكلمات، وتكرارها، (BERT probability), (BERT Loss) , (BERTscore) و (BERT similarity) وبعد ذلك، تتم إعادة ترتيب البدائل استنادًا إلى مصنف AraLexSubPro . بالإضافة إلى ذلك، نقدم تحليلًا للأخطاء التي ظهرت خلال التجربة. ولتقييم آداء منهج AraLexSubPro استخدمنا أول مجموعة بيانات معيارية للاستبدال اللغوي باللغة العربية AraLexSubD، الذي يمكنه تقييم أنظمة الاستبدال اللغوي في اللغة العربية تلقائياً. وحسب معرفتنا هذه أول دراسة حول الاستبدال اللغوي في اللغة العربية. كما كانت النتائج مشجعة وأساسية لأبحاث الاستبدال اللغوي في اللغة العربية. و تتوفرAraLexSubD في هذا الرابط لتسريع البحث في هذا الموضوع. لتقييم أداء نهج AraLexSubPro، نستخدم أول مجموعة بيانات معيارية للاستبدال المعجمي باللغة العربية AraLexSubD، التي يمكنها تقييم أنظمة الاستبدال المعجمي العربي تلقائيًا. حسب معرفتنا، هذه هي الدراسة الأولى حول الاستبدال المعجمي في اللغة العربية، حيث ان النتائج مشجعة وأساسية للابحاث في هذا المجال. لتسريع الأبحا
حظي استخلاص المرادفات اهتماماً خاصاً نظراً لأهمية وضرورة المرادفات في تطوير أداء تطبيقات معالجة اللغة الطبيعية. وطُوِّرت مهمة الاستبدال المعجمي لاستخراج المرادفات والتي تهدف إلى انشاء قائمة من المرادفات لكلمة أو عبارة مستهدفة مع الحفاظ على المعنى الأصلي للجملة؛ وذلك لتحسين الكتابة و زيادة فهم اللغة و تعزيز آداء نماذج معالجة اللغة الطبيعية و التعامل مع الغموض اللغوي. كما تلقت هذه المهمة اهتماماً واسعاً في عدة لغات. وبالرغم من ثراء مفردات اللغة العربية إلا أن الأبحاث في هذه المهمة كانت محدودة نظراً لعدم توفر قاعدة بيانات موسمة. وبذلك نقدم لكم أول قاعدة بيانات موسمة للاستبدال اللغوي في اللغة العربية AraLexSubD. وأُعدت AraLexSubD يدوياً من قبل ثمانية من اللغويين والناطقين الأصليين باللغة العربية (ستة موسمين لغويين، ودكتور، واقتصادي) الذين قاموا بتوسيم 630 جملة. كما شملت AraLexSubD ثلاثة مجالات: المجال العام و المالي والطبي. وتضمنت 2476 كلمة بديلة محتملة مصنفة بناءً على ارتباطها الدلالي. كما نوفر أيضًا نهج للاستبدال المعجمي باللغة العربية، AraLexSubPro، الذي يتضمن عدة تقنيات لتوليد البدائل واختيارها وترتيبها. ولإجراء مقارنة شاملة، يعتمد AraLexSubPro على أربع طرق مختلفة كنقاط مرجعية لتوليد مرشحي البدائل للكلمات المستهدفة: نهج يعتمد على قاموس المرادفات (AWN)، ونهج يعتمد على نموذج لغة مدرب مسبقًا (AraBERT)، إخفاء جزئي AraBERT ، ونهج هجين يجمع بين AraBERT و AWN. يتم تصفية البدائل المولدة وترتيبها بناءً على ستة معايير عالية الجودة، بما في ذلك تشابه الكلمات، وتكرارها، (BERT probability), (BERT Loss) , (BERTscore) و (BERT similarity) وبعد ذلك، تتم إعادة ترتيب البدائل استنادًا إلى مصنف AraLexSubPro . بالإضافة إلى ذلك، نقدم تحليلًا للأخطاء التي ظهرت خلال التجربة. ولتقييم آداء منهج AraLexSubPro استخدمنا أول مجموعة بيانات معيارية للاستبدال اللغوي باللغة العربية AraLexSubD، الذي يمكنه تقييم أنظمة الاستبدال اللغوي في اللغة العربية تلقائياً. وحسب معرفتنا هذه أول دراسة حول الاستبدال اللغوي في اللغة العربية. كما كانت النتائج مشجعة وأساسية لأبحاث الاستبدال اللغوي في اللغة العربية. و تتوفرAraLexSubD في هذا الرابط لتسريع البحث في هذا الموضوع. لتقييم أداء نهج AraLexSubPro، نستخدم أول مجموعة بيانات معيارية للاستبدال المعجمي باللغة العربية AraLexSubD، التي يمكنها تقييم أنظمة الاستبدال المعجمي العربي تلقائيًا. حسب معرفتنا، هذه هي الدراسة الأولى حول الاستبدال المعجمي في اللغة العربية، حيث ان النتائج مشجعة وأساسية للابحاث في هذا المجال. لتسريع الأبحا
Description
Keywords
Citation
نصر، ايمان عبد الكريم. (2025). نحو استخراج مترادفات للغة العربية ألياً [رسالة ماجستير منشورة، جامعة القدس، فلسطين]. المستودع الرقمي لجامعة القدس.