الصفحة الرئيسية
نبذة عن العمادة
نبذة عن العمادة
الرؤية والرسالة
الهيكل التنظيمي
الدراسات العليا بجامعة الملك عبد العزيز
الخدمات البحثية والدورات
وحدة الخدمات البحثية
ابحاث مهمة للمجتمع
خدمات العمادة
أسئلة متكررة
الأبحاث
دليل المنسوبين
مواقع مفضلة
دعم الطلاب
خريطة الوصول للعمادة
آلية توزيع الاستبانات
خدمة الاستبانات الطلابية
جوائز الدراسات العليا
التقديم على الجوائز
الفائزون بالجوائز للعام الجامعي 1440
منسوبو العمادة
دليل الموظفين
تواصل معنا
عربي
English
عن الجامعة
القبول
الأكاديمية
البحث والإبتكار
الحياة الجامعية
الخدمات الإلكترونية
صفحة البحث
عمادة الدراسات العليا
تفاصيل الوثيقة
نوع الوثيقة
:
رسالة جامعية
عنوان الوثيقة
:
نهج قائم على المحولات المدربة مسبقاً للتلخيص الاستخراجي والتجريدي للنص العربي
Pre-trained Transformer-Based Approach for Extractive and Abstractive Summarization of Arabic Text
الموضوع
:
كلية الحاسبات وتقنية المعلومات
لغة الوثيقة
:
العربية
المستخلص
:
التلخيص التلقائي للنص هو موضوع بحث بارز في معالجة اللغة الطبيعية بسبب تنوع وانتشار مصادر المعلومات على الإنترنت. من خلال هذه الدراسة درسنا نوعي التلخيص: الاستخراجي والتجريدي. تعتمد طريقة التلخيص الاستخراجي على اختيار أهم العبارات والجمل من نص الإدخال الرئيسي لإنشاء ملخص جديد دون إعادة تنسيق هذه العبارات والجمل. من ناحية أخرى ، يعتمد التلخيص التجريدي على تلخيص النص الأصلي بعبارات وجمل مختلفة تماماً. تم نشر العديد من الأعمال حول التلخيص التلقائي للغة الإنجليزية للعثور على المنهجيات الأكثر تقدماً والحصول على نتائج متقدمة. ومع ذلك ، فإن البحث في تلخيص النص العربي يتقدم ببطء أكثر بسبب طبيعة اللغة العربية والحاجة إلى المزيد من مجموعات البيانات المرجعية الأساسية. أظهرت العديد من نماذج اللغة المدربة مسبقاً مؤخرًا أداءً ممتازًا في العديد من مهام معالجة اللغة الطبيعية. لقد عملنا على ضبط ومقارنة أداء نموذج { AraBERT} الأساسي ونموذج {QARiB} ونموذج {AraELECTRA}. تم تدريب هذه النماذج باستخدام مجموعات البيانات العربية {KALIMAT} و {EASC} للتلخيص الاستخراجي للنص العربي. ثم تم تقييم الملخصات التي تم إنشاؤها باستخدام حزمة تقييم {ROUGE} باستخدام مقاييس {ROUGE-1} و {ROUGE-2} و {ROUGE-L}. تم تحقيق أفضل النتائج باستخدام نموذج {AraBERT} ، الذي حصل على {0.44} و {0.26} و {0.44} على مجموعة بيانات {KALIMAT}. بالإضافة إلى ذلك ، من أجل تلخيص النص التجريدي العربي ، استخدمنا محول تحويل النص إلى نص نموذج {T5} ، والذي أسفر عن نتائج جيدة. استخدمنا مجموعة بيانات من {267000} مقالة عربية لصقل {AraT5} ، النسخة العربية التي تم إطلاقها حديثاً. تم تقييم النموذج من خلال درجات {ROUGE-1} و {ROUGE-2} و {ROUGE-L} و {BLEU} ، وكانت النتائج {0.494} و {0.339} و {0.469} و {0.4224} على التوالي. استخدمنا أيضاً مجموعة بيانات أخرى تحتوي على {300000 } مقالة وعناوين رئيسية وحققنا درجات التقييم التالية {0.53} و {0.3} و {0.36} و {0.48}. بالإضافة إلى ذلك ، كان نموذج {AraT5} متفوقاً على أحدث الأبحاث التي استخدمت نموذج التسلسل إلى التسلسل {Seq2Seq}.
المشرف
:
د.أمل المنصور
نوع الرسالة
:
رسالة ماجستير
سنة النشر
:
1445 هـ
2023 م
تاريخ الاضافة على الموقع
:
Friday, November 10, 2023
الباحثون
اسم الباحث (عربي)
اسم الباحث (انجليزي)
نوع الباحث
المرتبة العلمية
البريد الالكتروني
ياسمين عينيه
Einieh, Yasmin
باحث
ماجستير
الملفات
اسم الملف
النوع
الوصف
49526.pdf
pdf
الرجوع إلى صفحة الأبحاث