قياس الفهم اللغوي لنماذج الذكاء الاصطناعي

اختبار MMLU (Pass@1) مخصص لتقييم أداء نماذج الذكاء الاصطناعي في مجموعة متنوعة من المواضيع الأكاديمية والمجالات العامة. MMLU هي اختصار لـعبارة Massive Multitask Language Understanding، وهو اختبار شامل يقيس الفهم اللغوي متعددة المهام من قبل نماذج الذكاء الاصطناعي عبر موضوعات مختلفة تشمل 57 مجالاً منها الرياضيات، الفيزياء، العلوم، التاريخ، القانون، الطب، الأخلاقيات، الأدب، علوم الحاسوب، الفلسفة، وغيرها. Pass@1 تشير إلى نسبة الأسئلة التي أجاب عليها النموذج بشكل صحيح في المحاولة الأولى، فإذا أجاب بشكل صحيح على 80% من الأسئلة في الاختبار، يحصل على العلامة 80. يعد هذا المقياس مهماً لتقييم جودة النماذج اللغوية، خاصة في فهم المعرفة العامة والأكاديمية.

You must be logged in to post a comment.

CREATE ACCOUNT

قياس الفهم اللغوي لنماذج الذكاء الاصطناعي