Almarai Open-Source Font Copyright 2018 Boutros International. (http://www.boutrosfonts.com) This Font Software is licensed under the SIL Open Font License, Version 1.1. This license is copied below, and is also available with a FAQ at: http://scripts.sil.org/OFL ----------------------------------------------------------- SIL OPEN FONT LICENSE Version 1.1 - 26 February 2007 ----------------------------------------------------------- PREAMBLE The goals of the Open Font License (OFL) are to stimulate worldwide development of collaborative font projects, to support the font creation efforts of academic and linguistic communities, and to provide a free and open framework in which fonts may be shared and improved in partnership with others. The OFL allows the licensed fonts to be used, studied, modified and redistributed freely as long as they are not sold by themselves. The fonts, including any derivative works, can be bundled, embedded, redistributed and/or sold with any software provided that any reserved names are not used by derivative works. The fonts and derivatives, however, cannot be released under any other type of license. The requirement for fonts to remain under this license does not apply to any document created using the fonts or their derivatives. DEFINITIONS "Font Software" refers to the set of files released by the Copyright Holder(s) under this license and clearly marked as such. This may include source files, build scripts and documentation. "Reserved Font Name" refers to any names specified as such after the copyright statement(s). "Original Version" refers to the collection of Font Software components as distributed by the Copyright Holder(s). "Modified Version" refers to any derivative made by adding to, deleting, or substituting -- in part or in whole -- any of the components of the Original Version, by changing formats or by porting the Font Software to a new environment. "Author" refers to any designer, engineer, programmer, technical writer or other person who contributed to the Font Software. PERMISSION & CONDITIONS Permission is hereby granted, free of charge, to any person obtaining a copy of the Font Software, to use, study, copy, merge, embed, modify, redistribute, and sell modified and unmodified copies of the Font Software, subject to the following conditions: 1) Neither the Font Software nor any of its individual components, in Original or Modified Versions, may be sold by itself. 2) Original or Modified Versions of the Font Software may be bundled, redistributed and/or sold with any software, provided that each copy contains the above copyright notice and this license. These can be included either as stand-alone text files, human-readable headers or in the appropriate machine-readable metadata fields within text or binary files as long as those fields can be easily viewed by the user. 3) No Modified Version of the Font Software may use the Reserved Font Name(s) unless explicit written permission is granted by the corresponding Copyright Holder. This restriction only applies to the primary font name as presented to the users. 4) The name(s) of the Copyright Holder(s) or the Author(s) of the Font Software shall not be used to promote, endorse or advertise any Modified Version, except to acknowledge the contribution(s) of the Copyright Holder(s) and the Author(s) or with their explicit written permission. 5) The Font Software, modified or unmodified, in part or in whole, must be distributed entirely under this license, and must not be distributed under any other license. The requirement for fonts to remain under this license does not apply to any document created using the Font Software. TERMINATION This license becomes null and void if any of the above conditions are not met. DISCLAIMER THE FONT SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO ANY WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT OF COPYRIGHT, PATENT, TRADEMARK, OR OTHER RIGHT. IN NO EVENT SHALL THE COPYRIGHT HOLDER BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, INCLUDING ANY GENERAL, SPECIAL, INDIRECT, INCIDENTAL, OR CONSEQUENTIAL DAMAGES, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF THE USE OR INABILITY TO USE THE FONT SOFTWARE OR FROM OTHER DEALINGS IN THE FONT SOFTWARE.نموذج "جيس" في الإمارات.. ما هو هدف الذكاء الاصطناعي باللغة العربية؟ - CNN Arabic

نموذج "جيس" في الإمارات.. ما هو هدف الذكاء الاصطناعي باللغة العربية؟

علوم وصحة
نشر
8 دقائق قراءة
الذكاء الصناعي باللغة العربية قد يفتح الأبواب للغات أخرى.. ما هي إمكانيات أداة "جيس" الإماراتية؟
Credit: Gifty Sahany/CNN

دبي، الإمارات العربية المتحدة (CNN)-- أدّى ظهور روبوت الدردشة "تشات جي بي تي" (ChatGPT) والمنصات المماثلة إلى التسبب بضجة حول الذكاء الصناعي، المُدرّب على مجموعات واسعة من البيانات على الإنترنت للاستجابة للأوامر النصية.

ورُغم الاهتمام المتزايد بالذكاء الاصطناعي في الشرق الأوسط، إلا أن نماذج اللغة العربية تخلفت عن الركب.

ولكن، كشف فريق من الأكاديميين، والباحثين، والمهندسين في دولة الإمارات العربية المتحدة مؤخرًا عن أداة قوية مصممة خصيصًا للمتحدثين باللغة العربية في العالم، والتي يقول مبتكروها إنّها قد تمهّد الطريق لنموذج لغوي كبير (أنظمة LLM) بلغات أخرى "أقل تمثيلاً في الذكاء الاصطناعي السائد".

الذكاء الاصطناعي باللغة العربية قد يفتح الأبواب للغات أخرى
أُطلق على الأداة اسم "جيس" تيمنًا باسم أكبر جبل في دولة الإمارات. ويعتبرها صنّاعها النموذج اللغوي الكبير للغة العربية الأعلى جودة في العالم. Credit: Gifty Sahany/CNN

وأُطلق على الأداة اسم "جيس" تيمنًا باسم أكبر جبل في دولة الإمارات، وتم إنشاؤها بالتعاون بين جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI) في أبوظبي، وشركة "Cerebras Systems"، ومقرّها "سيليكون فالي"، و"Inception" التابعة لشركة "G42" للذكاء الصناعي، ومقرها الإمارات.

ورغم أنّ "ChatGPT"، و"LLaMA" التابعة لشركة "ميتا"، وغيرها من أنظمة "LLM" تتمتع بقدرات لغوية عربية، إلا أنّها مُدرَّبة في الغالب على بيانات باللغة الإنجليزية على الإنترنت، وفقًا لما ذكره تيموثي بالدوين، عميد الجامعة بالإنابة، وأستاذ معالجة اللغات الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي.

وبدلاً من ذلك، استخدمت أداة "جيس" مجموعات البيانات باللغتين الإنجليزية والعربية، مع التركيز على المحتوى القادم من الشرق الأوسط، ما سمح لها بالذهاب لأبعد "ممّا تمكّن أي شخص آخر من تحقيقه باللغة العربية"، بحسب ما أوضحه بالدوين.

وتُهيمن اللغات التي تستخدم الحروف اللاتينية على الإنترنت، واللغة الإنجليزية هي الأكثر استخدامًا حتّى الآن.

وقال مدير التقنيات الاستراتيجية وبرامج الأمن السيبراني في معهد الشرق الأوسط بواشنطن، محمد سليمان. إن ذلك يعني أنّ مجموعات البيانات تكون أكبر بهذه اللغات.

وأضاف لـCNN أنّ "جعل الوصول إلى أدوات الذكاء الاصطناعي حكرًا على أولئك الذين يمكنهم التحدث بلغات معينة قد يمنع شريحة كبيرة من المجتمعات المحرومة من جني فوائد الذكاء الصناعي".

وتحتوي النماذج اللغوية المُدرَّبة باللغة الإنجليزية عادةّ على مجموعات من البيانات المتمحورة حول الغرب. وأوضح سليمان أن "(أنظمة LLM هذه) تفتقر إلى الوعي بالثقافات الأخرى، ما يؤثر سلبًا على تجربة المستخدم بالنسبة للأشخاص من خلفيات متنوعة".

وبفضل التدريب الذي تمتعت به، تفهم "جيس" الفروقات الثقافية، واللهجات، وفقًا لما أشارت إليه جامعة محمد بن زايد للذكاء الاصطناعي، ويتيح ذلك استخدامها على نطاق أوسع في مختلف الصناعات.

وفي الإصدارات المستقبلية، يهدف الفريق إلى جعل "جيس" تعمل مع الصور، أو الرسوم البيانية، أو جداول البيانات بدلاً من النصوص فقط، وسيؤدي ذلك إلى توسيع نطاق استخداماتها، وربما تمكينها من تفسير المسوحات الطبية، أو البيانات الاستثمارية، أو البيانات الواردة من الأقمار الصناعية.

اللهجات المختلفة

وذكر بالدوين أنّ اللغة العربية هي اللغة السادسة الأكثر استخدامًا في العالم، وهي غنية بـ "مجموعة" من اللهجات المختلفة، ما يزيد من تعقيد تدريب نموذج اللغة. وتُستخدم اللغة العربية الفصحى الحديثة عادةً في الوثائق والكتابات الرسمية، ولكن غالبًا ما تُستخدم اللهجات المحلية في المدونات، أو وسائل التواصل الاجتماعي. وخلال تدريبها على مجموعة متنوعة من البيانات، أشار بالدوين إلى تمكّن "جيس" من التنقل بين اللهجات المختلفة.

وأضاف بالدوين: "هناك مجال للتحسّن بالتأكيد، ولكن جرى التركيز بشكلٍ أكبر على القوة، من حيث القدرة على فهم ما إذا كان لدينا المزيد من المدخلات غير الرسمية للنموذج".

ويسمح التحديث الأخير لـ"Bard" من "غوغل" أيضًا بفهم الأسئلة بأكثر من 12 لهجة عربية، بما في ذلك اللغة العامية المصرية، والسعودية، ومن ثم يكون الرّد باللغة العربية الفصحى الحديثة.

وقال بالدوين إنّ "جيس" تتمتّع بـ13 مليار متغير، ويجري العمل على تحديث 30 مليار متغير.

وتحدّد المتغيرات حجم نموذج اللغة، ولكن ليس بالضرورة دقتها.

وتتمتع منصة "ChatGPT-3.5" بـ175 مليار متغير تقريبًا، وفقًا لما ذكرته "OpenAI".

وقال بالدوين إنّ "جيس" تستخدم ضبط التعليمات لمنعها من إنشاء إجابات "سامة" أو "ضارة" تمامًا مثل نماذج الذكاء الاصطناعي التوليدية الأخرى.

ولن تولّد الأداة أي شيء قد يؤدي إلى إيذاء النفس، أو إلحاق الضرر بالآخرين، أو يوحي بالإدمان.

وتلتزم الإجابات التي تولدها بالقواعد والعادات المحلية بشأن مواضيع مثل المثلية الجنسية، والمخدرات.

وأجرت جامعة محمد بن زايد للذكاء الاصطناعي "حوارات مختلفة" مع حكومة الإمارات، والمؤسسات الأخرى حول الذكاء الاصطناعي المسؤول، والتي أُخِذت بعين الاعتبار عند تطوير "جيس"، وفقًا لما ذكره بالدوين.

التطورات الإقليمية

شهدت دولة الإمارات العربية المتحدة جهودًا متزايدة لتطوير أنظمة الذكاء الاصطناعي التوليدية.

وكانت الإمارات أول دولة في العالم تعين وزيرًا للذكاء الاصطناعي في عام 2017.

وفي مارس/آذار، كشف مجلس أبحاث التكنولوجيا المتطورة في أبوظبي ومعهد الابتكار التكنولوجي (TII) عن أكبر نموذج للذكاء الاصطناعي في المنطقة، وهو "فالكون"، مع إصدار نسخة جديدة في سبتمبر/أيلول.

ورُغم عدم توفره باللغة العربية حاليًا، إلا أن "فالكون" أقوى من "جيس" باللغة الإنجليزية، إذ يتمتّع بـ180 مليار متغير، كما أنّه يتفوق على منافسيه، مثل "LLaMA 2" من شركة "ميتا"، بناءً على قدراته المتعلقة بالمنطق، والبرمجة، واختبارات المعرفة الكاملة، وفقًا لما ذكره معهد الابتكار التكنولوجي.

وعلى عكس "Bard" من "غوغل"، و"تشات جي بي تي"، يتمتع كلا من "فالكون" و"جيس" بمصدر مفتوح، ما يعني أنّ المتغيرات الخاصة بهما متاحة للاستخدام أو التغيير لأي شخص.

وقدّر تقرير صادر في عام 2018 عن شركة "PwC" الاستشارية أن الشرق الأوسط قد يحقق فوائد تصل قيمتها إلى 320 مليار دولار من الذكاء الاصطناعي بحلول عام 2030.

وأوضح المدير الرقمي لـ"PwC" في الشرق الأوسط، علي حسيني، أن المنطقة ترغب بالتأكّد من تمتّعها بـ"قدراتها الخاصة" في مجال الذكاء الاصطناعي.

وبالإشارةً إلى "فالكون" و"جيس"، قال حسيني: "تم بالفعل تطوير بعض أفضل النماذج مفتوحة المصدر في منطقتنا".

ويأمل صنّاع "جيس" أن تعمل الأداة على تعزيز تطور الذكاء الصناعي التوليدي في الشرق الأوسط.

وأكّد بالدوين: "هذه هي الخطوة الأولى من بين الكثير من الخطوات المستقبلية نوعًا ما"، مضيفًا: "ليس فقط للنماذج الكبيرة للغات العربية، بل في مجالات أخرى".