مشروع جديد يغير قواعد الذكاء الاصطناعي عبر الترميز الدلالي للغة العربية
مع تواصل العالم في استثمار مبالغ ضخمة في مراكز البيانات وتعزيز القدرات الحوسبية، يبرز سؤال أساسي في مجالات البحث: هل تكمن المشكلة في حجم النماذج المستخدمة أم في أسلوب قراءة هذه النماذج لكلماتنا؟
خلف الابتكارات التي يقدمها الذكاء الاصطناعي، توجد عملية تقنية تعرف باسم "الترميز"، والتي تعتبر المدخل الذي يتم من خلاله تحويل اللغة البشرية إلى أرقام يمكن للآلة فهمها. في هذا السياق، انطلق مشروع بحثي طموح تحت اسم "الترميز الدلالي السياقي" (CST)، الذي يقدم مقاربة جديدة تهدف إلى تحسين كفاءة النماذج اللغوية على مستوى عالمي من خلال التركيز على بنية اللغة العربية.
لا يقرأ الذكاء الاصطناعي النصوص كما نفعل نحن البشر؛ بل يقوم بتجزئتها إلى وحدات أصغر تعرف بـ"الرموز". في الأنظمة المستخدمة اليوم، غالبا ما يتم هذا باستخدام أساليب إحصائية تعتمد على أنماط الحروف الأكثر تكرارا. ورغم فعالية هذه الطرق، إلا أنها قد لا تضمن توافق الوحدات الناتجة مع المعاني أو الصرف.
فيما يتعلق باللغة العربية، تكون المسألة أكثر تعقيدًا، حيث تحمل الكلمة في بنيتها معلومات غنية عن الجذر والوزن والزمن. وعند التعامل مع أدوات الترميز الإحصائية، فإنها تتجاهل هذه البنية، مما يؤدي إلى إنتاج تسلسلات أطول وتمثيلات أقل وضوحا لغويا، مما يضطر النموذج لبذل جهد إضافي لفهم ما يقرأه.
استند مشروع "CST" إلى ملاحظة في الصرف العربي، حيث يتيح نظام الجذر والوزن تمثيل العلاقة بين البنية والمعنى بشكل مباشر. على سبيل المثال، الجذر "ك-ت-ب" يشير إلى حقل الكتابة، وينتج عنه كلمات مثل "كاتب" و"كتاب" و"مكتبة". يستند المشروع على هذه الملاحظة لتقديم إطار عالمي يهدف إلى تحويل الكلمات في لغات متعددة إلى وحدات دلالية أكثر تنظيمًا.
في هذا المشروع، لا تظل الكلمة عبارة عن شظية حرفية، بل يتم تمثيلها كمفهوم دلالي مرتبط بدور صرفي أو نحوي. الفكرة هنا ليست استبدال اللغة بقاموس مصطنع، بل تقديم مدخلات أكثر تنظيمًا للنموذج، بحيث يصبح جزء من العمل اللغوي منظمًا قبل بدء التدريب.
أثبتت التجارب التي أجريت على نماذج من طراز "GPT-2" أن هذه المقاربة ليست مجرد نظرية لغوية، بل تحمل نتائج تقنية ملموسة. ففي اختبارات مضبوطة على اللغة الإنجليزية، خفّض "CST" مقدار المعلومات المطلوبة لتمثيل النص بنسبة بلغت 35.5%، كما قلص طول الجملة بمعدل 30%، مما أدى إلى تسريع زمن التدريب بنسبة 36%.
أما في الاختبارات العربية، فقد كانت النتائج أكثر إثارة؛ حيث سجل "CST" تحسنا في كفاءة التمثيل بلغ 46% مقارنة بالطرق التقليدية. هذه النتائج تشير إلى أن كلما كانت وحدة الإدخال أكثر قربًا من البنية اللغوية، كان بإمكان النموذج تمثيل الجملة بعدد خطوات وكلفة أقل.
تتجاوز أهمية هذا المشروع الأروقة الأكاديمية لتصبح مسألة مالية وتشغيلية. في بيئة تستثمر بكثافة في الذكاء الاصطناعي، يعني تقليل طول التسلسل وزيادة جودة التمثيل خفض تكلفة التدريب وزيادة سرعة الاستدلال، وهذا مهم لقطاعات مثل الخدمات الحكومية والتعليم والرعاية الصحية.
يعمل المشروع حاليًا على تحويل "CST" من فكرة بحثية إلى أداة عملية، مع التركيز على التشغيل على الأجهزة المحلية أو عبر المتصفح. الفكرة هنا هي أن التقنيات المستخدمة قد تساعد في جعل النماذج اللغوية أخف وأكثر قابلية للاستخدام اليومي دون الحاجة لبنية سحابية ثقيلة.
بدلاً من النظر إلى الأداء بوصفه نتيجة للتوسع في الحوسبة وحده، يركز هذا المشروع على جودة التمثيل منذ الخطوة الأولى. إذا استمرت النتائج في هذا الاتجاه، فقد يصبح هذا التصميم عاملاً حاسماً في بناء نماذج أكثر كفاءة وقابلية للتطبيق واستدامة.
بالرغم من أنه من المبكر اعتبار "CST" بديلاً نهائيًا لأساليب الترميز الحالية، إلا أنه يقدم دليلاً قويًا على أن تحسين مدخلات النموذج قد يكون بنفس أهمية تحسين بنيته أو زيادة حجمه. ومع استمرار التجارب وتوسيع نطاق التطبيق، قد يتحول هذا النهج إلى أحد المسارات الرئيسية في تطوير النماذج اللغوية.
في النهاية، يطرح المشروع سؤالًا بسيطًا لكنه عميق: ماذا لو لم يكن مفتاح الذكاء الاصطناعي في المزيد من الحوسبة فقط، بل في فهم أفضل للكلمة منذ البداية؟