الوضع الراهن والتحدي
تعتمد الشركات والمنظمات والمنشآت الحكومية في المملكة العربية السعودية وفي كافة بلدان العالم العربي في أداء أعمالها على عدد هائل من الوثائق والنصوص المكتوبة باللغة العربية سواءًا في صورة خطابات أو مراسلات بريدية أو سجلات وتقارير إلكترونية وما إلى ذلك. يبقى الوصول إلى البيانات والمعلومات التي تزخر بها هذه الوثائق والنصوص عملية صعبة تستغرق الوقت الطويل من المحللين وصناع القرار، وفي حال أتمتة الوصول إلى هذه البيانات والمعلومات بمحرك استخراج وتحليل ذو كفاءة ودقة عالية، سيكون لذلك دور محوري في دعم اتخاذ القرارات بما يحسن من مؤشرات الأداء القياسية ويحقق أهداف الشركة أو المنظمة.
تقنيات حوسبة فهم اللغات الطبيعية (اليوم)
تم إنشاء مجال فهم اللغة الطبيعية لتطوير تقنيات تابعة تحقق مهمة تحليل البيانات بشكل ذكي. و لكن على الرغم من التقدم التقني، لا تزال مهمة تحليل البيانات من النصوص العربية صعبة حتى على أحدث التقنيات التي طورت لهذا الغرض حيث أنها لم تصل إلى كفاءة أداء مجزية فيما يتعلق بتحدي استخراج الاستنباطات الذكية من الوثائق و النصوص.
'التعرف على الأعلام' هي أحد أهم آليات فهم اللغة الطبيعية والتي تعنى بـاستخراج المفاهيم الرئيسية من البيانات الغير منظمة عبر تحديد الأعلام المذكورة و تصنيف أنواعها على حسب سياق النص. بالإضافة إلى التحديد و التصنيف، تتيح آلية التعرف على الأعلام استنباط العلاقات بين المفاهيم و الأعلام المستخرجة و المصنفة.
تم بناء محرك التعرف على الأعلام لمعالجة كم لا محدود من البيانات النصية المنبثقة من مصادر مختلفة و متعددة لاستخراج الأعلام و تصنيف أنواعها. و أخذاً بعين الاعتبار مدى تعقيد آلية التعرف على الأعلام في الفهم اللغوي الطبيعي، لم يتوصل أي محرك تعرف للأعلام حتى الآن إلى درجة عالية ومجزية من الأداء التي تتيح استخراج استنباطات ذكية توازي و تنافس أداء العقل البشري.
نقدم لكم في هذا المقال محرك مزن للتعرف على الأعلام و نبين تميزه و تفوق أدائه على المنافسين العالميين على كل من الأصعدة التجارية والأكاديمية.
العقبات
فما هي العقبات التي تقف أمام مهمة تحليل البيانات المتمثلة في النصوص العربية؟
أولاً: ضعف أو انعدام هيكلة البيانات:
ثمانون بالمئة (80%) من البيانات و المعلومات إن توفرت وجدت بصورة غير مهيكلة ولا منظمة و نادرا ما تكون مؤرشفة و إن كانت مؤرشفة فتكون معزولة في أرشيفات غير متصلة. [1]
ثانياً: محدودية آليات التحليل للنصوص العربية بشكل دقيق و عميق و فعال و سريع.
جل التقنيات المتوفرة لتحليل الوثائق و النصوص العربية لا تستطيع غير أن تطابق النص مع نص آخر تطابقاً سطحياً، و بالتالي فإن مثل هذه التقنيات تعد محدودة القدرة والفاعلية فيما يتعلق بتوليد الاستنباطات الذكية من النصوص العربية.
المسؤولية
أخذت مزن على عاتقها أن تغير هذا الواقع بدءًا بتحويل عملية البحث عن و في أعماق النصوص والوثائق العربية من مجرد عملية بحث سطحية إلى عملية تقوم على تقديم المعرفة والتحليل الذكي.
الاختيار
على أثر ذلك، و لإيفاء اللغة العربية حقها، اتخذت مزن استراتيجية محكمة تمحورت حول تصميم محرك متقدم يتعرف على الأعلام و يستنبط بشكل ذكي شتى الأنماط و المعلومات و التحاليل. ولضمان تحقيق أعلى المعايير في كفاءة المحركات استثمرت مزن في أميز المواهب العربية التي تقود عملية البحث و التطوير لمحركات الاستنباطات الذكية للنصوص العربية.
طريقة مزن
أخذت مزن بعين الاعتبار عامل الزمان و المكان لتحديد الأعلام ذات الأولوية المحلية و المنفعة الاستراتيجية والعملية للمنشآت والمنظمات الخاصة و الحكومية. ومن هذا المنطلق، قامت مزن ببناء محرك قادر على التعرف على أكثر من 22 علم مضاهياً عدد الأصناف التي توصلت لقياسها أكبر مجموعات البيانات في هذا المجال.
تمكنت مزن من بناء محرك تعرف على الأعلام قادر على استخراج أكثر من 22 نوع من الأعلام، متفوقين على ما توصلت إليه أحد أكبر قواعد البيانات في مجال الفهم اللغوي الطبيعي و المعروفة عالمياً باسم OneNotes.
لماذا الأعلام؟
تُمَكِن آلية التعرف على الأعلام من توليد استنباطات ذكية من البيانات الغير منظمة المتمثلة بالنصوص العربية بمختلف أشكالها و الأساليب التي كتبت بها في سياقات متعددة. لآلية التعرف على الأعلام قيمة محلية على وجه خاص حيث أنه لكل دولة في الشرق الأوسط استخدامات فريدة من نوعها في استخدامها للغة العربية و للأعلام بالتحديد. على سبيل المثال، يتم ذكر بعض الأعلام مثل 'ملك' و ' وزير' كثيراً في معظم النصوص العربية المنبثقة من وسائل الإعلام في الخليج. و إذا نظرنا في حيثيات اللغة العربية و استخداماتها المحلية، نجد أن مثل هذه الأعلام قد تنعكس على أسماء المنشآت والمنظمات وكذلك على بعض المراكز الحكومية ما قد يسبب اللبس لأي تقنية تقوم بمحاولة تحليل النصوص العربية و فهمها أو استخراج الاستنباطات منها. لذلك، في سياق تحليل البيانات و توليد الاستنباطات الذكية من النصوص العربية، من الضروري أن تتمكن التقنية المستخدمة من التكيف مع طرق الاستخدام الشائعة في السياق المحلي.
إذا نظرنا إلى واقعنا اليوم، نجد أنه لم يتم تطوير أو استخدام آلية للتعرف على الأعلام في النصوص العربية بشكل ممتاز ويعود ذلك إلى انعدام وجود محرك يستطيع أن يؤدي مهمة التحليل بمعيار رفيع. إذا نظرنا لأداء بعض المحركات العالمية في التعرف على الأعلام كما نشير في الشكلين أدناه (شكل 1-2)، نجد أن المحركات العالمية تقصر كثيرا مقارنة بمحرك مزن للتعرف على الأعلام فيما يتعلق بقدرة المحرك على إدراج السياق و العنصر المحلي للغة العربية. نأخذ المثال التالي لنبين الفارق الكبير بين أداء وفاعلية أحد المحركات المحركات العالمية في التعرف على الأعلام في النصوص العربية ومحرك مزن للتعرف على الأعلام:
شكل 1: يتمكن هذا المحرك من التعرف على علم واحد فقط من دون التقاط الربط بين الاسم و المنشأة التي يشير الاسم إليها، دلالة على ضعف المحرك في التحسس للسياق و الاستخدام المحلي، غير أنه يفشل في التعرف على أي علم آخر سوى الشخص (Person).
شكل 2: محرك مزن للتعرف على الأعلام في الجانب الآخر، بالإضافة إلى تغلبه على نظيره في التعرف على عدد أكبر من الأعلام في نفس النص، تمكن من التعرف على المنشأة (Facility) المرموز إليها باسم شخص (Person) من دون اللبس بين اسم الشخص و اسم المنشأة. يتضح من هذا المثال تفوق محرك مزن في التحسس لحيثيات السياق و الاستخدام اللغوي للنص العربي
المقارنة المعيارية
لم تكتف مزن بوضع الأهداف بل حققت نتائج متميزة تنعكس على كفاءة أداء محرك التعرف على الأعلام حيث وصلت إلى أعلى المستويات العالمية متفوقةً على أشهر المحركات العالمية الأخرى. نشير إلى النتائج المتفوقة أدناه.
١. صعيد المنافسين العالميين
فيما يلي نوضح المقارنة المعيارية بين المنافسين لنظام مُزْن للتعرف على الأعلام حيث عملنا على إدخال نص يتحدث عن مكتبة الملك عبدالعزيز العامة وقمنا بمقارنة أداء محرك مزن بمحركات عالمية منافسة كما هو موضح في النتائج التالية:
شكل 3: بالنظر إلى المقارنة أعلاه نجد أن محرك مزن للتعرف على الأعلام تفوق على محركات المنافسين العالميين الكبار حيث قام باستخراج أكبر عدد من الأعلام (29) متعرفاً على أكبر عدد من الأنواع التصنيفية (12) للأعلام من النص ذاته.
٢. صعيد البحث العلمي
كما قمنا بمقارنة محرك مُزْن للتعرف على الأعلام في اللغة العربية مع أحدث وأفضل الأنظمة الأكاديمية التي طورت للغة العربية والأنظمة الأكاديمية التي طورت للغة الإنجليزية كذلك. ويعد ما توصلت إليه مزن في أداء محركها للتعرف على الأعلام سبقاً فريداً من نوعه، حيث لم تقترب مستويات أداء المحركات العربية من نظيراتها الأجنبية من قبل مثلما اقترب محرك مزن للتعرف على الأعلام كما هو موضح في الرسم البياني التالي:
شكل 4: بالنظر إلى الرسم البياني أعلاه و الذي يعكس دقة المحرك في التعرف على الأعلام المرمزة وفق معايير عالمية بـدرجة الـ F1، نجد أن محرك مزن يتفوق في دقته على أفضل ما توصل إليه البحث الأكاديمي في الدقة للتعرف على الأعلام باللغة العربية. و علاوةً على ذلك، نجد أن محرك مزن يضاهي في دقته في التعرف على الأعلام باللغة العربية أفضل ما توصلت إليه المحركات العالمية الأكاديمية في دقتها للتعرف على الأعلام باللغة الإنجليزية.
الصدارة
فمن هذا المنظور و استشهاداً بالنتائج المتميزة، تفخر شركة مزن بتحقيقها الصدارة في الكفاءة في أداء محركها للتعرف على الأعلام من البيانات المتمثلة في الوثائق و النصوص العربية. إضافةً إلى اعتزازها بتمكنها من تطوير محركات أخرى مبنية على محرك التعرف على الأعلام مثل محرك تلخيص النصوص ومحرك الإجابة على الأسئلة ومحرك تحليل الانطباعات، و كل ذلك يغذي قدرات وطموحات شركة مزن لتوفير المزيد من الإمكانيات التقنية لتوليد الاستنباطات الذكية المنبثقة من النصوص والوثائق العربية.
الوجهة
تتطلع مزن لبناء المزيد من القدرات التقنية فيما يتعلق بمحركات الاستنباط الذكي من النصوص العربية مثل استخراج العلاقات من النصوص و الاستمرار في التفوق في الأداء و الرقي على شتى الأصعدة من أجل النهوض بالبنية التقنية التحتية للشرق الأوسط و اللغة العربية عالمياً.