Roya

الترجمة الآلية – كيف تعمل ، وما يتوقعه المستخدمون ، وما الذي يحصلون عليه

أصبحت أنظمة الترجمة الآلية (MT) في كل مكان الآن. يرجع هذا الوجود في كل مكان إلى مزيج من الحاجة المتزايدة للترجمة في السوق العالمية اليوم ، والنمو الهائل في قوة الحوسبة التي جعلت مثل هذه الأنظمة قابلة للحياة. وفي ظل الظروف المناسبة ، تعد أنظمة الترجمة الآلية أداة قوية. يقدمون ترجمات منخفضة الجودة في المواقف التي تكون فيها الترجمة منخفضة الجودة أفضل من عدم وجود ترجمة على الإطلاق ، أو عندما تكون الترجمة التقريبية لمستند كبير يتم تسليمه في ثوانٍ أو دقائق أكثر فائدة من الترجمة الجيدة التي يتم تسليمها في غضون ثلاثة أسابيع.

لسوء الحظ ، على الرغم من سهولة الوصول إلى الترجمة الآلية على نطاق واسع ، فمن الواضح أنه كثيرًا ما يُساء فهم الغرض من هذه الأنظمة وقيودها ، وقدراتها مبالغ فيها على نطاق واسع. في هذه المقالة ، أود أن أقدم نظرة عامة موجزة عن كيفية عمل أنظمة الترجمة الآلية وبالتالي كيف يمكن استخدامها على أفضل وجه. بعد ذلك ، سأقدم بعض البيانات حول كيفية استخدام الترجمة الآلية المستندة إلى الإنترنت في الوقت الحالي ، وأظهر أن هناك فجوة بين الاستخدام المقصود والفعلي لهذه الأنظمة ، وأن المستخدمين لا يزالون بحاجة إلى التثقيف حول كيفية استخدام أنظمة الترجمة الآلية بشكل فعال .

كيف تعمل الترجمة الآلية

ربما كنت تتوقع أن يستخدم برنامج ترجمة الكمبيوتر القواعد النحوية للغات المعنية ، ويجمعها مع نوع من “القاموس” في الذاكرة لإنتاج الترجمة الناتجة. وبالفعل ، هذه هي الطريقة التي عملت بها بعض الأنظمة السابقة. لكن معظم أنظمة الترجمة الآلية الحديثة تتبع نهجًا إحصائيًا “أعمى لغويًا” تمامًا. في الأساس ، يتم تدريب النظام على مجموعة من أمثلة الترجمات. والنتيجة هي نموذج إحصائي يتضمن معلومات مثل:

– “عندما تحدث الكلمات (أ ، ب ، ج) على التوالي في جملة ، هناك احتمال بنسبة X٪ أن الكلمات (د ، هـ ، و) ستظهر بالتتابع في الترجمة” (ملاحظة: ليس هناك أن تكون نفس عدد الكلمات في كل زوج) ؛

– “بالنظر إلى كلمتين متتاليتين (أ ، ب) في اللغة الهدف ، إذا كانت الكلمة (أ) تنتهي بـ -X ، فهناك احتمال بنسبة X٪ أن تنتهي الكلمة (ب) بـ -Y”.

بالنظر إلى قدر كبير من هذه الملاحظات ، يمكن للنظام بعد ذلك ترجمة جملة من خلال النظر في الترجمات المختلفة المرشحة – التي يتم إجراؤها عن طريق تجميع الكلمات معًا بشكل عشوائي تقريبًا (في الواقع ، من خلال بعض عمليات “الاختيار الساذجة”) – واختيار أكثر ترجيحًا إحصائيًا اختيار.

عند سماع هذا الوصف عالي المستوى لكيفية عمل الترجمة الآلية ، فوجئ معظم الناس بأن مثل هذا النهج “أعمى لغويًا” يعمل على الإطلاق. الأمر الأكثر إثارة للدهشة هو أنه عادةً ما يعمل بشكل أفضل من الأنظمة المستندة إلى القواعد. هذا جزئيًا لأن الاعتماد على التحليل النحوي نفسه يُدخل أخطاء في المعادلة (التحليل الآلي ليس دقيقًا تمامًا ، ولا يتفق البشر دائمًا على كيفية تحليل الجملة). ويتيح لك تدريب النظام على “النص المجرد” بناء نظام على بيانات أكثر بكثير مما يمكن أن يكون ممكنًا: مجموعة النصوص التي تم تحليلها نحويًا صغيرة وقليلة ومتباعدة ؛ صفحات “النص المجرد” متوفرة في تريليوناتهم.

ومع ذلك ، ما يعنيه هذا النهج هو أن جودة الترجمات تعتمد بشكل كبير على مدى جودة تمثيل عناصر النص المصدر في البيانات المستخدمة في الأصل لتدريب النظام. إذا قمت بالكتابة عن طريق الخطأ ، فسوف يعود أو يطالب vous avez (بدلاً من أنه سيعود أو vous avez requesté) ، فسيتم إعاقة النظام بحقيقة أن التسلسلات مثل الإرادة المرتجعة من غير المرجح أن تكون قد حدثت عدة مرات في مجموعة التدريب (أو والأسوأ من ذلك ، أن يكون قد حدث بمعنى مختلف تمامًا ، لأنهم يحتاجون إلى إرادته تعود إلى المحامي). ونظرًا لأن النظام لديه القليل من المفاهيم النحوية (للعمل ، على سبيل المثال ، فإن ذلك يُعد شكلاً من أشكال العودة ، و “من المحتمل أن يكون المصدر بعد إرادته”) ، فإنه في الواقع ليس لديه الكثير ليواصله.

وبالمثل ، قد تطلب من النظام ترجمة جملة نحوية تمامًا وشائعة في الاستخدام اليومي ، ولكنها تتضمن ميزات لم تكن شائعة في مجموعة التدريب. عادةً ما يتم تدريب أنظمة الترجمة الآلية على أنواع النصوص التي تتوفر لها ترجمات بشرية بسهولة ، مثل المستندات الفنية أو التجارية ، أو نسخ اجتماعات البرلمانات والمؤتمرات متعددة اللغات. يمنح هذا أنظمة الترجمة الآلية انحيازًا طبيعيًا لأنواع معينة من النصوص الرسمية أو الفنية. وحتى إذا كانت المفردات اليومية لا تزال مغطاة بمجموعة التدريب ، فإن قواعد الكلام اليومي (مثل استخدام tú بدلاً من usted باللغة الإسبانية ، أو استخدام صيغة المضارع بدلاً من صيغة المستقبل بلغات مختلفة) قد لا تكون كذلك.

أنظمة الترجمة الآلية في الممارسة

لطالما كان الباحثون ومطورو أنظمة الترجمة الحاسوبية على دراية بأن أحد أكبر المخاطر هو سوء فهم الجمهور للغرض منها والقيود. سومرز (2003)[1]، مع ملاحظة استخدام مسرح ماجنت على الويب وفي غرف الدردشة ، يعلق على ذلك: “لقد كان لهذه الرؤية المتزايدة لمادة الترجمة الآلية عدد من الآثار الجانبية. […] من المؤكد أن هناك حاجة لتثقيف الجمهور حول الجودة المنخفضة لـ MT الخام ، والأهم من ذلك ، لماذا تكون الجودة منخفضة للغاية. “مراقبة MT قيد الاستخدام في عام 2009 ، للأسف ، هناك القليل من الأدلة على أن وعي المستخدمين بهذه القضايا قد تحسن .

كتوضيح ، سأقدم عينة صغيرة من البيانات من خدمة الترجمة الآلية الإسبانية-الإنجليزية التي أتاحها في إسباني إنجليزي موقع الكتروني. تعمل الخدمة من خلال أخذ مدخلات المستخدم ، وتطبيق بعض عمليات “التنظيف” (مثل تصحيح بعض الأخطاء الإملائية الشائعة وفك تشفير الحالات الشائعة لـ “SMS-talk”) ، ثم البحث عن الترجمات في (أ) بنك أمثلة من قاموس الموقع الأسباني-الإنجليزي ، و (ب) محرك MT. حاليًا ، يتم استخدام Google Translate لمحرك MT ، على الرغم من إمكانية استخدام محرك مخصص في المستقبل. الأرقام التي أعرضها هنا مأخوذة من تحليل 549 استفسارًا إسبانيًا إنكليزيًا تم تقديمه للنظام من الأجهزة في المكسيك[2]- بعبارة أخرى ، نفترض أن معظم المستخدمين يقومون بالترجمة من لغتهم الأم.

أولاً ، لماذا يستخدم الأشخاص نظام مسرح ماجنت؟ لكل استعلام ، حاولت “أفضل تخمين” لغرض المستخدم لترجمة الاستعلام. في كثير من الحالات ، يكون الغرض واضحًا تمامًا ؛ في حالات قليلة ، هناك غموض واضح. مع هذا التحذير ، أرى أنه في حوالي 88٪ من الحالات ، يكون الاستخدام المقصود واضحًا إلى حد ما ، وصنف هذه الاستخدامات على النحو التالي:

  • البحث عن كلمة أو مصطلح واحد: 38٪
  • ترجمة نص رسمي: 23٪
  • جلسة محادثة عبر الإنترنت: 18٪
  • الواجب المنزلي:

هناك ملاحظة مفاجئة (إن لم تكن مزعجة!) وهي أنه في مثل هذه النسبة الكبيرة من الحالات ، يستخدم المستخدمون المترجم للبحث عن كلمة أو مصطلح واحد. في الواقع ، كانت 30٪ من الاستفسارات تتكون من كلمة واحدة. يعتبر هذا الاكتشاف مفاجئًا بعض الشيء نظرًا لأن الموقع المعني يحتوي أيضًا على قاموس إسباني-إنجليزي ، ويشير إلى أن المستخدمين يخلطون بين الغرض من القواميس والمترجمين. على الرغم من عدم تمثيلها في الأرقام الأولية ، كان من الواضح أن هناك بعض حالات البحث المتتالية حيث ظهر أن المستخدم تعمد تقسيم جملة أو عبارة كان من الممكن ترجمتها بشكل أفضل إذا تركت معًا. ربما كنتيجة لإفراط الطالب في استخدام القاموس ، نرى ، على سبيل المثال ، استعلامًا عن cuarto para (“ربع إلى”) متبوعًا مباشرة باستعلام عن رقم. من الواضح أن هناك حاجة لتثقيف الطلاب والمستخدمين بشكل عام حول الفرق بين القاموس الإلكتروني والمترجم الآلي[3]: على وجه الخصوص ، أن القاموس سيرشد المستخدم إلى اختيار الترجمة المناسبة في ضوء السياق ، ولكنه يتطلب عمليات بحث من كلمة واحدة أو عبارة واحدة ، في حين أن المترجم يعمل بشكل أفضل في الجمل الكاملة ويعطي كلمة واحدة أو مصطلحًا واحدًا ، الإبلاغ عن الترجمة الأكثر شيوعًا من الناحية الإحصائية.

أقدر أنه في أقل من ربع الحالات ، يستخدم المستخدمون نظام الترجمة الآلية لغرض “التدريب من أجل” الخاص به المتمثل في ترجمة نص رسمي أو تكوينه (ويدخلون جملة كاملة ، أو على الأقل جملة جزئية بدلاً من اسم منفصل العبارة). بالطبع ، من المستحيل معرفة ما إذا كانت أي من هذه الترجمات كانت معدة للنشر دون دليل إضافي ، وهذا بالتأكيد ليس الغرض من النظام.

يكاد يكون استخدام ترجمة النصوص الرسمية منافسًا لاستخدام ترجمة جلسات الدردشة غير الرسمية عبر الإنترنت – وهو سياق لا يتم تدريب أنظمة الترجمة الآلية عليه عادةً. يطرح سياق الدردشة عبر الإنترنت مشاكل خاصة لأنظمة الترجمة الآلية ، نظرًا لأن ميزات مثل التهجئة غير القياسية ونقص علامات الترقيم ووجود التعبيرات العامية غير الموجودة في السياقات المكتوبة الأخرى شائعة. من المحتمل أن تتطلب جلسات الدردشة المراد ترجمتها بفعالية نظامًا مخصصًا مدربًا على مجموعة أكثر ملاءمة (وربما مصممة خصيصًا).

ليس من المستغرب أن يستخدم الطلاب أنظمة الترجمة الآلية لأداء واجباتهم المدرسية. لكن من المثير للاهتمام ملاحظة إلى أي مدى وكيف. في الواقع ، يتضمن الاستخدام في الواجبات المنزلية مزيجًا من “الاستخدام العادل” (فهم تمرين) مع محاولة “جعل الكمبيوتر يؤدي واجباته المدرسية” (مع نتائج رهيبة متوقعة في بعض الحالات). تتضمن الاستفسارات المصنفة كواجب منزلي الجمل التي من الواضح أنها تعليمات للتمارين ، بالإضافة إلى جمل معينة تشرح العموميات التافهة التي قد تكون غير شائعة في النص أو المحادثة ، ولكنها نموذجية في تمارين الواجبات المنزلية للمبتدئين.

مهما كان الاستخدام ، فإن المشكلة بالنسبة لمستخدمي النظام والمصممين على حد سواء هي تكرار الأخطاء في النص المصدر والتي من شأنها أن تعرقل الترجمة. في الواقع ، احتوت أكثر من 40٪ من الاستعلامات على مثل هذه الأخطاء ، مع احتواء بعض الاستعلامات على العديد منها. كانت الأخطاء الأكثر شيوعًا هي التالية (تم استبعاد الاستعلامات الخاصة بكلمات مفردة والمصطلحات في حساب هذه الأرقام):

  • اللهجات المفقودة: 14٪ من الاستفسارات
  • علامات الترقيم المفقودة: 13٪
  • خطأ إملائي آخر:
  • جملة غير مكتملة نحويًا:

مع الأخذ في الاعتبار أنه في معظم الحالات ، عندما يقوم المستخدمون بالترجمة من لغتهم الأم ، يبدو أن المستخدمين يقللون من أهمية استخدام قواعد الإملاء القياسية لإعطاء أفضل فرصة للحصول على ترجمة جيدة. وبشكل أكثر دقة ، لا يفهم المستخدمون دائمًا أن ترجمة كلمة ما يمكن أن تعتمد على أخرى ، وأن عمل المترجم يكون أكثر صعوبة إذا كانت المكونات النحوية غير مكتملة ، لذا فإن الاستفسارات مثل hoy es día de ليست غير شائعة. مثل هذه الاستعلامات تعيق الترجمة لأن فرصة وجود جملة في مجموعة التدريب ، على سبيل المثال ، بحرف جر “متدلي” مثل هذا ستكون ضئيلة.

دروس يمكن تعلمها …؟

في الوقت الحالي ، لا يزال هناك عدم تطابق بين أداء أنظمة الترجمة الآلية وتوقعات المستخدمين. أرى أن المسؤولية عن سد هذه الفجوة تقع على عاتق المطورين والمستخدمين والمعلمين. يحتاج المستخدمون إلى التفكير أكثر في جعل جمل المصدر الخاصة بهم “متوافقة مع الترجمة الآلية” وتعلم كيفية تقييم مخرجات أنظمة الترجمة الآلية. تحتاج دورات اللغة إلى معالجة هذه المشكلات: يجب أن يُنظر إلى تعلم استخدام أدوات ترجمة الكمبيوتر بشكل فعال على أنه جزء مهم من تعلم استخدام اللغة. ويحتاج المطورون ، بمن فيهم أنا ، إلى التفكير في كيفية جعل الأدوات التي نقدمها أكثر ملاءمة لاحتياجات مستخدمي اللغة.

ملاحظات

[1] سومرز (2003) ، “الترجمة الآلية: أحدث التطورات” في دليل أكسفورد للغويات الحاسوبية ، جامعة أكسفورد.

[2] هذا الرقم الفردي هو ببساطة لأن الاستعلامات المطابقة لمعايير الاختيار تم التقاطها باحتمالية عشوائية ضمن إطار زمني ثابت. وتجدر الإشارة إلى أن نظام استخلاص بلد الجهاز من عنوان IP الخاص به ليس دقيقًا تمامًا.

[3] إذا أدخل المستخدم كلمة واحدة في النظام المعني ، فسيتم عرض رسالة أسفل الترجمة تشير إلى أن المستخدم سيحصل على نتيجة أفضل باستخدام قاموس الموقع.