הקשר שבין תרגום אנושי ותוכנת תרגום ממוחשבת

הכנסתם טקסט בשפה כלשהי ל"Google translate" והתרגום לעברית נראה לכם מלאכותי מידי? מחקר שנערך בחוג למדעי המחשב באוניברסיטת חיפה מצביע על שורה של גילויים חדשים.

10.07.2014 מאת: פורטל הכרמל והצפון
הקשר שבין תרגום אנושי ותוכנת תרגום ממוחשבת

מחקר שנערך בחוג למדעי המחשב באוניברסיטת חיפה מצביע על שורה של גילויים חדשים הקשורים לתכונות הלשוניות הייחודיות של טקסט שתורגם על ידי אדם, שיכולים לשפר בצורה משמעותית את היכולות של תוכנות התרגום הממוחשבות.

"ישנם הבדלים סטטיסטיים מובהקים בין טקסט שנכתב בשפה כלשהי במקור, לבין טקסט שתורגם לשפה זו על ידי אדם, לא חשוב כמה מוכשר המתרגם.

הקורא האנושי אולי אינו יכול להבחין בהבדלים אלה, אבל המחשב יכול לזהות אותם בדיוק מושלם", אמר פרופ' שולי וינטנר, ראש החוג למדעי המחשב ומי שעומד בראש הפרויקט.

תוכנות תרגום ממוחשבות, דוגמת "Google translate", הפכו לכלי שימושי כמעט בכל בית, והן מאפשרות תרגום שנע בין סביר לטוב מאוד לשורה ארוכה של שפות. אולם גם בתרגום בין שפות קרובות זו לזו יש לא מעט טעויות ואי דיוקים, במיוחד כשמדובר במשפטים ארוכים. הניסיונות לפתח תוכנות תרגום ממוחשבות החלו כבר בשנות ה-50 של המאה הקודמת, והשיטה השלטת התבססה על מילון דו לשוני גדול ומספר רב של כללי דקדוק המתארים התאמות בין שפות שונות. אולם גישה זו לא הצליחה להפיק תוצאות טובות, עד שבתחילת שנות ה-90 הציעו חוקרים ב-IBM שינוי פרדיגמה בשיטה.

מערכות התרגום החלו להיות מבוססות על שני מודלים סטטיסטיים מרכזיים, שאומדים את הסבירות של סדרות מילים בשפת המטרה – השפה שאליה אנו רוצים לתרגם ("מודל השפה"), כמו גם את הסבירות שסדרת מילים מסוימת בשפת המקור תיתרגם לסדרה מסוימת בשפת המטרה ("מודל התרגום").

כדי לקבל אומדנים טובים, על תוכנת התרגום הסטטיסטי לסרוק כמות עצומה של טקסטים: מודל השפה מתבסס על אוסף גדול של טקסטים בשפת המטרה, ומודל התרגום נבנה מתוך "טקסטים מקביליים": טקסטים שתורגמו (על ידי מתרגמים מקצועיים) משפת המקור לשפת המטרה, ומהם לומד המודל את ההתאמות בין סדרות מילים בשתי השפות. תוכנות התרגום משלבות שני מודלים אלה כדי לקבוע מה התרגום הטוב ביותר של משפט כלשהו: מודל התרגום מבטיח נאמנות למקור, ומודל השפה מבטיח רהיטות בשפת המטרה.

אולם ממצאים מתחום חקר התרגום מראים שיש הבדלים גדולים בין טקסטים שנכתבים במקור בשפה כלשהי לבין טקסטים שתורגמו לשפה זו משפה אחרת. המחקר שנערך באוניברסיטת חיפה מצא שלהבדלים אלה יש השפעה על היכולת של תוכנות התרגום לדייק בתרגום.

"לא חשוב עד כמה טוב ומוצלח המתרגם האנושי, השפה שבה כתוב טקסט כלשהו, שפת המקור, משאירה 'טביעות אצבע' על תוצר התרגום. נראה גם שיש עומסים קוגניטיביים במהלך תהליך התרגום שגורמים לתוצר הסופי להיות שונה באופן מובהק מטקסט שנכתב במקור באותה שפה.  הקורא האנושי אולי לא יוכל להבחין בין מסמך שנכתב בעברית כשפת מקור לבין טקסט שתורגם לעברית מאנגלית – אבל המחשב יודע לזהות זאת", הסביר פרופ' וינטנר.

במחקרים קודמים שנערכו כחלק מהפרויקט מצאו פרופ' וינטנר ושותפיו למחקר, ד"ר נועם אורדן ותלמידת המחקר ורד וולנסקי, מהן התכונות הלשוניות העיקריות שמבדילות בין טקסטים מקוריים למתורגמים. מסתבר שההבדלים לא מגיעים דווקא מכיוון עושר השפה או האורך של המשפטים, אלא דווקא ממקומות בלתי צפויים כמו למשל סימני פיסוק. "הסתבר שטקסט באנגלית שתורגם מגרמנית כולל פי חמישה יותר סימני קריאה מטקסט מקור באנגלית", הסביר. "אולם המאפיינים המשמעותיים ביותר של טקסט מתורגם הם מבנים תחביריים שונים".

תוצאות מחקר חדשות הושגו בעבודת הדוקטורט של ד"ר גנאדי למברסקי, בהנחייתו של פרופ' וינטנר ובשיתוף ד"ר אורדן. המחקר מצא כי כדי שהתוכנה תהייה מדויקת יותר, כיוון התרגום של הטקסט המקבילי ממנו נבנה "מודל התרגום" צריך להתאים לכיוון שבו אנו רוצים לתרגם – כלומר, כשאנו רוצים לתרגם טקסט מאנגלית לעברית, יש לבנות מודל תרגום מטקסטים שתורגמו מאנגלית לעברית ולא טקסטים שתורגמו מעברית לאנגלית. אולם בעוד שממצא זה נראה מתבקש, הממצא השני מפתיע יותר:

תוכנות תרגום סטטיסטי מדייקות הרבה יותר כאשר "מודל השפה" שלהן מתבסס על טקסטים שתורגמו לשפת המטרה– כלומר, תוכנה שבנתה "מודל שפה" מטקסטים בעברית שתורגמו ממקור באנגלית תרגמה טוב ומדויק יותר מאנגלית לעברית מאשר תוכנה שהתבססה על טקסטים שנכתבו בעברית במקור. על ממצאים אלה זכתה לאחרונה עבודת הדוקטורט בפרס העבודה המצטיינת לשנת 2013 של האגודה האירופאית לתרגום אוטומטי.

לדבריו של פרופ' וינטנר, הוא מאמין שבתוך 10 שנים תוכנות התרגום הממוחשבות יצליחו לדייק ברמה כזו שעבור מספר זוגות שפות, לא ניתן יהיה להבחין שמדובר ביצירה של מחשב. "בעשרים השנים האחרונות עבר תחום העיבוד הממוחשב של שפות להתבסס על מודלים סטטיסטים בלבד, במקום על ידע לשוני מוצרן. אנחנו הראנו שמודעות לתכונות הלשוניות של טקסט – במקרה שלנו, התכונות הלשוניות של תרגום אנושי – יכולה להועיל באופן משמעותי גם ליישומים שהם סטטיסטיים בעיקרם. בעתיד, צריך יהיה לנוע לעבר תוכנה שמשלבת בין שני המאפיינים", הוא סיכם

תגובות

מומלצים