המרוץ אחר התרגום המושלם
ביום שמחשב יצליח להבין שעט קטן יותר מקופסת צעצועים - נזכה לקבל, לראשונה ממכונה, תרגום ראוי באמת. אורן צור נכנס בעובי הקורה


בחזון אחרית הימים של המזרח התיכון החדש יגור זאב עם כבש. אבל איך יתקשרו ביניהם הזאב והכבש והרי הם לא דוברים אותה השפה? אולי הם יעזרו במתרגמים האוטומטיים. לא תמיד זה יעזור. אבל למה לקפוץ אל האוטופיה העתידית כאשר כבר עכשיו אלפי ספרים מרתקים מחכים לקורא העברי שאינו דובר אנגלית, ספרדית סינית או ערבית? מיליוני דפי רשת עמוסי מידע חשוב נמצאים במרחק הקלקת עכבר אבל אינם נגישים בגלל מחסום השפה. עשרות קציני מודיעין ומפענחים יושבים מתוסכלים אל מול ערמות מסמכים בערבית ואינם עומדים בקצב התרגום, המיון והניתוח. המתרגם האוטומטי – חזון אחרית הימים של הבינה המלאכותית, יוכל, אולי, לסייע. בינתיים העתיד עוד לא ממש כאן.


אחד מאותם אימיילים משורשרים, אותם נוהגים אנשים משועממים להעביר אחד לשני במקום לעבוד, עסק באמא של ג'וני וגם בפאשלות תרגום של גוגל. אולי תמצאו את זה מצחיק ואולי וולגארי, אבל התופעה בהחלט משקפת את בעיות התרגום הממוחשב.
להלן ההוראות: לכו למתרגם האוטומטי של גוגל ונסו לתרגם מאנגלית לספרדית את המחמאה הבא על אמא של נינט: "Ninet's mom is nice and cool" (ובעברית חופשית: אמא של נינט היא 'בסדר'). את המשפט המתורגם תרגמו חזרה מספרדית לאנגלית, לכאורה פעולה פשוטה של תרגום ותרגום חזרה – כך שיש לצפות לקבל את המשפט המקורי.
לעצלנים שבינינו - המשפט המתקבל הוא "The breast of Ninet is pleasant and fresh" (ובעברית משהו כמו: החזה של נינט הוא נעים וצעיר), משפט חיווי שאפשר להסכים איתו או שלא, אבל אין לו דבר וחצי דבר עם המשפט המקורי. נעים? לא נעים ובעיקר מביך.


אפשר לפצוח בסדרה של הסברים ותירוצים למחדל אבל כדאי, אולי, להתחיל בקצת רקע. תרגום מורכב, למעשה, משני שלבים עיקריים – פיענוח או הבנה של המידע הצפון בטקסט המקורי וקידוד הידע הזה לשפה חדשה. המונחים האלו – פיענוח, קידוד והבנה מזכירים מאוד חידות ואתגרים של פיצוחי צפנים ואכן, העניין בתרגום אוטומטי התעורר במלחמת העולם השניה בדיוק כאשר פותחו המחשבים הראשונים ונעשה בהם שימוש לצרכי הצפנה ופיענוח של הודעות. חוקרי המודיעין הניחו שאם ילד קטן יכול להבין שפה בקלות אך לא לפתור בעיות מתמטיות סבוכות, אזי המחשבים הענקיים שמבצעים חישובים מתמטיים מסובכים במהירות מרשימה (עדיין כמה שנים לפני הפנטיום) יוכלו גם לתרגם במהירות. ההנחה הנאיבית התפוצצה על סלעי המציאות והאניגמה (ראו קישור בסוף הכתבה). מסתבר שהבנת שפה מסובכת קצת יותר ממתמטיקה.

התרגום האוטומטי הראשון (מרוסית לאנגלית, כמתחייב מהמלחמה הקרה), נערך במעבדות IBM לעיני עיתונאים רק ב-1954 והוגדר כהצלחה. הכסף החל לזרום והמחקר התפתח עד שבא אחד משלנו - יהושע בר-הלל והנחית על התחום מכת מוות כשטען (ובצדק) שבכדי לתרגם לא מספיק לדעת את תרגום המילים ואף לא את כללי הדקדוק אלא חייבים הבנה של הקונטקסט. הבנה של הקונטקסט מחייבת ידע כללי על העולם – דבר שאינו בר השגה למחשב. כדי להוכיח את הטענה נתן בר הלל את הדוגמא הבאה:

המילה האנגלית pen משמעותה גם עט (כלי כתיבה) וגם ארגז צעצועים. הצירוף "toy box", פירושו גם ארגז צעצועים וגם קופסת צעצוע. כל ילד ידע לתרגם זאת לעברית כ"ג'ון חיפש את קופסת הצעצוע שלו. לבסוף הוא מצא אותה. הקופסה הייתה בארגז הצעצועים. ג'ון שמח מאוד". סביר להניח שמחשב יתרגם זאת בצורה הבאה: "ג'ון חיפש את ארגז הצעצועים שלו. לבסוף הוא מצא אותו. הארגז היה בעט. ג'ון שמח מאוד". המפתח לפיענוח הדו-משמעות גלום בעובדה הפשוטה שקופסא לא יכולה להיות בתוך עט - זה פשוט לא מסתדר עם הגדלים. לא צריך להיות איינשטיין כדי להבין – עניין של יחסות פשוטה. המחשב, לעומת זאת, חסר לחלוטין ידע מסוג זה. תרגום אוטומטי הפך לחזון אחרית הימים של הבינה המלאכותית – השלב הסופי המגדיר מחשב כישות אינטליגנטית לאחר מבחן טיורינג (ראו קישור בסוף הכתבה).


כמה שנים עברו עד שהמחקר בתחום התרגום הצליח להתאושש, גם זה בעזרת אחד משלנו, סרגיי נירנברג שמו. לעזרת התרגום האוטומטי הצטרפו כלים סטטיסטיים, התפתחויות בבלשנות ובעיקר כח חישוב מהיר. המתרגמים האוטומטיים המודרניים יורים בכל הכלים. הם משתמשים במילונים עבי כרס, מפרקים את המשפטים למבנים דקדוקיים ומתרגמים את המבנה תוך ניצול של ידע כללי ודקדוקי שהוזן למחשב או ידע שמצוי במבנה הסטטיסטי של השפה. כיום, חמישים שנה אחרי בר הלל, תרגום אוטומטי הוא תחום חם ומבעבע ששוב מושך תקציבים ומהווה אתגר לחברות ענק כמו גוגל שמספקת מנוע תרגום אונליין, מייקרוסופט ואחרות. אבל האמא הנחמדה של נינט מקלקלת את החגיגה ומדגימה שגם היום, למרות ההתפתחויות, התרגום האוטומטי רחוק מלהשביע רצון.


מלבד גוגל מספקת גם וורלד-לינגו מערכת תרגום חופשית על הרשת. תמורת תשלום מספקת וורלד לינגו גם תמיכה בעברית. במידע דיגיטלי מביא חנן כהן את הטקסט העברי הבא, פרי התרגום של וורלד לינגו: "דרך אגב, מגעיל זה של זה הזמנים מרשים שימוש לו המקום שלהם לנסות לנקות את המוניטין שלו. אחרי כל האם זה בסדר של זה עם הזמנים, זה מוכרח לבסדר? זה נקראות עבור הסרת אחריות מהאמרת זמנים הם לא סנקציה התעלול Ledbetter תואר, ולא למדי של זה למודה להם מאחר, משהו יותר נדרש. עיתונאות לא כמו דבר ארעי. עורך דין שהודה כמו vaccuum ישלל רישיונו אתי. עיתונאות לי רק כגבוה קריאה. אולי לא עבור הזמנים? מאוכזב."


גם אני מאוכזב. כנראה שמי ששילם כסף עבור התרגום הזה מאוכזב גם הוא. אם הסקרנות הורגת אתכם - תוכלו לראות את הטקסט האנגלי המקורי במידע דיגיטלי. ועוד לא דיברנו על משחקי מילים, ביטויים מיוחדים לשפה והקשרי תרבות. 'הסקרנות הרגה את החתול' גם באנגלית, אבל מה עם 'לא עשו אותי באצבע', 'תורה למשה מסיני' ו'תרגום השבעים'?
אלוהים ישמור, או 'חרמנא לצלן', כמו שמתרגם-משבש בחינניות דן אלמגור בחלום ליל קיץ של שייקספיר.