זיהוי אותיות אופטי

זיהוי תווים אופטי

הקדמה

מטרתם של כלים לזיהוי תווים אופטי להפוך טקסט, מודפס על נייר, לטקסט דיגיטלי אותו ניתן לערוך בעזרת מחשב. טקסט דיגיטלי תופס פחות מקום אכסון, ניתן לעריכה במעבד תמלילים וקל יותר לחיפוש ואינדוקס. התהליך שימושי במיוחד כאשר יש לנו טקסט מודפס ואנו רוצים להשתמש בו בעבודת מחקר, בדפים המחולקים לתלמידים, באתר אינטרנט או בלוג. שימושים נוספים יכלים להיות פענוח טפסים ודפי מבחן בצורה אוטומטית, תוך חיסכון בעבודה של בודק המבחנים.

תהליך הפיכת טקסט מודפס לטקסט דיגיטלי מורכב ממספר שלבים. ראשית סורקים או מצלמים את הטקסט לקובץ תמונה, אח"כ מפעילים על התמונה תוכנה שמפענחת ממנה את הטקסט. בד"כ יהיה צורך להכין את התמונה לפני ביצוע זיהוי התווים, לנקות לכלוכים ולוודא כי הכתב קריא וברור. זהו תהליך הפוך להדפסת מסמך: בעוד שבהדפסה הופכים תווים מוקלדים לתמונה, בזיהוי תווים אופטי ממירים ומפענחים תמונה, לקובץ של אותיות מוקלדות.

קישור חיצוני:

זיהוי תווים אופטי בויקיפדיה

כלים נפוצים

סריקה

בד"כ נסרוק את הטקסט שלנו בעזרת סורק. בלינוקס נשתמש בכלים הבנויים סביב מערכת sane. מדריך זה לא יתעמק בנושא סריקת הטקסט. למידע נוסף על סריקת מסמכים, והכלים הנפוצים אפשר לפנות לאתר של sane.

קישור חיצוני (אנגלית):

אתר הבית של פרויקט sane

דף תכנות המשתמשות ב sane

טקסט לועזי

ישנן מספר תכנות חופשיות המסוגלות להמיר קובץ תמונה לקובץ טקסט לועזי. הנפוצות הן, gocr ו tesseract. תכנות אלו סטנדרטיות ומצויות במאגרים של רוב הפצות הלינוקס. יש להן גם גרסאות למערכות הפעלה נוספות.

קישור חיצוני (אנגלית):

אתר תכנת tesseract

טקסט עברי

תכנות חופשיות להמרת קובץ תמונה לקובץ טקסט עברי נדירות יותר. מדריך זה יתמקד במערכת hocr. למערכת hocr מנשק שורת פקודה בשם hocr, מנשק גרפי בשם hocr-gtk וכן ניתן לכתוב תסריטים ותכנות המשתמשות במערכת בשפת פיתון.

קישור חיצוני (אנגלית):

דף הבית של תכנת hocr

hocr-gtk

ניתן להשתמש במערכת hocr במספר צורות ומנשקים. לכל צורת שימוש יתרונות משלה. מדריך זה יתמקד בשימוש במנשק הגרפי של המערכת. היתרונות של שימוש במנשק הגרפי הם קלות השימוש והלימוד, היכולת להשתמש בסורק או בקבצי תמונה מוכנים, והצגה ברורה של אפשרויות הכיוון השונות של המערכת.

כאשר פותחים את תכנת hocr-gtk מקבלים חלון המחולק לשניים. החלק העליון מיועד לתמונת הטקסט אותה אנו רוצים לפענח, והתחתון מיועד להגהת הטקסט המפוענח. מדריך זה ניכתב עבור גירסה 0.10.7 של מערכת hocr. את גירסאת המערכת אפשר לראות בחלון האודות.

hocr-gtk about

הפעלת המערכת על תמונה מקובץ

כאשר נרצה להמיר תמונה נשתמש בתפריט ה"קובץ" ונבחר באפשרות "חדש". יפתח חלון חדש לפתיחת קובץ, בו נבחר את קובץ התמונה אותו אנו רוצים להמיר. תכנת hocr-gtk יודעת לקרוא את רוב קבצי התמונה הקיימים (png, jpeg, bmp, tiff, pnm ... ) . לתוכנה גם אין בעיה להתמודד עם תמונות בעומקי צבע שונים, עם תמונות שחור לבן או תמונות בגווני אפור.

hocr-gtk new

לאחר שנלחץ על אפשרות ה"חדש" , נקבל חלון חדשה לבחירת קובץ. בחלון בחירת הקובץ נבחר את קובץ התמונה אותו אנו רוצים להמיר מתמונה לטקסט. כאשר נלחץ על שם של קובץ נראה תמונה קטנה של תוכן הקובץ בצד חלון פתיחת הקובץ. התמונה הקטנה תעזור לנו לבחור את קובץ התמונה אותו אנו רוצים לפענח.

hocr-gtk open

סריקה של טקסט בעזרת סורק

ניתן גם לסרוק את הטקסט ישירות לתוך תכנת hocr-gtk. כדי לסרוק טקסט ישירות לתכנה נשתמש בתפריט "קובץ" ואז נבחר את האפשרות "סרוק". כאשר אנו רוצים לזהות טקסט לא ברור, ישן, או שאנו חושבים שההדפסה אינה איכותית נשתדל לסרוק בהפרדה גבוהה ובצבע. בתמונה הבאה נראה דף מתנ"ך בו הדפוס קטן ולא ברור. הטקסט ניסרק בצבע מלא ובהפרדה של 1200 נקודות לאינץ. בד"כ אין צורך בהפרדה כה גבוהה, טקסט ברור ונקי אפשר לסרוק גם בהפרדה של 300 נקודות לאינץ.

hocr-gtk sane

המרת תמונה לטקסט

לאחר שבחרנו בקובץ התמונה אותו אנו רוצים להמיר, או שסרקנו טקסט בעזרת הסורק, נבחר שוב בתפריט "קובץ" אך הפעם נבחר באפשרות "החל". תהליך פענוח התמונה לוקח זמן (רב..) , במהלך הפענוח יופיע פס התקדמות שיעלם עם סיום תהליך הפענוח. פס ההיתקדמות יתמלא ויתרוקן מספר פעמים לפני שנקבל את תוצאות ההמרה. בתמונה רואים את פס ההתקדמות בפינה הימנית התחתונה של חלון התכנה, על פס ההתקדמות כתובה המילה "מעבד..."

hocr-gtk apply

הגהת הטקסט

לאחר סיום תהליך הפענוח נקבל את הטקסט המפוענח בחלון עריכת הטקסט. כדי להגיה את הטקסט בקלות, חלון הטקסט וחלון התמונה מסודרים זה מעל זה. חלון עריכת הטקסט מאפשר לבצע את כל פעולות העריכה הרגילות, העתקה, גזירה והדבקה. פעולות העריכה זמינות מתפריט ה"עריכה" וגם מקיצורי מקשים.

hocr-gtk finish

אפשרויות נוספות

אפשרות נוספת שמאפשרת התכנה היא הצגת הטקסט כפי שהתכנה רואה אותו. אם נבחר בתפריט "תצוגה" ובאופציה "תמונה" נוכל לראות את הטקסט הסרוק כפי שהוא, כמו שהוא נראה לאחר עיבודו לתמונה שחור-לבן ואף ניתן לראות את הצורה שבה התכנה הבינה את מבנה הטקסט. אופציה זו שימושית כדי לזהות בקלות מקומות בטקסט אותן התכנה זיהתה בצורה שגויה. שורות טקסט שזוהו ע"י התוכנה יסומנו בקוים אדומים, מילים יסומנו בריבועים צהובים ואותיות יופרדו ע"י קוים כחולים. מקומות בהן התכנה שגתה בזיהוי השורות יהיו מקומות בהם נחפש שגיאות בתהליך ההמרה.

hocr-gtk layout

לתוכנה אפשרויות רבות נוספות. ניתן לבצע את זיהוי האותיות עם ובלי ניקוד. אפשר לקבל את התוצאה של זיהוי האותיות בפורמט html מיוחד שהוגדר לצורך הצגת טקסט שעבר תהליך ocr, ומשמש תוכנות ocr נוספות. ניתן לשמור את תוצאת הזיהוי לקובץ, ולשנות את גודל תמונת הטקסט לצורך הגהה קלה ואף את הגופן המשמש את חלונית העריכה.

ניתן להשתמש בתכנה גם לזיהוי טקסט לועזי ע"י בחירת מנוע זיהוי אותיות שונה מ hocr. בתפריט ה "עריכה" תחת האפשרות "מנוע" ניתן לשנות את מנוע הזיהוי, במידה ומותקן מנוע זיהוי תווים מסוג tesseract במערכת.