תגית: ocr

  • טעויות נפוצות ב-OCR בעברית, ואיך להתמודד איתן

    פוסט אורח מאת שרון לוי בסדנת הקיץ של "מדע הנתונים לטובת הכלל״ אנחנו עובדים עם עמותת ״דף חדש״ לניתוח פסקי דין שקשורים להסדרי חוב. חלק מהמסמכים קיימים בצורת doc או pdf שאפשר למשוך מהם את הטקסט ישירות כמחרוזת. אבל חלקם הם תמונה סרוקה של מילים מודפסות, ויש צורך בהמרה של התמונה למילים. טכנולוגיה להמרת קבצים…