-
רזולוציה
ביום 3.6.2022 כתבה לי ירון בהארץ על מחסור במשאבי מחשוב למחקר אקלימי. מחשב חזק יותר יאפשר תחזית מדויקת יותר. אחד המדדים של הדיוק הוא רזולוציה מרחבית: כמה קטן תא השטח שעבורו ניתן להפיק תחזית. להמחשה מצורף הגרף הזה, ככל הנראה מתוך התיזה של אסף הוכמן:
זה גרף מוצלח. הוא מעביר נקודה טכנית די עדינה בצורה ויזואלית ברורה. אפקט הפיקסליזציה מוכר לרוב האנשים, וחוסך את הצורך להכנס להגדרות מתימטיות. אם מבחן של גרף בכתבה בעיתון הוא שהוא מעביר את הנקודה למי שלא קורא את הטקסט, אז הוא בהחלט עובר אותו.
אם להתעקש על נקודות לשיפור, הייתי אומר:
- להראות על הגרף מה ״רע״ (50 ק״מ שיש היום) ומה ״טוב״ (8 ק״מ, אם ימצא התקציב למחשב).
- להסביר מה הגרף עצמו מראה. בכותרת רשום HSURF, שהוא מונח שרוב קוראי הארץ לא מכירים. זה משקעים? רוח? היחידות של הסקלות מימין הן במטרים. האם זה גובה טופוגרפי?
-
קופה עד 10 מוצרים
ביום 25.5.2022 כתבה עדי דברת-מזריץ בדה-מרקר על שינויםי בהרגלי הצריכה. בכותרת ציינו כי ״ההוצאה זינקה ב-8%״, לפחות בפרינט (כתבת שער קדמי). זאת בעוד הצרכנים ״קנו פחות״. איך מגדירים הפחתה בקניות? לפי הכתבה, הנתונים של חברת סטורנקסט מכילים את ״כמות המוצרים שנקנו״. מה זה בעצם אומר? פשוט ספירה של מספר הברקודים שנסרקו? הכתבה לא מכילה מידע שימושי לעזור לנו לענות על השאלה. נניח שאכן סופרים מוצרים. ומה אם עברתי לקנות ניר טואלט באריזות של 48 גלילים, לעומת 36 בעבר? הצריכה הממוצעת שלי לא אמורה לעלות, אבל לפי הכתבה אני ״קונה פחות״. היינו שמחים לקצת יותר פירוט של השיטות.
ועוד דבר – הכתבה מכילה השוואה בין 2022 לשלוש השנים הקודמות. הזינוק בהוצאה (מנורמל לגודל האוכלוסיה), קרה רק באחת מהן – 2019. אמנם השנים האחרות היו תחת השפעת הקורונה. ובכל זאת – מה שמתואר בכותרת נכון רק לאחת מתוך שלוש.
ודבר אחרון, באותיות הקטנות – כל הנתונים נמדדו בין ינואר לאפריל. רק שליש מהשנה. מה קורה בשאר השנה? ברור שלגבי 2022 עדיין אין נתונים. ובכל זאת, בטוח לסטורנקסט יש תובנות לגבי היחס בין קניות בשליש הראשון של השנה לשאר השנה. חבל שמשאירים אותנו לנחש.
-
בין שתי ערים
ביום 22.5.2022 כתבה עדי כהן בדה-מרקר על עלית מחירי הדירות להשכרה. את הכתבה מלווה הגרף הבא:
מה שמיד קופץ לעין זו השורה בורוד, של פתח תקוה. היא בולטת כי הצבע שלה ייחודי: שאר השורות צבועות בצבעי ים קרירים. מיד המוח מתחיל לחפש מה קורה בפתח תקוה? המספר שלידה (13%) הוא הגבוה ביותר? אולי הנמוך? לא. אולי זה אדום של אזהרה? ואולי ורוד של תקוה? מה קורה פה?
האמת הרבה יותר פשוטה. מעצב הגרף קיבץ את השכונות השונות לפי ערים, צבע לכל עיר. פתח תקוה קיבלה את הורוד באופן שרירותי. בנוסף, יש רק שכונה אחת מפתח תקוה ברשימה. המוח שלנו ניסה למצוא רמזים שלא באמת קיימים. (וזה המקום להמליץ על ספר שלם שנכתב על דברים כאלה – The tiger that isn’t).
זה בפרינט. בדיגיטל, לעומת זאת, בחרו ייצוג אחר לאותם נתונים. מיקמו אותם על החלק של מפת המדינה שבין חדרה לגדרה, וזה נראה כך:
כאן הקיבוץ לערים קצת יותר ברור. ועדיין, יש הרבה מה לשפר:
- פה אין שום שימוש בצבעים. הגוונים של כל חלקי הגרפיקה דומים – גם של הנתונים וגם של הרקע. וכולם דהויים. חבל, כי צבע יכול לאותת לעין לאן להתמקד – ראינו את זה בגרסה למעלה.
- ביחס לשטח המנוצל, יש פה מעט מאוד נתונים (12 מספרים בסך הכל). בכתבה מצוין שאת הנתונים אספה חברת דיפרנט מניתוח מקורות רבים. אז מן הסתם יש להם נתונים על יותר שכונות, ואפשר אולי להציג את כולם על מפה – אולי במפת חום? הנה דוגמה למפה כזאת בדיוק, בלוס אנג׳לס (מקור).
-
עקביות
ביום 18.5.2022 כתב הדר חורש ב the marker על מיסוי דירות שאינן להשקעה. יש בכתבה שני גרפים של נתונים עיתיים. הראשון מציג את סך גביית המיסים לשנים 2019-2021, ובו ציר הזמן הוא הציר האנכי, והשנים גדלות כלפי מטה, כך:
אפשר להתווכח אם עדיף לשים את השנים בציר האנכי או האופקי. כלומר לא ממש אפשר להתווכח, יש צד אחד בויכוח הזה שטועה. אבל זה לא מה שרציתי לדבר עליו. הנקודה שלי כאן קשורה לגרף השני בכתבה, שמציג את מחירי הדירות לעומת סף המס לשנים 2018-2021. בגרף הזה שמו את השנים על הציר האופקי, ההגיוני יותר, והן גדלות משמאל לימין.
ולנקודה בקצרה: אין עקביות. אם העורך או המעצב החליטו ששנים יוצגו על ציר Y, זה לגיטימי. אבל זה צריך להיות אחיד לאורך כל הכתבה (ויש יאמרו: לאורך ולרוחב כל הכתבות בעיתון). אבל אם כל גרף יחליט עצמאית, אז יכולים לצאת דברים ממש לא ברורים. לדוגמה, איך שהכתבה הזאת בדיוק נראית בפרינט: באחד הגרפים ציר הזמן נע מימין לשמאל, בשני הוא נע משמאל לימין, ולקינוח שני הגרפים ממוקמים על הדף בשכנות. קקפוניה ויזואלית.
-
small multiples
-
בולט בהעדרו
ביום 8.5.2022 כתב איתן אבריאל ב the marker על התנודות בשווקי ההון ובפרט, על הקשר שבין מחירי המניות לשער הדולר. הכתבה מסבירה למה ואיך שני הדברים קשורים, ויש גם כלל אצבע: על כל תנודה של אחוז אחד במדד הנאסדק, צפויה תנועת מט״ח בנפח של 1.5 מיליארד דולר. אלו נתונים כמותניים שגם זמינים להורדה, ולכן רק מתבקש שאת הטקסט בכתבה ילווה גרף או שניים.
אבל זה לא קורה. בגרסת הדיגיטל, אין שום גרפים ללוות את הכתבה. בגרסת הפרינט, יש שניים: אחד מתאר את שער הדולר לעומת השקל בשנה האחרונה, והשני מתאר את שער הדולר באותה תקופה, הפעם מול סל מטבעות. יש פה כפילות מסוימת. אבל יותר גרוע – יש גם השמטה מסוימת. מה עם שערי המניות? הכתבה מדברת על הקשר ביניהן לבין שערי המטבעות. אז בואו נמחיש אותו.
זה יראה כך:
מיד רואים שהמתאם מאוד גבוה כמעט בכל התקופה. שזה בדיוק מה שהכתבה רוצה להעביר. חבל שהגרף הזה לא מצורף לכתבה.
ואם רוצים לבחון את המתאם עצמו, אז זה יראה כך (קורלצית פירסון על חלון נע של 30 דגימות):
פה קופצות לעין שתי חריגות קלות במתאם, ביוני ובדצמבר 2021, אני אישית לא יודע מה קרה שם, אבל אשמח לשמוע את דעתכם.
-
הדשא של השכן
ביום 25.4.2022 כתבו שחר אילן ושלמה טייטלבאום בכלכליסט על שכר במשרדי הממשלה. יש שם גרף שמשווה בין שכר העובדים במגזר הציבורי והפרטי, וציוני הפסיכומטרי שלהם. ציוני הפסיכומטרי הם אינדיקטור לכישרון. זה לא ממש מובן מאליו להחליט כך, אבל זו דוגמה לנתונים שהיינו רוצים שיהיו לנו, אבל חסרים. ולפעמים אין ברירה אלא לנסות להוציא את המיטב מהנתונים שכן תחת ידנו.
גירסה ראשונה של הגרף מופיעה בטוויטר, כנראה צילום מהפרינט:
זה לא גרף טוב. בשביל לקבל אישוש ויזואלי לטענה שיש הבדלים ביחס בין שכר וכישרון, העין שלנו צריכה לטייל מהחלק השמאלי (ציון – כישרון), להשאר באותה שורה (כלכלה/הנדסה/משפטים וכולי), ולעבור לחלק הימני (שכר). בנוסף לכל זה, צריך להתרשם מההבדלים באורך העמודות משמאל (כחול חורג יותר ימינה – כלומר הכחולים יותר בציון), ולזכור אותו כשאנחנו עושים את אותה ההשוואה בחלק השמאלי (אדום חורג יותר ימינה – כלומר הכחולים פחות בשכר). אלו המון פעולות קוגניטיביות, וצריך לחזור עליהן עבור כל שורה בנפרד. זה מסובך. אולי זו יכולה להיות שאלה בפסיכומטרי!?
אבל לא באתי רק להשמיץ פה. יש בדיגיטל גרסה טובה בהרבה של אותו הגרף. הנה כך:
זה הרבה יותר נקי. בואו נבחן מה עשו כאן:
- הסירו את כל הסדרה של ״משרדי הממשלה״. קשה להשוות בין שלושה דברים שונים, אז החליטו לפשט לנו ולהשאיר רק מגזר ציבורי ומגזר פרטי.
- הסירו את הקטגוריות ״הנדסה״ ו״מדעי החברה״. זה בהחלט מפשט, אם כי מעלה סוגיות אחרות שלא אכנס אליהן כרגע.
- הכותרות של תחום הלימוד עברו כולן לימין, והנתונים נמצאים לשמאלן, כך שהעין עושה רק מעבר אחד, מימין לשמאל.
בסך הכל, גרף הרבה יותר טוב. איך אפשר לשפר אותו עוד? כרגע, הנתונים של הפסיכומטרי הם בצורת טבלה. כדי להבין מה הפער אנחנו צריכים לחשב בראש את ההפרש (618 פחות 612), ואז לזכור אם התוצאה חיובית או שלילית, ולסחוב את זה בראש עד שנראה את העמודות ונשווה את ההבדלים ביניהם מסתדרים עם הסימן של ההפרש. עדיין די מורכב.
הדבר הראשון שאפשר לעשות זה להראות את היחס בין רמות השכר, במקום את המספרים עצמם. (זה נקרא ״לנרמל״ – עשינו את זה כבר בעבר). זה יפנה לנו את המוח להבחין בנתון הרלבנטי. אפשר לעשות זאת גם בציוני הפסיכומטרי, עם שינוי קטן: פה נשתמש בהפרש ולא ביחס.
עכשיו יש לנו שני מספרים לכל תחום לימוד:
- הפער בשכר
- הפער בציון
והתצפית המעניינת של הכתבה היא שלא תמיד שניהם חיוביים או שניהם שליליים. כדי לצפות בשני נתונים יחד אפשר להשתמש ב scatter plot (״תרשים פיזור). גם את זה ראינו כבר בבלוג. וזה יראה כך:
זה כבר הרבה יותר מרווח, ויש שיגידו דליל. אבל רואים מיד שבוגרי המשפטים מצטיינים ומתוגמלים, בוגרי המתמטיקה מדשדשים בשני התחומים, ובוגרי הכלכלה חזקים בציון, אבל מקופחים בשכר. מסקנה חדה במבט אחד, בלי לעשות חישובים בראש.
מקובל להמחיש דברים כאלה ברבעונים, כלומר למרכז את הגרף בראשית הצירים (אפס אם מחסרים, אחד אם מחלקים), ואז יש רבעון אחד של ״חזק/חזק״, אחד של ״חזק/חלש״, אחד של ״חלש/חזק״ ואחד של ״חלש/חלש״. אם ננסה את זה בגרף שלנו נקבל את זה:
אז כאן באמת קל לראות ש״כלכלה״ נמצע ברביע לא טבעי. אבל נכנסה לנו בעיה חדשה: המרחק האופקי של ״כלכלה״ מקו הייחוס הוא די קטן (6 נקודות הבדל בפסיכומטרי), ואם ננסה לתקן זאת ב״מתיחה״ של ציר ה-X, הרבעונים יצאו מלבניים ולא ריבועיים. הבעיה היסודית כאן היא לא ויזואלית, אלא הנתונים עצמם: 6 נקודות פסיכומטרי זה כנראה לא הרבה. יש כלים סטטיסטיים לבדוק את במדגם הנתון זה משמעותי או לא, אבל זה כבר דיון שחורג מהבלוג הזה.
-
עסקאות יוקרה בנדל״ן
ביום 12.4.2022 כתב דותן לוי בכלכליסט על עסקאות של דירות יוקרה. הגרף בכתבה מתאר את הנתונים בשנים האחרונות, כך:
נתמקד בצד הימני (גוונים כחולים): לכל שנה מתוארים שלושה מספרים:
- מספר העסקאות
- גובה עסקה ממוצעת
- היקף העסקאות הכולל
לכל נתון מוקדשת שורה משלו, מה שמקשה על מציאת הכיוון הטבעי של התפתחות הנתונים. ובנוסף יש שטח לבן גדול בין הנתונים, שאינו תורם מידע כשלעצמו.
איך אפשר לשפר פה? התובנה הראשונה היא שאחד הנתונים (היקף עסקאות כולל), הוא בדיוק מכפלה של שני האחרים (למעשה נכון יותר להגיד שהיקף עסקה ממוצע הוא מנה של שני האחרים, אבל זה שקול מתמטית).
התובנה השניה, מימי בית ספר יסודי, היא ששטח של מלבן הוא מכפלת אורכי צלעותיו.
ניקח את שתי התובנות יחד, ונתאר את הנתונים כמלבנים, שבהם הצלעות מתארות את מספר העסקאות ואת גודלן הממוצע, בהתאמה. ובחינם נקבל את שטחי המלבנים לייצג את ההיקף הכולל. וזה יראה כך:
עכשיו יותר פשוט לעין לעקוב אחרי הגידול במספר העסקאות לאורך הזמן. ושאר הנתונים – היקף עסקה ממוצע וכולל – נמצאים גם הם, למי שרוצה ומחפש אותם.
-
השקעה בחינוך
ביום 10.4.2022 פירסם ליאור דטל ב- the marker כתבה מצוינת על התפוקה העלובה של מערכת החינוך בישראל, ובמיוחד לאור ההשקעה האדירה בה. לפני שנצלול לעיקר, משעשע אותי הציטוט של בנק ישראל שאומר שמערכת החינוך פוגעת בכלכלת המדינה. אני יכול לדמיין איך כלכלן יגיע למסקנה כזאת. ועדיין – הצהרות כאלה בדיוק הן שהובילו לאמרה שכלכלן הוא אחד שיודע את המחיר של כל דבר, אבל את הערך של שום דבר.
בחזרה לענייננו – גרפים. הנה הגרף המרכזי בכתבה – מופיע ראשון בדיגיטל, בראש העמוד בפרינט, וגם מצוטט חלקית בעמוד השער בפרינט:
זה גרף מאוד מורכב, וננסה לפרק אותו בצורה שהעין שלנו מעבדת אותו. מה שתופס הכי הרבה שטח, וגם מצוין בצבעים בולטים, הוא הנתון של ההשקעה. ככזה, הגרף לא מוסיף לנו הרבה אינפורמציה: התיבות הירוקות הן כמעט באותו הגודל, עם הבדל קטן של 22% בין הנמוך (אסטוניה) לגבוה (קנדה). בנתונים של ה OECD יש מדינות עם נתונים יותר קיצוניים (החל מ-3000 למקסיקו ועד 21000 ללוקסמבורג). אפשר היה להכניס אותן לגרף הזה ואז לקבל ניצול יותר טוב של השליש האופקי האמצעי, שהוא כרגע כולו ירוק אחיד. אפשר לנחש שבחירת המדינות נעשתה דווקא לפי רמת השקעה שהיא דומה לישראל (שדרך אגב, היא במקום טוב באמצע מהבחינה הזאת). זה לגיטימי לגמרי, אבל במקרה כזה לא צריך בכלל לטרוח לציין את רמת ההשקעה – היא הרי אותו הדבר לכולן. וודאי שלא לבזבז עליה כל כך הרבה שטח.
יש בגרף גם נתונים מספריים בתוך עיגולים צהובים בולטים (שיעור הצמיחה מאז 2008). אני חושב שהנתון הזה לא תורם בכלל לסיפור שהכתבה מעבירה, ומקומו לא בגרף. אם מאוד רוצים, אפשר לציין את הנתון של ישראל (82%) בגוף הטקסט.
שני הנתונים הנותרים – דירוג במתמטיקה ודירוג בקריאה – הם בלב של הצנטרום של המוקד של הכתבה. אבל בגרף הם ממוקמים כלאחר יד. יש הרבה דברים שמפריעים להם לספר את הסיפור שלהם. מאיפה נתחיל?
- הם נמצאים בצד
- אין ייצוג גרפי לגודל של המספרים. הם נתונים בצורת טקסט. זה מתאים לטבלה, אבל לא לגרף
- הסמלילים שמבדילים ״מתמטיקה״ מול ״קריאה״ חוזרים על עצמם, לא תורמים לסיפור, תופסים שטח יקר, ובנוסף קטנים מכדי להיות ברורים
- המספרים עצמם הם הפוכים לאינטואיציה. לרוב מקובל שמספר גדול מציין דבר טוב. אבל כשמדובר בדירוג, המספר הכי קטן (1) הוא התוצאה הטובה ביותר (מקום ראשון)
- בנוסף, המספר עצמו (41 ו-37 לישראל, בהתאמה) הוא לא משמעותי. מה שמעניין אנשים זה הדירוג היחסי: האם אנחנו במקום גרוע, בינוני, או טוב?. וכמו שלא מעניין אותנו הציון הגולמי של ישראל (470 נקודות בקריאה, ו-463 נקודות במתמטיקה, לפי נתוני ה OECD מ-2018, ונכון שלא הייתם צריכים לדעת את זה?), כך גם לא מעניין אותנו הדירוג עצמו
אז איך אפשר לספר את הסיפור הזה יותר טוב?
נתחיל בתיאור התפוקות – הדירוג של ישראל במבחנים. יש פה שני ציונים (מתמטיקה וקריאה). בחירה אחת שאפשר לעשות היא לדבר על אחד מהם בלבד, וזאת במידה והוא מייצג גם את השני. מיד תראו שאכן זה המצב. אבל גם אם נתעקש להראות את שניהם, יש דרך מקובלת לזה ושמה scatter plot. לכל נתון, שני המספרים הם הקואורדינטות של הנקודה שמייצגת אותו. לגבי התשומות – רמת ההשקעה, כבר אמרנו שזה פחות משמעותי פה. אבל אפשר לדחוף אותה לגרף בעזרת הגודל של הנקודה – ככל שההשקעה גדולה יותר, הנקודה (או העיגול) גדולים יותר. וזה יראה כך:
אז זה כבר מראה לנו ש:
- ניצול המקום השתפר בהרבה. למעשה, יש לנו מקום להכניס את כל המדינות בדירוג, ועדיין לא להעמיס
- ישראל בפינה, כלומר במקום די רע בשני הדירוגים (דיברנו כבר על כך שדירוג רע זה אומר בעצם מספר גבוה, אבל קצת סבלנות ומיד נטפל גם בזה)
- ישראל במקום טוב באמצע מבחינת ההשקעה (גודל הנקודה)
- חמש מדינות ההשוואה שהעורך בחר (רמת השקעה דומה לישראל) הן בפינה הנגדית לישראל, הפינה של המנצחים
- ואחרון אחרון חביב, רוב הנקודות לא מתרחקות מהאלכסון, כלומר לשני המדדים (מתמטיקה וקריאה) יש ציונים די דומים בכל מדינה (טכנית: קורלציה חיובית וגבוהה). אז אם נמצא את עצמנו לחוצים במקום או בזמן לספר את הסיפור, נוכל לוותר על כל אחד מהם ולא לחטוא הרבה לאמת
מה עדיין לא מסתדר? הפינה של המנצחים אמורה להיות מימין למעלה. זו הקונבנציה. אז בואו נטפל בזה – פשוט נהפוך את הדירוג מהסוף להתחלה. הדירוג האחרון (42 כמובן) יהיה המספר הקטן ביותר, והדירוג הראשון (1) הגדול ביותר. מספרית אפשר פשוט להכפיל את כל הדירוג במינוס אחת (הערכים עצמם קיימים רק בטבלאות הפנימיות שלנו, אבל לא בגרף שמספר את הסיפור). וזה כבר יראה כך:
זה סיפור הרבה יותר ברור, גם למי שזורק מבט חטוף מבלי להתעמק בפרטים.
מה עוד אפשר לעשות? אפשר להתמקד רק בציון אחד (מתמטיקה או קריאה) בכל גרף. אנחנו נייצר את שני הגרפים, ונוכל אם נרצה להציג אותם זה ליד זה (מה שגם יתאים לחלון הנמוך והרחב שהגרף המקורי קיבל בפרינט). נישאר בצורת scatter plot, ונבחר את ציר Y לציון במבחן, ואת ציר X לרמת ההשקעה. וזה יראה כך:
מה אנחנו רואים בשני הגרפים? מבחינת ההשקעה, ישראל באמצע. אבל מבחינת התמורה, ישראל במקום נמוך. שזו בדיוק המסר של הכתבה. מ.ש.ל.
במאמר מוסגר, הטקסט של הכתבה עשיר מאוד ומכסה המון מעבר למה שתיארתי פה. בפרט, ליאור דטל מפרט על מה הולך הכסף ואיך ההוצאה מנוהלת. המספרים שמצוירים פה הם חלק קטן ושולי מהענין הזה. אבל בבלוג הזה אני מתעסק במספרים ובגרפים – אז סליחה.
מוזמנים להוסיף תובנות פה בהערות או ישירות אלי.