עמוד הבית

  • פלוס, אבל עם שני מינוסים

    ביום 20.4.2022 כותב דניאל שמיל ב the marker על אביזרי בטיחות לרכב. מצורפת הטבלה הבאה:

    אני מאוד אוהב את הגרף הזה. הוא גם מכיל נתונים רב-ממדיים (שמונה קטגוריות בטיחות ועוד ציר זמן), וגם נותן את כל המידע במבט חטוף. את קטגוריות 1-5 קיבצו יחד כדי להקל על העומס הויזואלי בלי לגרוע מהמסר. והכי חשוב, הגרף מספר סיפור: ככל שעובר הזמן הרכבים יותר ויותר בטוחים.

    אם רוצים ממש לשפר, אז לדעתי אפשר לעשות שני דברים:

    • להפוך את ציר ה-Y, כך שהתיבות של הרכבים הבטוחים יותר יגדלו עם הזמן (זה נכון שהן גדלות כבר בהצגה הנוכחית, אבל גדלות כלפי מטה).
    • להפוך את קידוד הצבעים, כך שהצבע שמייצג בטיחות יהיה הירוק (קונבנציה לאישור), והצבע שמייצג אי-בטיחות יהיה אדום (קונבנציה לאיסור)
  • עסקאות יוקרה בנדל״ן

    ביום 12.4.2022 כתב דותן לוי בכלכליסט על עסקאות של דירות יוקרה. הגרף בכתבה מתאר את הנתונים בשנים האחרונות, כך:

    נתמקד בצד הימני (גוונים כחולים): לכל שנה מתוארים שלושה מספרים:

    1. מספר העסקאות
    2. גובה עסקה ממוצעת
    3. היקף העסקאות הכולל

    לכל נתון מוקדשת שורה משלו, מה שמקשה על מציאת הכיוון הטבעי של התפתחות הנתונים. ובנוסף יש שטח לבן גדול בין הנתונים, שאינו תורם מידע כשלעצמו.

    איך אפשר לשפר פה? התובנה הראשונה היא שאחד הנתונים (היקף עסקאות כולל), הוא בדיוק מכפלה של שני האחרים (למעשה נכון יותר להגיד שהיקף עסקה ממוצע הוא מנה של שני האחרים, אבל זה שקול מתמטית).

    התובנה השניה, מימי בית ספר יסודי, היא ששטח של מלבן הוא מכפלת אורכי צלעותיו.

    ניקח את שתי התובנות יחד, ונתאר את הנתונים כמלבנים, שבהם הצלעות מתארות את מספר העסקאות ואת גודלן הממוצע, בהתאמה. ובחינם נקבל את שטחי המלבנים לייצג את ההיקף הכולל. וזה יראה כך:

    עכשיו יותר פשוט לעין לעקוב אחרי הגידול במספר העסקאות לאורך הזמן. ושאר הנתונים – היקף עסקה ממוצע וכולל – נמצאים גם הם, למי שרוצה ומחפש אותם.

  • השקעה בחינוך

    ביום 10.4.2022 פירסם ליאור דטל ב- the marker כתבה מצוינת על התפוקה העלובה של מערכת החינוך בישראל, ובמיוחד לאור ההשקעה האדירה בה. לפני שנצלול לעיקר, משעשע אותי הציטוט של בנק ישראל שאומר שמערכת החינוך פוגעת בכלכלת המדינה. אני יכול לדמיין איך כלכלן יגיע למסקנה כזאת. ועדיין – הצהרות כאלה בדיוק הן שהובילו לאמרה שכלכלן הוא אחד שיודע את המחיר של כל דבר, אבל את הערך של שום דבר.

    בחזרה לענייננו – גרפים. הנה הגרף המרכזי בכתבה – מופיע ראשון בדיגיטל, בראש העמוד בפרינט, וגם מצוטט חלקית בעמוד השער בפרינט:

    זה גרף מאוד מורכב, וננסה לפרק אותו בצורה שהעין שלנו מעבדת אותו. מה שתופס הכי הרבה שטח, וגם מצוין בצבעים בולטים, הוא הנתון של ההשקעה. ככזה, הגרף לא מוסיף לנו הרבה אינפורמציה: התיבות הירוקות הן כמעט באותו הגודל, עם הבדל קטן של 22% בין הנמוך (אסטוניה) לגבוה (קנדה). בנתונים של ה OECD יש מדינות עם נתונים יותר קיצוניים (החל מ-3000 למקסיקו ועד 21000 ללוקסמבורג). אפשר היה להכניס אותן לגרף הזה ואז לקבל ניצול יותר טוב של השליש האופקי האמצעי, שהוא כרגע כולו ירוק אחיד. אפשר לנחש שבחירת המדינות נעשתה דווקא לפי רמת השקעה שהיא דומה לישראל (שדרך אגב, היא במקום טוב באמצע מהבחינה הזאת). זה לגיטימי לגמרי, אבל במקרה כזה לא צריך בכלל לטרוח לציין את רמת ההשקעה – היא הרי אותו הדבר לכולן. וודאי שלא לבזבז עליה כל כך הרבה שטח.

    יש בגרף גם נתונים מספריים בתוך עיגולים צהובים בולטים (שיעור הצמיחה מאז 2008). אני חושב שהנתון הזה לא תורם בכלל לסיפור שהכתבה מעבירה, ומקומו לא בגרף. אם מאוד רוצים, אפשר לציין את הנתון של ישראל (82%) בגוף הטקסט.

    שני הנתונים הנותרים – דירוג במתמטיקה ודירוג בקריאה – הם בלב של הצנטרום של המוקד של הכתבה. אבל בגרף הם ממוקמים כלאחר יד. יש הרבה דברים שמפריעים להם לספר את הסיפור שלהם. מאיפה נתחיל?

    • הם נמצאים בצד
    • אין ייצוג גרפי לגודל של המספרים. הם נתונים בצורת טקסט. זה מתאים לטבלה, אבל לא לגרף
    • הסמלילים שמבדילים ״מתמטיקה״ מול ״קריאה״ חוזרים על עצמם, לא תורמים לסיפור, תופסים שטח יקר, ובנוסף קטנים מכדי להיות ברורים
    • המספרים עצמם הם הפוכים לאינטואיציה. לרוב מקובל שמספר גדול מציין דבר טוב. אבל כשמדובר בדירוג, המספר הכי קטן (1) הוא התוצאה הטובה ביותר (מקום ראשון)
    • בנוסף, המספר עצמו (41 ו-37 לישראל, בהתאמה) הוא לא משמעותי. מה שמעניין אנשים זה הדירוג היחסי: האם אנחנו במקום גרוע, בינוני, או טוב?. וכמו שלא מעניין אותנו הציון הגולמי של ישראל (470 נקודות בקריאה, ו-463 נקודות במתמטיקה, לפי נתוני ה OECD מ-2018, ונכון שלא הייתם צריכים לדעת את זה?), כך גם לא מעניין אותנו הדירוג עצמו

    אז איך אפשר לספר את הסיפור הזה יותר טוב?

    נתחיל בתיאור התפוקות – הדירוג של ישראל במבחנים. יש פה שני ציונים (מתמטיקה וקריאה). בחירה אחת שאפשר לעשות היא לדבר על אחד מהם בלבד, וזאת במידה והוא מייצג גם את השני. מיד תראו שאכן זה המצב. אבל גם אם נתעקש להראות את שניהם, יש דרך מקובלת לזה ושמה scatter plot. לכל נתון, שני המספרים הם הקואורדינטות של הנקודה שמייצגת אותו. לגבי התשומות – רמת ההשקעה, כבר אמרנו שזה פחות משמעותי פה. אבל אפשר לדחוף אותה לגרף בעזרת הגודל של הנקודה – ככל שההשקעה גדולה יותר, הנקודה (או העיגול) גדולים יותר. וזה יראה כך:

    אז זה כבר מראה לנו ש:

    • ניצול המקום השתפר בהרבה. למעשה, יש לנו מקום להכניס את כל המדינות בדירוג, ועדיין לא להעמיס
    • ישראל בפינה, כלומר במקום די רע בשני הדירוגים (דיברנו כבר על כך שדירוג רע זה אומר בעצם מספר גבוה, אבל קצת סבלנות ומיד נטפל גם בזה)
    • ישראל במקום טוב באמצע מבחינת ההשקעה (גודל הנקודה)
    • חמש מדינות ההשוואה שהעורך בחר (רמת השקעה דומה לישראל) הן בפינה הנגדית לישראל, הפינה של המנצחים
    • ואחרון אחרון חביב, רוב הנקודות לא מתרחקות מהאלכסון, כלומר לשני המדדים (מתמטיקה וקריאה) יש ציונים די דומים בכל מדינה (טכנית: קורלציה חיובית וגבוהה). אז אם נמצא את עצמנו לחוצים במקום או בזמן לספר את הסיפור, נוכל לוותר על כל אחד מהם ולא לחטוא הרבה לאמת

    מה עדיין לא מסתדר? הפינה של המנצחים אמורה להיות מימין למעלה. זו הקונבנציה. אז בואו נטפל בזה – פשוט נהפוך את הדירוג מהסוף להתחלה. הדירוג האחרון (42 כמובן) יהיה המספר הקטן ביותר, והדירוג הראשון (1) הגדול ביותר. מספרית אפשר פשוט להכפיל את כל הדירוג במינוס אחת (הערכים עצמם קיימים רק בטבלאות הפנימיות שלנו, אבל לא בגרף שמספר את הסיפור). וזה כבר יראה כך:

    זה סיפור הרבה יותר ברור, גם למי שזורק מבט חטוף מבלי להתעמק בפרטים.

    מה עוד אפשר לעשות? אפשר להתמקד רק בציון אחד (מתמטיקה או קריאה) בכל גרף. אנחנו נייצר את שני הגרפים, ונוכל אם נרצה להציג אותם זה ליד זה (מה שגם יתאים לחלון הנמוך והרחב שהגרף המקורי קיבל בפרינט). נישאר בצורת scatter plot, ונבחר את ציר Y לציון במבחן, ואת ציר X לרמת ההשקעה. וזה יראה כך:

    מה אנחנו רואים בשני הגרפים? מבחינת ההשקעה, ישראל באמצע. אבל מבחינת התמורה, ישראל במקום נמוך. שזו בדיוק המסר של הכתבה. מ.ש.ל.

    במאמר מוסגר, הטקסט של הכתבה עשיר מאוד ומכסה המון מעבר למה שתיארתי פה. בפרט, ליאור דטל מפרט על מה הולך הכסף ואיך ההוצאה מנוהלת. המספרים שמצוירים פה הם חלק קטן ושולי מהענין הזה. אבל בבלוג הזה אני מתעסק במספרים ובגרפים – אז סליחה.

    מוזמנים להוסיף תובנות פה בהערות או ישירות אלי.

  • זכאות לבגרות

    כצרכנים של תקשורת חשוב שנבין לא רק את התוכן שמוצג לנו, אלא גם את המסר שמנסים להדגיש בפנינו. דוגמה יפה יש בכתבה של נתנאל גאמס ב the marker מיום 6.4.2022. הנושא הוא השתלבות גברים חרדים בשוק התעסוקה. אחד הגרפים בכתבה מציג את שיעור הזכאות לבגרות של גברים חרדים ולא-חרדים, ממש כך:

    שני מסרים עיקריים עולים מהגרף:

    1. יש הבדל גדול בין שתי הקבוצות, שמתבטא ברווח הויזואלי האנכי בין הקו האדום והקו הכחול.
    2. עם הזמן (תנועה בכיוון ימין), הקו האדום עולה, והקו הכחול כמעט אופקי, כך שהמרחק ביניהם גדל.

    שני המסרים גם מהודהדים בכותרת של הגרף, ״הפער גדל״, וגם תומכים בטקסט של הכתבה.

    מה יוכל להדגיש עוד יותר את הפער? הגדלת המרווח האנכי בין הקוים. הנה אותם נתונים, כשציירתי אותם אני, אבל ביחס שונה בין ציר X ו-Y. העין נתפסת לרווח, שנראה פתאום משמעותי יותר, למרות שהמספרים הם בדיוק אותם מספרים. העורך יכל לבחור פרופורציות דומות לשלי כדי להדגיש את הנקודה. אבל אולי בהכנת הכתבה לדפוס נכנסו שיקולים אחרים (בפרינט, הגרף תופס בדיוק רוחב של שתי עמודות, אז די נוח למקם אותו בעמוד כשהוא ברוחב הזה).

    אבל אם מסתכלים טוב, יש כאן עוד סיפור, שמסופר בפי אותם נתונים בדיוק. וזו העליונת בקו הכחול (שיעור זכאים חרדים) בשנים המאוחרות. אמנם המספר די נמוך (2.8%), אבל אם נשווה אותו למספר בשנים המוקדמות (0.6%), אז יש פה גידול משמעותי.

    איך נספר את הסיפור של הגידול הזה? דרך אחת היא להציג את המספרים ביחס לנתון בסיס. נשתמש בבסיס שהוא הנתון של השנה המוקדמת ביותר, 1978. עכשיו נחלק (או ״ננרמל״) את המספרים של הגברים החרדים לפי הבסיס של החרדים, ובדומה נעשה ללא-חרדים. תוצאה של 100% אומרת שאין שינוי ביחס לבסיס. 150% אומר עליה של 50%, וכך הלאה. ואיך יראה הגרף שלנו עכשיו? בדיוק כך:

    המספרים של הגברים הלא-חרדים נעים בין 105% ל-115% (כלומר גידול של בין 5 ל-15 אחוז), שזו צמיחה יפה. אבל היא מתגמדת לעומת 460% אחוז עליה אצל החרדים. העין נתפסת לזינוק של הקו הכחול, והוא זה שמכתיב את המסר. אותם נתונים בדיוק, אבל סיפור שונה. לא סיפור שסותר את הקו של המאמר, פשוט אמת נוספת שעולה מאותם נתונים.

    מה יעשה עורך שירצה לכתוב סיפור שזה הקו המרכזי שלו, ושירצה גרף שמדגיש את הנקודה? דבר אחד שדי קל לעשות זה לצייר את הקוים בתלת-מימד עם הצללה, ובנוסף לסובב אותם לזוית שמדגישה את העליה בסוף. משהו כזה:

    רק כדי להבהיר: אין לי טענות לגבי התוכן של הכתבה, או לגבי הבחירה של הסיפור שהיא מספרת. הכל לגיטימי, וכל אוסף נתונים מסוגל לספר מגוון של סיפורים, שמשלימים זה את זה. העולם הוא מסובך וגרפים לא יכולים לפשט אותו. מה שחשוב הוא לפקוח עיניים ולהבין מה בדיוק הנקודה שמנסים להסביר לנו ברגע נתון.

    מקווה שזה מאלף, מוזמנים להגיב למטה. הכוונה שלי לנתח עוד גרפים שעולים בתקשורת, אז תשלחו אלי דברים שמדגדגים לכם את הסקרנות.

  • שלום כולם!

    ברוך בואך ל-WordPress! זהו הפוסט הראשון שלך. אפשר לערוך או למחוק אותו כדי להתחיל את המסע שלך בכתיבת הבלוג.