-
תמונה שווה אלף מילים
ביום 23.11.2022 כתב נתנאל גאמס בדה-מרקר על עובדים ממורמרים והשפעתם על סביבת העבודה. בכותרת המשנה נאמר שמספר העובדים האלה נמצא בעליה. ובנוסף, בתוך הטקסט מדברים על שיעור העובדים, ש״עלה ל-18%….שיא של קרוב לעשור״.
אבל שיא של קרוב לעשור אומר שלפני עשור המספר (או השיעור) היה גבוה יותר, לא? למזלנו המאמר מכיל גרף, ובו נתונים היסטוריים של עשרים שנה:
מהגרף עולים כמה דברים:
- עובדתית, שיעור העובדים הלא מרוצים הוא בעליה, החל מ-2019.
- בין 2007 ל-2013, שיעור העובדים הלא מרוצים היה גבוה לפחות כמו רמתו הנוכחית.
כלומר הגרף גם תומך בטענה המרכזית שמניעה את כל המאמר, אבל באותה מידה תומך בטענה ההפוכה. זה קורה לא מעט עם נתונים אמיתיים, ואני מוריד את הכובע בפני העורך שהראה לנו את הנתונים כולם, על מורכבותם, ולא בחר להציג לנו תמונה חלקית.
במבט כללי, הייתי אומר שהגרף כפי שהוא מוצג לא מראה שונות משמעותית במדד הרלבנטי. במילים אחרות, הקו נראה שטוח מכדי לדבר על עליות או ירידות. אולי אם היו מסירים את הקו הירוק, ומתקנים את קנה המידה שיהיה בטווח 0-20, אז השיפועים היו מתחדדים. למי שרוצה דיון יותר מפורט בנושא, בעבר דיברנו על קנה מידה והדגשת שינויים בפוסט ״זכאות לבגרות״, שבמקרה גם הוא מנתח כתבה של נתנאל גאמס.
-
כמה אפשר להתרחק מבית-כנסת בישראל?
את ההשראה לפוסט הזה קיבלתי מאמריקאי בשם סטפן ואן וורלי. לאחר שהגיע לעיר נידחת ובה היה – כמובן – סניף של מזללת מקדונלדס, הוא תהה כמה רחוק אפשר להיות מסניף כלשהו של מקדונלדס בתחומי ארה״ב היבשתית (כלומר ללא אלסקה והוואי). הוא השיג את המיקומים של סניפי הרשת, 13,000 במספר, וחישב שלכל היותר תוכלו להתרחק 120 מייל (קצת פחות מ-200 קילומטר) מסניף כלשהו. הוא גם עלה לרגל לאותה נקודה כפונה, ותיעד את חוויותיו בסרטון. מדי מספר שנים הוא חוזר על החישוב, כי עם הזמן סניפים חדשים נפתחים ואחרים נסגרים.
מה המקבילה אצלנו? בעקבות שיחה עם חברים, אני תהיתי מה המרחק הגדול ביותר מבית כנסת שאפשר להגיע אליו בתחומי ארץ הקודש. לפי ההערכות, יש בארץ בין 10 ל-15 אלף בתי כנסת, אבל ברור לכולם שהם לא מפוזרים בצורה אחידה, ושיש בארץ אי-שוויון גיאוגרפי בנגישות לספר תורה.
לו היתה בידינו רשימה מלאה של בתי הכנסת, אז ניתן היה לעשות כמו ואן וורלי – לחשב מרחקים אל כולם ולמצוא את הנקודה. אבל זה לא כל כך פשוט. כמו שאפשר להבין מהכתבה מעלה, אין בנמצא מאגר מרכזי ומקיף של כל בתי הכנסת. בעצמי חיפשתי במאגר המפות הממשלתי ובעוד כמה מאגרים והעליתי חרס בידי.
מה נשאר? יש לגוגל ממשק (API) עם גישה לנתונים שמוצגים בגוגל מאפס. זה מאגר די מקיף, ולצורך העניין ניתן להסתמך עליו. על הנייר, השימוש כרוך בתשלום, אבל תכל׳ס מדובר בשברי סנטים לכל שאילתה. ובנוסף, עם פתיחת החשבון הם גם מעניקים זיכוי נדיב כנגד שימוש. זה צריך להספיק בקלות לפרויקט תחביב כמו זה, אם לא משתוללים.
מצד שני, אין בממשק של גוגל משהו כמו ״תביא את כל בתי הכנסת בישראל״. אפשר לבקש בתי כנסת בקרבת נקודה נתונה, ומה שזה יחזיר זה מספר לא גדול של התאמות. ואם אתם חושבים שאפשר לרשת את כל מפת ישראל בנקודות צפופות ולכל אחת לבצע שאילתא, אז זה בהחלט נכנס להגדרה של השתוללות. וגם אם (במזל), החיוב יהיה מתחת למענק ההצטרפות, אתם מנסים להוציא מגוגל מידע שעלה לה כסף להפיק, ושהיא יכולה להרוויח ממנו. כלומר בטווח הארוך זה לא מעשי.
אז מה עושים? אמנם אי אפשר להוציא רשימה של כל בתי הכנסת בישראל, אבל אולי אפשר להסתפק בכמה בתי כנסת במקומות אסטרטגיים. תחזרו רגע להגדרת הבעיה – נניח שאני בלב סחנין, ותוהה מה המרחק לבית הכנסת הקרוב ביותר. אז לצורך הענין פחות מעניינים אותי בתי הכנסת בבאר שבע. יותר משמעותי מבחינתי לדעת מה יש בכרמיאל וברקפת. כלומר, אפשר לבדוק מול רשימה חלקית של בתי כנסת, בתנאי שהם מפוזרים על המפה בלי להשאיר ״חלונות״ גדולים מדי.
ומכאן האלגוריתם – נתחיל ברשימה מצומצמת של בתי כנסת, ונבצע כמה סבבים. בכל סבב נמצא את הנקודה המרוחקת ביותר מבתי הכנסת שברשימה שלנו. אבל גם נעדכן את הרשימה (עוד קריאה למאגר המיפוי) כדי שתתעבה ליד הנקודה שמצאנו. בסבב הבא נחפש שוב, הפעם כנגד יותר בתי כנסת, ומן הסתם נמצא נקודה חדשה (מכיוון שיש עכשיו עוד בתי כנסת שסמוכים לנקודה הקודמת שמצאנו). נחזור על הסבבים עד שנראה שאין יותר תוספות משמעותיות לרשימה.
וזה מה שעשיתי. התחלתי עם רשימת בתי הכנסת ב-10 הערים הגדולות בישראל. לאחר מספר סבבים התכנסתי לכ-500 בתי כנסת, שמפוזרים על המפה כך:
ומהי אותה נקודה מרוחקת, אתם שואלים? באופן לא מפתיע, היא בנגב:
ליתר דיוק, ממש בגבול מצרים, בסמוך לקניון הלבן. היא מרוחקת מרחק שווה של 45.9 ק״מ, בקו אוירי, משלושה בתי כנסת:
- בית הכנסת הרפורמי ביהל
- בית הכנסת בקטורה
- בית חב״ד במצפה רמון, זה המעוצב בדמות מרכז חב״ד העולמי שבברוקלין:
וזה מספק את הסקרנות שלי בנושא. אין לי תכניות לשחזר את המסע של ואן וורלי. מכל מקום, קשה מאוד להגיע לשם כי כביש 10 סגור מטעמי ביטחון. מה שכן, אפשר לחזור על החישוב לאחר שיפתח בית כנסת בשיטים או בנאות סמדר. ואם יש כזה כבר – אז לאחר שמפות גוגל יעודכנו בנדון.
(נ״ב – לגבי חישוב מרחקים על מפה – זה טיפה יותר מסובך ממה שנדמה בתחילה, אבל לא בהרבה)
-
רזולוציה
ביום 3.6.2022 כתבה לי ירון בהארץ על מחסור במשאבי מחשוב למחקר אקלימי. מחשב חזק יותר יאפשר תחזית מדויקת יותר. אחד המדדים של הדיוק הוא רזולוציה מרחבית: כמה קטן תא השטח שעבורו ניתן להפיק תחזית. להמחשה מצורף הגרף הזה, ככל הנראה מתוך התיזה של אסף הוכמן:
זה גרף מוצלח. הוא מעביר נקודה טכנית די עדינה בצורה ויזואלית ברורה. אפקט הפיקסליזציה מוכר לרוב האנשים, וחוסך את הצורך להכנס להגדרות מתימטיות. אם מבחן של גרף בכתבה בעיתון הוא שהוא מעביר את הנקודה למי שלא קורא את הטקסט, אז הוא בהחלט עובר אותו.
אם להתעקש על נקודות לשיפור, הייתי אומר:
- להראות על הגרף מה ״רע״ (50 ק״מ שיש היום) ומה ״טוב״ (8 ק״מ, אם ימצא התקציב למחשב).
- להסביר מה הגרף עצמו מראה. בכותרת רשום HSURF, שהוא מונח שרוב קוראי הארץ לא מכירים. זה משקעים? רוח? היחידות של הסקלות מימין הן במטרים. האם זה גובה טופוגרפי?
-
קופה עד 10 מוצרים
ביום 25.5.2022 כתבה עדי דברת-מזריץ בדה-מרקר על שינויםי בהרגלי הצריכה. בכותרת ציינו כי ״ההוצאה זינקה ב-8%״, לפחות בפרינט (כתבת שער קדמי). זאת בעוד הצרכנים ״קנו פחות״. איך מגדירים הפחתה בקניות? לפי הכתבה, הנתונים של חברת סטורנקסט מכילים את ״כמות המוצרים שנקנו״. מה זה בעצם אומר? פשוט ספירה של מספר הברקודים שנסרקו? הכתבה לא מכילה מידע שימושי לעזור לנו לענות על השאלה. נניח שאכן סופרים מוצרים. ומה אם עברתי לקנות ניר טואלט באריזות של 48 גלילים, לעומת 36 בעבר? הצריכה הממוצעת שלי לא אמורה לעלות, אבל לפי הכתבה אני ״קונה פחות״. היינו שמחים לקצת יותר פירוט של השיטות.
ועוד דבר – הכתבה מכילה השוואה בין 2022 לשלוש השנים הקודמות. הזינוק בהוצאה (מנורמל לגודל האוכלוסיה), קרה רק באחת מהן – 2019. אמנם השנים האחרות היו תחת השפעת הקורונה. ובכל זאת – מה שמתואר בכותרת נכון רק לאחת מתוך שלוש.
ודבר אחרון, באותיות הקטנות – כל הנתונים נמדדו בין ינואר לאפריל. רק שליש מהשנה. מה קורה בשאר השנה? ברור שלגבי 2022 עדיין אין נתונים. ובכל זאת, בטוח לסטורנקסט יש תובנות לגבי היחס בין קניות בשליש הראשון של השנה לשאר השנה. חבל שמשאירים אותנו לנחש.
-
בין שתי ערים
ביום 22.5.2022 כתבה עדי כהן בדה-מרקר על עלית מחירי הדירות להשכרה. את הכתבה מלווה הגרף הבא:
מה שמיד קופץ לעין זו השורה בורוד, של פתח תקוה. היא בולטת כי הצבע שלה ייחודי: שאר השורות צבועות בצבעי ים קרירים. מיד המוח מתחיל לחפש מה קורה בפתח תקוה? המספר שלידה (13%) הוא הגבוה ביותר? אולי הנמוך? לא. אולי זה אדום של אזהרה? ואולי ורוד של תקוה? מה קורה פה?
האמת הרבה יותר פשוטה. מעצב הגרף קיבץ את השכונות השונות לפי ערים, צבע לכל עיר. פתח תקוה קיבלה את הורוד באופן שרירותי. בנוסף, יש רק שכונה אחת מפתח תקוה ברשימה. המוח שלנו ניסה למצוא רמזים שלא באמת קיימים. (וזה המקום להמליץ על ספר שלם שנכתב על דברים כאלה – The tiger that isn’t).
זה בפרינט. בדיגיטל, לעומת זאת, בחרו ייצוג אחר לאותם נתונים. מיקמו אותם על החלק של מפת המדינה שבין חדרה לגדרה, וזה נראה כך:
כאן הקיבוץ לערים קצת יותר ברור. ועדיין, יש הרבה מה לשפר:
- פה אין שום שימוש בצבעים. הגוונים של כל חלקי הגרפיקה דומים – גם של הנתונים וגם של הרקע. וכולם דהויים. חבל, כי צבע יכול לאותת לעין לאן להתמקד – ראינו את זה בגרסה למעלה.
- ביחס לשטח המנוצל, יש פה מעט מאוד נתונים (12 מספרים בסך הכל). בכתבה מצוין שאת הנתונים אספה חברת דיפרנט מניתוח מקורות רבים. אז מן הסתם יש להם נתונים על יותר שכונות, ואפשר אולי להציג את כולם על מפה – אולי במפת חום? הנה דוגמה למפה כזאת בדיוק, בלוס אנג׳לס (מקור).
-
עקביות
ביום 18.5.2022 כתב הדר חורש ב the marker על מיסוי דירות שאינן להשקעה. יש בכתבה שני גרפים של נתונים עיתיים. הראשון מציג את סך גביית המיסים לשנים 2019-2021, ובו ציר הזמן הוא הציר האנכי, והשנים גדלות כלפי מטה, כך:
אפשר להתווכח אם עדיף לשים את השנים בציר האנכי או האופקי. כלומר לא ממש אפשר להתווכח, יש צד אחד בויכוח הזה שטועה. אבל זה לא מה שרציתי לדבר עליו. הנקודה שלי כאן קשורה לגרף השני בכתבה, שמציג את מחירי הדירות לעומת סף המס לשנים 2018-2021. בגרף הזה שמו את השנים על הציר האופקי, ההגיוני יותר, והן גדלות משמאל לימין.
ולנקודה בקצרה: אין עקביות. אם העורך או המעצב החליטו ששנים יוצגו על ציר Y, זה לגיטימי. אבל זה צריך להיות אחיד לאורך כל הכתבה (ויש יאמרו: לאורך ולרוחב כל הכתבות בעיתון). אבל אם כל גרף יחליט עצמאית, אז יכולים לצאת דברים ממש לא ברורים. לדוגמה, איך שהכתבה הזאת בדיוק נראית בפרינט: באחד הגרפים ציר הזמן נע מימין לשמאל, בשני הוא נע משמאל לימין, ולקינוח שני הגרפים ממוקמים על הדף בשכנות. קקפוניה ויזואלית.
-
small multiples
-
בולט בהעדרו
ביום 8.5.2022 כתב איתן אבריאל ב the marker על התנודות בשווקי ההון ובפרט, על הקשר שבין מחירי המניות לשער הדולר. הכתבה מסבירה למה ואיך שני הדברים קשורים, ויש גם כלל אצבע: על כל תנודה של אחוז אחד במדד הנאסדק, צפויה תנועת מט״ח בנפח של 1.5 מיליארד דולר. אלו נתונים כמותניים שגם זמינים להורדה, ולכן רק מתבקש שאת הטקסט בכתבה ילווה גרף או שניים.
אבל זה לא קורה. בגרסת הדיגיטל, אין שום גרפים ללוות את הכתבה. בגרסת הפרינט, יש שניים: אחד מתאר את שער הדולר לעומת השקל בשנה האחרונה, והשני מתאר את שער הדולר באותה תקופה, הפעם מול סל מטבעות. יש פה כפילות מסוימת. אבל יותר גרוע – יש גם השמטה מסוימת. מה עם שערי המניות? הכתבה מדברת על הקשר ביניהן לבין שערי המטבעות. אז בואו נמחיש אותו.
זה יראה כך:
מיד רואים שהמתאם מאוד גבוה כמעט בכל התקופה. שזה בדיוק מה שהכתבה רוצה להעביר. חבל שהגרף הזה לא מצורף לכתבה.
ואם רוצים לבחון את המתאם עצמו, אז זה יראה כך (קורלצית פירסון על חלון נע של 30 דגימות):
פה קופצות לעין שתי חריגות קלות במתאם, ביוני ובדצמבר 2021, אני אישית לא יודע מה קרה שם, אבל אשמח לשמוע את דעתכם.
-
הדשא של השכן
ביום 25.4.2022 כתבו שחר אילן ושלמה טייטלבאום בכלכליסט על שכר במשרדי הממשלה. יש שם גרף שמשווה בין שכר העובדים במגזר הציבורי והפרטי, וציוני הפסיכומטרי שלהם. ציוני הפסיכומטרי הם אינדיקטור לכישרון. זה לא ממש מובן מאליו להחליט כך, אבל זו דוגמה לנתונים שהיינו רוצים שיהיו לנו, אבל חסרים. ולפעמים אין ברירה אלא לנסות להוציא את המיטב מהנתונים שכן תחת ידנו.
גירסה ראשונה של הגרף מופיעה בטוויטר, כנראה צילום מהפרינט:
זה לא גרף טוב. בשביל לקבל אישוש ויזואלי לטענה שיש הבדלים ביחס בין שכר וכישרון, העין שלנו צריכה לטייל מהחלק השמאלי (ציון – כישרון), להשאר באותה שורה (כלכלה/הנדסה/משפטים וכולי), ולעבור לחלק הימני (שכר). בנוסף לכל זה, צריך להתרשם מההבדלים באורך העמודות משמאל (כחול חורג יותר ימינה – כלומר הכחולים יותר בציון), ולזכור אותו כשאנחנו עושים את אותה ההשוואה בחלק השמאלי (אדום חורג יותר ימינה – כלומר הכחולים פחות בשכר). אלו המון פעולות קוגניטיביות, וצריך לחזור עליהן עבור כל שורה בנפרד. זה מסובך. אולי זו יכולה להיות שאלה בפסיכומטרי!?
אבל לא באתי רק להשמיץ פה. יש בדיגיטל גרסה טובה בהרבה של אותו הגרף. הנה כך:
זה הרבה יותר נקי. בואו נבחן מה עשו כאן:
- הסירו את כל הסדרה של ״משרדי הממשלה״. קשה להשוות בין שלושה דברים שונים, אז החליטו לפשט לנו ולהשאיר רק מגזר ציבורי ומגזר פרטי.
- הסירו את הקטגוריות ״הנדסה״ ו״מדעי החברה״. זה בהחלט מפשט, אם כי מעלה סוגיות אחרות שלא אכנס אליהן כרגע.
- הכותרות של תחום הלימוד עברו כולן לימין, והנתונים נמצאים לשמאלן, כך שהעין עושה רק מעבר אחד, מימין לשמאל.
בסך הכל, גרף הרבה יותר טוב. איך אפשר לשפר אותו עוד? כרגע, הנתונים של הפסיכומטרי הם בצורת טבלה. כדי להבין מה הפער אנחנו צריכים לחשב בראש את ההפרש (618 פחות 612), ואז לזכור אם התוצאה חיובית או שלילית, ולסחוב את זה בראש עד שנראה את העמודות ונשווה את ההבדלים ביניהם מסתדרים עם הסימן של ההפרש. עדיין די מורכב.
הדבר הראשון שאפשר לעשות זה להראות את היחס בין רמות השכר, במקום את המספרים עצמם. (זה נקרא ״לנרמל״ – עשינו את זה כבר בעבר). זה יפנה לנו את המוח להבחין בנתון הרלבנטי. אפשר לעשות זאת גם בציוני הפסיכומטרי, עם שינוי קטן: פה נשתמש בהפרש ולא ביחס.
עכשיו יש לנו שני מספרים לכל תחום לימוד:
- הפער בשכר
- הפער בציון
והתצפית המעניינת של הכתבה היא שלא תמיד שניהם חיוביים או שניהם שליליים. כדי לצפות בשני נתונים יחד אפשר להשתמש ב scatter plot (״תרשים פיזור). גם את זה ראינו כבר בבלוג. וזה יראה כך:
זה כבר הרבה יותר מרווח, ויש שיגידו דליל. אבל רואים מיד שבוגרי המשפטים מצטיינים ומתוגמלים, בוגרי המתמטיקה מדשדשים בשני התחומים, ובוגרי הכלכלה חזקים בציון, אבל מקופחים בשכר. מסקנה חדה במבט אחד, בלי לעשות חישובים בראש.
מקובל להמחיש דברים כאלה ברבעונים, כלומר למרכז את הגרף בראשית הצירים (אפס אם מחסרים, אחד אם מחלקים), ואז יש רבעון אחד של ״חזק/חזק״, אחד של ״חזק/חלש״, אחד של ״חלש/חזק״ ואחד של ״חלש/חלש״. אם ננסה את זה בגרף שלנו נקבל את זה:
אז כאן באמת קל לראות ש״כלכלה״ נמצע ברביע לא טבעי. אבל נכנסה לנו בעיה חדשה: המרחק האופקי של ״כלכלה״ מקו הייחוס הוא די קטן (6 נקודות הבדל בפסיכומטרי), ואם ננסה לתקן זאת ב״מתיחה״ של ציר ה-X, הרבעונים יצאו מלבניים ולא ריבועיים. הבעיה היסודית כאן היא לא ויזואלית, אלא הנתונים עצמם: 6 נקודות פסיכומטרי זה כנראה לא הרבה. יש כלים סטטיסטיים לבדוק את במדגם הנתון זה משמעותי או לא, אבל זה כבר דיון שחורג מהבלוג הזה.