עמוד הבית

  • מאזן צבעוני

    ביום 18.4.2024 כתב נתי טוקר בדה-מרקר על תחזית הכנסות והוצאות למשקי בית לאור ההפיכה המשטרית. הכתבה סובבת סביב מספר נתונים שמרוכזים בגרפיקה הבאה:

    מה יש לנו פה?

    • טבלה עם המון מספרים
    • גם בשורת הכותרת (העליונה) יש מספרים
    • יש הרבה מאוד צבעים בולטים מאוד בצד ימין
    • חלק מהצבעים הם ירוק ואדום, שזו מוסכמה ל״טוב״ מול ״רע״ (או לניגוד מובהק אחר)
    • הרקעים של השורות הם בגוונים שהם ברובם גרסה חיוורת של הצבע בעמודה הימנית בשורה, אבל…..
    • …השורות בשליש התחתון הם בגווני אפור למרות שהעמודה הימנית אדומה

    מי שהכין את הטבלה הזאת מתח ממש את יכולות הגרפיקה. אבל במבט שני, רוב העיטורים לא מתייחסים בכלל לנתונים:

    • הרבה מספרים הם סכומים או הפרשים של מספרים אחרים (לדוגמה: מאזן = הכנסות פחות הוצאות)
    • המספרים בשורה העליונה בעצם מציינים תתי-קבוצות באוכלוסיה (מעמד נמוך, בינוני, וגבוה)
    • הצבעים בצד ימין לא מקודדים שום דבר ורק מסיטים את המבט מהעובדות החשובות. למעשה, היתה הזדמנות לקודד בירוק את שורות ההכנסה, ובאדום את שורות ההוצאה, אבל זה לא קורה פה
    • הרקעים של השורות לא מקודדים שום דבר

    איך נוכל לשפר את זה?

    אפשרות ראשונה: טבלה עם אותם הנתונים, רק קצת פחות ססגונית:

    קודדנו את ההכנסות בירוק ואת ההוצאות באדום. המאזן כחול, ושאר השורות פחות בולטות כדי לתת לעין להתמקד ולמוח לעכל. אפשר לשקול לצבוע גם את השורה התחתונה, שהיא בלב עיסוק הכתבה. (לחדי העין: המספרים פה קצת שונים, אבל בדקתי ונראה לי שהגרסה פה יותר מדויקת).

    אפשרות שניה: בגרף עמודות אופקי, ונציב את ההכנסות מימין לאפס ואת ההוצאות משמאל לאפס, כך:

    מה היתרונות? אפשר לראות שעבור כל קבוצה, רכיב ההכנסות יורד, ורכיב ההוצאות עולה.

    מה החסרונות? קשה לראות את המאזן (הכנסות פחות הוצאות), וקשה יותר (עד בלתי אפשרי) לראות את ההפרש במאזן. וגם יצרנו שישה אלמנטים עבור שלוש קבוצות אוכלוסיה (לכל קבוצה יש ״לפני״ ו״אחרי״). אפשר לנסות ולתקן על-ידי המחשה של המאזן, שהוא ההפרש בין המספרים. גרפית, הוא יהיה הגודל של המלבן שנשאר אחרי שמניחים את מלבן ההוצאות על מלבן ההכנסות. אם ההסבר מעורפל, אולי זה יעזור:

    הרכיב של ״הכנסות״ קיים (באורך המלבן) אבל לא מסומן בגרף. החלק האדום מסמל את מה שנשאר אחרי ההוצאות. כאן כבר קל לראות שזה שלילי עבור קבוצות מסוימות. אבל, עדיין נשארנו עם שישה אלמנטים עבור שלוש קבוצות אוכלוסיה. ואולי גם כדאי שהמלבנים האדומים יתחילו מציר האפס גם כשהמאזן חיובי?

    אפשרות נוספת נקראת גרף מפל (waterfall chart). זה כלי סטנדרטי להמחיש סדרת מספרים שכל אחד מהם הוא תוספת (או הפחתה) של המספר הקודם. משתמשים בו לדברים כמו מאזנים של חברות, ושם מפרטים את מקורות ההכנסה השונים, שמצטברים זה לזה, ואת ההוצאות השונות, שגורעות מההכנסה שנצברה. כל מספר מחובר לסכום שלפניו בקו אופקי, שמסמל את הקשר בין שתי התיבות. התיבות עצמן לא מתחילות מציר האפס אלא מהסכום בעמודה הקודמת, ולכן נראה שהן מרחפות באויר, מה שנתן לגרף את הכינוי ״גרף מריו״. במקרה שלנו, אפשר לתאר את ההפחתות השונות במאזן של משפחה ממוצעת כך:

    זה דוגמה עבור המעמד הבינוני, אז נזדקק לעוד שני גרפים דומים כדי לתאר את כל האוכלוסיה. עוד דבר שאפשר לעשות זה לצמצם את הסיפור לשני מספרים בלבד (הכנסות והוצאות). יש שישה סיפורים כאלה (3 קבוצות אוכלוסיה, לכל אחת ״לפני״ ו״אחרי״), ולהציג אותם במטריצה שנקראת small multiple, להלן:

    האם זה יותר ברור? לדעתי, לא. אבל אולי אפשר לקחת את זה כנקודת התחלה ולשפר מכאן. אשמח להצעות.

  • תוי נכים ודגמים

    דודג׳ ראם בגובה של פיל עם תו נכה זה הגיוני? ואיך זה שיש כל-כך הרבה טויוטה קורולה עם תו נכה? בעקבות דיון בטוויטר שמקשר בין תווי נכה ובין דגמי מכוניות שנושאים אותם, צללתי אל הנתונים.

    השאלה הראשונה שעולה היא האם רכבי נכה נוטים להיות מדגמי יוקרה. לא שיש לי טענה כלפי אדם שבוחר לקנות רכב מפואר, בין אם הוא נכה ובין אם לאו. אבל מוקד הדיון היה על זה, ובפרט אם שיעור רכבי הפאר שנושאי תו נכה הוא מוגזם, ביחס לכלל המכוניות (השיעור הכללי של תוי נכה הוא די גבוה מלכתחילה – כ-14% מהמכוניות בכבישי ישראל נושאות תו נכה, לפי נתוני משרד התחבורה).

    אם נבדוק באיזה דגם ספציפי שיעור תווי הנכה הוא הגבוה ביותר, אז יצוצו כמה מכוניות מפוארות, שלא לומר מנקרות עיניים. אבל כפי שציין דניאל בחמט, זה כשלעצמו לא מפתיע, ויכול להתרחש, מסיבות סטטיסטיות, גם לדגמים עם שיעור תווי נכה הנמוך ביותר. אחד הדברים שאפשר לעשות כדי לקבל מושג על הבעיה, הוא לצייר גרף פיזור של הדגמים, ובצירים יהיו מצד אחד מחיר הדגם, ובצד השני שיעור תווי הנכים של המכוניות שנמכרו מאותו הדגם. זה יראה כך:

    (לשם פשטות, בחרנו רק דגמים עם יותר מ-50 יחידות). בצד הימני יש את הדגמים שבהם שיעור (אחוז) תווי הנכה גבוה ביותר. בצד הגבוה יש את הדגמים היקרים ביותר. מה אנחנו רואים? מצד אחד, הדגמים היקרים ביותר (חצי מיליון שקל ומעלה) הם עם שיעור תווי נכה באיזור ה-14%. ומצד שני, יש דגמים שהם פופולריים לנכים בטווח המחירים של 300-400 אלף שקל, שזה בהחלט לא זול (מחיר מכונית חציוני בישראל הוא 133 אלף שקל). אבל בחינה יותר מדוקדקת מראה שאלה בעיקר רכבי הסעות, שהם יותר ״גדולים״ מאשר ״יוקרתיים״: מרצדס ויטו, רנו טראפיק, פולקסווגן קראוול וקאדי, וכדומה. זה בדיוק מה שצריך אם, למשל, רוצים להתקין מעלית לכסא גלגלים ולהסיע אותו בתוך הרכב. בגרף, צבעתי בכתום את הדגמים שהמרכב שלהם מוגדר על-ידי משרד התחבורה כ-״משא״ או ״ואן/נוסעים״, וקל לראות שאלה הדגמים עם מירב תוי הנכה.

    מבחינת המחיר הממוצע, רכבים עם תו נכה עולים 162 אלף שקל, ושאינם כאלה 152 אלף שקל. זה הבדל מובהק, אבל אפשר להסביר אותו בהטבת המס שמקבלים נכים בקנית רכב. גם השנתון הממוצע מעט חדש יותר, ושוב, יש פה סיבה ברורה, שהיא הטבת המס שניתנת לכל נכה מדי 3 שנים, ומעודדת החלפת רכב. גם רמת האבזור הבטיחותי וקבוצת הזיהום די דומות.

    מה עוד אפשר לבדוק שיהיה אינדיקטיבי לשימוש של נכה? נתון אחד שנמצא בקבצי משרד התחבורה הוא גובה הרכב. אמנם מדובר בגובה גג הרכב, ולא בגובה מפתן הכניסה. ועדיין, אפשר להניח שמי שמתקשה בתנועה לא יצליח להשתחל לתוך משהו כמו BMW i8, שגובהה 130 ס״מ, וגם מרווח הגחון שלה – 11 ס״מ בקירוב, לא בדיוק מעודד חניה על מדרכות.


    לצורך הבדיקה נצייר את התפלגות הגבהים של כל הדגמים, בנפרד לרכבי נכה (מימין) ושאינם כאלה (שמאל). ציר ה Y הוא גובה הדגם, ורוחב הפס מבטא את השכיחות (כלומר כמה נפוצים הדגמים בגובה הנתון). גרף כזה נקרא ״גרף כינור״.

    אפשר לראות שהרכבים הגבוהים יותר (1.90 מטר עד 2 מטר), שהם גם נוחים יותר לכניסה ויציאה, הם יותר פופולריים ברכבי הנכה, מה שמחזק את הטענה שהקונה אכן מוגבל בתנועה.

    בדקנו עוד תכונות שעלו בדיונים בטוויטר, וטענות קשורות אליהן, וגם ביצענו מבחן סטטיסטי לתקף את ההבדלים, במידה וקיימים. להלן:

    • רכב חדש: רכבים משנתון 2021 ומעלה, שיעורם 19.6% ברכבי נכה לעומת 18.6% בשאר הרכבים (מובהק).
    • רכב יקר (מעל 220 אלף ש״ח): 12.2% ברכבי נכה לעומת 9.6% בשאר הרכבים (מובהק).
    • רכב גבוה מאוד (מעל 2.20 מטר) ורכב נמוך מאוד (מתחת 1.60 מטר): נבדק, אבל יש מעט מדי מכדי לגזור מסקנות.
    • רכב חזק (מעל 204 כוח סוס): 5.5% ברכבי נכה לעומת 4.4% בשאר הרכבים (מובהק). דוגמאות פופולריות: טסלה 3, יונדאי איוניק, קיה קרניבל וג׳יפ גרנד צ׳ירוקי.
    • טסלה: כ-3.8% אחוז בשני המקרים, ההבדל אינו מובהק.
    • רכב עם מספר ״מגניב״ (ראה דיון בלוחיות רישוי בפוסט קודם): 5.2% לרכבי נכה לעומת 4.7% בשאר הרכבים (מובהק).
    • רכב רב נוסעים (7 מושבים או יותר): 8.8% לרכבי נכה לעומת 7% בשאר הרכבים (מובהק). דוגמאות פופולריות: מיצובישי אאוטלנדר וגרנדיס, מאזדה 5.
    • רכב ״מפלצת״, הוגדר כ:גובה מעל 1.80 מטר, הנעה 4×4, נפח מנוע מעל 2000, ופחות משבעה מושבים. אין הרבה כאלה – 0.4% ברכבי הנכה לעומת 0.8% בשאר הרכבים, אבל ההבדל מובהק. דוגמאות נפוצות: טויוטה היילקס, יונדאי טראקן, מיצובישי פאג׳רו.
    • תיבת הילוכים ידנית: 3.3% לרכבי נכה לעומת 6.6% בשאר הרכבים (מובהק).
    • לגבי ואנים, שהסיוע מביטוח לאומי מאפשר החלפה שלהם כל 5 שנים לזכאים: 39% מהואנים שהם עם תו נכה הם בני פחות מ-5 שנים, לעומת 27% מהואנים האחרים (מובהק).

    סיכום: רכבים עם תו נכה הם אכן חדשים ויקרים יותר. אבל זה מובן, וגם מובנה בהטבת המס שהמחוקק החליט לתת לנכים. מצד אחד, יש מאפייני רכב שמחזקים את הצרכים של מוגבלי תנועה, כמו גובה מעל 1.90 מטר, רכבי הסעות, וגיר אוטומטי. אבל אי אפשר לשלול את המקרים שבהם קונה הרכב חושק בסמל סטטוס עתיר פינוקים, וכאחת התוספות מצליח לקבל גם אישור לתו נכה, יחד עם כל הטבות החניה הקשורות בכך. המאפיינים שמחזקים את הצד הזה הם: מנועים חזקים ומספר רישוי בהזמנה אישית. דברים כאלה תמיד יהיו, ולדעתי אין בהם נזק ברמה שמצדיקה פגיעה באוכלוסית הנכים שבאמת זקוקה לעזרה, בצורת תו רכב ובצורות אחרות.

    לסיום אני רוצה להודות לצייצנים שהוסיפו היפותזות לבדיקה, ובנוסף מאחל לכולנו שלעולם לא נזדקק לתו נכה.

  • ענין של קנה מידה

    ביום 5.4.2023 כתב הדר חורש במוסף דה-מרקר לפסח מאמר בשם ״הדרך לדירה מתארכת״. את הכתבה מלווה גרף ענקי, שמתאר את מחירי הדירות בשנים האחרונות, וגם את השכר באותה תקופה. הגרף תומך לכאורה בתיזה של הכתבה, שהיא התייקרות הדיור מעבר לעליה בשכר. רק כדי להבהיר, אני מאמין לחורש שהמשפחה הממוצעת בישראל מתקשה יותר ויותר לקנות דירה. התלונה העיקרית שלי כאן היא לגבי הגרף. אני שם אותו כאן כדי שתוכלו לנסות למצוא את הבעיה בעצמכם:

    מה רואים? קודם כל, איורים דרמטיים של אנשים מטפסים ונופלים, מה שקרוי בשפה מקצועית chartjunk. אבל לא בזה נתעסק היום. מעבר לזה, יש פה שני צירי Y שונים – אחד לשכר והשני לנדל״ן. וזה תמיד חשוד, ובהמשך נראה שהחשדות מוצדקים. אבל לפני כן, מה מתואר בצירים:

    1. ציר השכר – מתאר את השכר הממוצע
    2. ציר הנדלן – מתאר את שיעור השינוי במדד

    אז כבר כאן יש בעיה. ״שיעור השינוי״, כלומר, נגזרת, הבדל משנה לשנה. וזאת לעומת השכר, שמבוטא כמספר טהור. מה ההבדל? נניח שמדד מסוים (שכר, מחיר הדלק, מספר החזירים ברחוב, לא משנה מה) מתחיל בשנה מסוימת במספר 100. עכשיו נניח שהוא עולה ב-10% בכל שנה. מה יהיה ערכו כעבור שנתיים? התשובה: 121, וזאת כי התוספת של 10% בשנה השניה מתיחסת כבר לערך המוגדל של 110 שבסוף השנה הראשונה. ולכן, למרות שגרף הנגזרת יראה כקו אופקי (10% ללא שינוי משנה לשנה), גרף המדד יראה עליה יפה.

    אבל זו לא הבעיה העיקרית. הבעיה היא קנה המידה השונה של הצירים. שימו לב לטווח של שני המספרים (הערך הקטן ביותר והגדול ביותר האפשריים בגרף):

    1. עבור השכר – 9 עד 15 (באלפי שקלים)
    2. עבור מדד הדיור – מינוס 5 עד 20 (באחוזים). זה לא נראה בצילום בגלל קיפול של הדף שלא הצלחתי ליישר. תאמינו לי.

    וזה כשלעצמו משנה את היחס בין שני הקוים בגרף (הכחול והכתום). מי שבחר לאפשר בציר השכר מספרים עד 15, השאיר המון מרווח בין הקו לבין קצה הגרף העליון. ואז נראה שהקו שטוח יותר. הנה, לדוגמה, איך גרף כזה יראה בתוכנה דמוית אקסל, בלי שום מניפולציה. התוכנה בוחרת את הטווח 10 עד 13, כי אלו מספרים עגולים שכוללים את כל הערכים:

    מדובר באותם מספרים בדיוק כמו שיש בגרף המקורי של דה-מרקר. רק קנה המידה השתנה, והנה ההבדל נעשה הרבה פחות דרמטי. להמחשה, שיניתי ידנית את הטווח לערכים 9 עד 15 כמו בעיתון, וזה נראה כך:

    עכשיו יש הבדל, והקו הכחול תופס פער מהקו הכתום (או התיבות הכתומות). אבל זו אשליה אופטית ותו לא. אפשר לשחק עם זה עוד קצת: בואו נבחר טווח של מינוס 4 עד 16, בדיוק כמו הטווח של המדד. איך זה יראה עכשיו?

    בהצגה כזאת, נראה אמנם שהכחול עולה והכתום יציב, אבל רוב האנשים יאמרו שהכחול מדביק פער למול הכתום. ושוב, מדובר בדיוק באותם מספרים שמוצגים בכל הגרפים שפה. ההבדל ביניהם הוא קנה המידה, ולב הבעיה הוא שיש קני מידה שונים לציר ה Y הימני ולציר ה Y השמאלי.

    ומה הלקח? בכל פעם שרואים גרף שבו יש שני צירי Y, צריך להגדיל את מידת החשדנות לפני שאנחנו ניגשים לפרש את הנתונים, וזה תופס גם בלי תוספות של איורים דרמטיים. חג שמח.

  • מספרי רישוי מגניבים

    אתה עומד ברמזור ולפתע רואה משהו מוזר בלוחית הרישוי של הרכב שלפניך: קל לזכור אותו! אולי יש בו חזרה על ספרות, אולי יש רצף עולה, אולי אפשר לקרוא אותו גם מימין לשמאל בלי שישתנה. מספר מגניב! אפשר לצלם (בהתאם לחוקי התנועה) וגם להעלות לקבוצת הפייסבוק הייעודית ״מספרים מגניבים של מכוניות״. אבל מה בעצם מאפיין מכוניות עם מספרים מגניבים? צללתי אל הנתונים כדי לבדוק.

    איך מגדירים מספר מגניב? יש כמה תבניות: צמד של ספרות זהות (33), חזרה על צמד או שלשה (12300123), שימוש במספר נמוך של ספרות שונות בכל המספר, רצפים עולים או יורדים (765), ועוד. נתתי לכל תבנית ציון (די שרירותי), ובהנתן מספר רישוי, ציון המגניבות שלו הוא הסכום של הציונים של התבניות שיש בו.

    את רשימת לוחיות הרישוי של כלי הרכב בישראל אפשר להוריד מאתר משרד התחבורה. הנתונים מכילים גם את דגם הרכב, היצרן, שנת הייצור ועוד נתונים. ניקדתי את מספרי הרישוי, והנה התוצאות:

    הרכבים המגניבים ביותר בישראל: את הציון המקסימלי גורפת יונדאי i20 בצבע לבן הנושאת בגאווה את לוחית הרישוי 1111111. יש בזה גם מספר ספרות נמוך, גם רצפים של זוגות, שלשות, וגם יותר, וגם פלינדרום. אמנם מדובר בדגם 2013, אבל אין פלא שלא מוותרים עליה בקלות. יש בראש הרשימה גם רכבים עם מספרים שמורכבים רק מהספרה 5, רק מהספרה 3, ורק מהספרה 6. ותיקי התחום מציינים שבעבר הסתובבה בכבישי הארץ גם סיטרואן משנת 88 שמספרה 8888888 (בתמונה למעלה), אבל היא לא נמצאת בקובץ העדכני וסביר שירדה מהכביש. לרכבים בראש הרשימה, הציון שחישבתי מסתובב מעל 30 ויכול להגיע גם ל-50. זאת לעומת ממוצע כללי של 1.02 לרכב מסחרי וממוצע של 1.11 לרכב פרטי.

    היצרנים המגניבים ביותר: אם ממצעים את הציונים על פי יצרן, אז היצרנית שהמכוניות שלה הן עם המספרים המגניבים ביותר על כבישי ישראל היא בנטלי. אמנם לא מותג פופולרי (רק 97 יחידות ברחבי הארץ), אבל בהחלט מפנק, עם ציון ממוצע של 3.8. אם מחפשים יצרנים קצת יותר פופולריים (לפחות 200 יחידות), אז לראש הטבלה מגיעות מרצדס, פורשה, ופיג׳ו אוסטריה (יצרנית דגם הקופה RCZ).

    הדגמים המגניבים ביותר, מבחינת מספרי הרישוי, הם לקסוס LS460, ניסאן אינפיניטי, יונדאי GV80, ומספר דגמים של מרצדס: C300E, GLC350E, S500, ו-GLE350D. גם פורשה מיוצגת יפה, עם דגמי 718 ופנמרה. מה הסיפור עם דגמי היוקרה? קשה לדעת, אבל בחיפוש ברשת עולות כמה תיאוריות מעניינות. מיד נחזור לבדוק את זה מבחינה מספרית.

    לגבי סוג הבעלות: לרכב בבעלות פרטית יש את הסיכוי הגדול ביותר למספר מגניב, קצת פחות מזה לרכב בבעלות חברה, עוד פחות בבעלות ליסינג, והרחק בתחתית – בעלות של חברת השכרה.

    מה לגבי הדגמים הפחות מגניבים? מספר משעמם במיוחד, באופן ממוצע כמובן, צפוי לקונים של פיאט 500, סובארו פורסטר, סיטרואן ספייסטורר, רנו קנגו, או יונדאי סונטה. אפשר אולי לשער שמדובר ברכבים מאוד פרקטיים, ולכן הקונים שלהם פחות מתעניינים בדברים שלא קשורים ישירות בשינוע של אנשים וחפצים. יש אומרים גם שמספר מעניין עלול למשוך תשומת לב מיותרת של שוטרים, אז פחות צרות גם מההיבט הזה.

    ולסיום: מחיר הרכב. משרד התחבורה מרכז את מחירי המחירון של היבואנים השונים, כך שמתאפשר לנו לבדוק, לכל דגם, את ציון המגניבות של לוחיות הרישוי שלו מול המחיר הנקוב. בגרף פיזור זה נראה כך:

    יש פה נטיה לכיוון האלכסון שעולה ימינה ולמעלה, וחישוב הקורלציה יוצא 0.37. ובמילים: כן, יש קשר חיובי. מובהקות סטטיסטית גם היא נבדקה, במבחן proportions שמוגדר על העשירונים העליונים בשני המימדים. מסקנה: רכב יקר יותר בדר״כ יגיע עם מספר מגניב יותר. למה ומדוע? את זה כבר לא מצאתי בנתונים, ואני פתוח להצעות.

  • מה קו התחב״צ הכי איטי?

    כמה איטית יכולה להיות נסיעה בתחבורה ציבורית? ברור שנסיעה באוטובוס לאילת תקח הרבה זמן, אבל זה נכון גם לנסיעה במכונית. וברור שנסיעה בשעות העומס תהיה זוועה בשתי האפשרויות (בהנחה שאין נת״צ). אבל אפשר לנסות לנטרל את זה. ספציפית, לבחור יעד ואז לבדוק:

    • מה זמן הנסיעה ברכב פרטי
    • מה זמן הנסיעה בתחבורה ציבורית

    ולמצוא את היעדים שבהם ההבדל הוא הגדול ביותר. זה מה שעשיתי, בעזרת הממשק של מפות גוגל. בחרתי את חיפה כנקודת מוצא (תחנת חוף הכרמל), ומדדתי זמני נסיעה ליישובים שונים. בחרתי יישובים שבהם עד 1000 תושבים (נתוני למ״ס 2021), בהנחה שאל היישובים הגדולים יותר יש יותר קוים. הבדיקה נעשתה לפי זמן יציאה של יום א ב-7 בבוקר.

    והזוכה? ראס עלי, כפר של כ-700 תושבים בעמק זבולון. להגיע לשם יקח 25 דקות ברכב, ולחילופין שעה ו-55 דקות באוטובוס עם החלפה במרכזית המפרץ. ולמי שמעוניין ברכיבת אופניים, מדובר ברכיבה של שעה ו-42 דקות בלבד.

    מצורפת טבלה של היעדים האיטיים ביותר לנסיעה של יותר מחצי שעה ברכב. הם כולם מצפון-מזרח או מצפון לחיפה. העמודה ratio היא המנה בין שני זמני הנסיעה, כלומר פקטור של יותר מפי 3 בזמן הנסיעה לכל היעדים שבטבלה.

    יש עוד בדיקה שאפשר לעשות, והיא בין רכב פרטי לבין מסוק (תיאורטי). כלומר אם נשווה את המרחק על הכביש למרחק בקו מעוף הציפור, מהו המקום שבו הפער בין המקומות הוא הגדול ביותר?

    המנצח פה הוא גבעת ניל״י, מושב שנמצא ממש מדרום לרכס הכרמל שבקצהו הצפוני נמצאת חיפה. באופן כללי, כביש 6 חוצה את התוואי הזה באופן מהיר, אבל גבעת ניל״י ממוקמת ממש באמצע בין שתי יציאות שלו – בעסה. מרחק הנסיעה מחיפה לשם הוא 55 ק״מ, או כמעט כפליים מ-28 הקילומטרים שיעבור המסוק ההיפותטי. שאר היישובים בראש הרשימה נמצאים בגליל העליון.

    הערות? רעיונות לעוד אנליזות? מוזמנים להגיב

  • ניסוי: מלכודת דבש ל״אל תתקשרו אלי״

    עבור מי שמעוניין להמנע משיחות טלפון שיווקיות, הושק לאחרונה שירות חדש בשם ״אל תתקשר אלי״. הרעיון הוא שבעל הקו רושם את המספר שלו במאגר ממשלתי. ואז שירותי שיווק, במידה והם שומרי-חוק, מבררים אם המספר נמצא במאגר לפני שהם פונים אליו. על פניו, רעיון יפה. אבל השטן, כמו שאומרים, נמצא בפרטים הקטנים. ואושיות טכנולוגיה שונות כבר בחנו את הפרטים ומצאו שבצורה בה המאגר בנוי, זה יהיה קל, אפילו קל מדי, ליצור רשימה של מספרים שבמאגר, שאחר-כך אפשר להשתמש בה לכל מיני מטרות נכלוליות. ואחת מהן עלולה להיות גם שליחה של הודעות שיווקיות.

    ראיתי גם דיווח אחד לפחות של תרחיש כזה (אבל את הלינק איבדתי) – כלומר מישהו שרשם את המספר שלו במאגר, וחיש מהר קיבל הודעות ספאם לאותו מספר. זה מעלה חשד שההתקפה על המאגר אכן מבוצעת בשטח. ועם זאת, יש כמה הסברים אפשריים לתצפית כזאת. למשל, אולי ההודעות נשלחו ממאגר ספאם אחר? כדי לדעת בוודאות נדרשת בדיקה יותר מדעית.

    וזה מה שיצאתי לעשות. הרעיון הוא לייצר מספר ״בתול״, שלא רשום בשום מאגר, ולרשום אותו במאגר של הרשות להגנת הצרכן. ואם אכן יש פעילות של שאיבת המספרים מהמאגר, אז נקבל לאותו מספר הודעות שיווקיות. עכשיו השאלה הופכת להיות: איך מקבלים מספר טלפון שלא רשום עדיין בשום מקום.

    למזלנו יש דרך פשוטה לייצר מספר טרי, והיא דרך מה שנקרא ״סים פריפייד״. זה כרטיס סים לטלפון שלא מוצמד לחשבון הוראת קבע, אלא מחויב כנגד יתרה שהוטענה מראש (pre-paid).
    זה שימושי לתיירים, זה שימושי לאנשים עם הגבלות אשראי, וזה שימושי לעוד כל מיני תרחישים. בפרט, זה שימושי למה שאנחנו צריכים. את הסים אפשר לקנות בכל חנות סלולר (״חנות תאית״ בעברית? או שזה שם שמתאים יותר למוצרי נייר?). וזה מה שעשיתי בתאריך 19 בדצמבר. את הסים הכנסתי למכשיר סלולרי שמצאתי בבית מעלה אבק, וגם בדקתי שהוא מקבל ושולח הודעות סמס בצורה תקינה.

    כמובן שיש אפשרות שהמספר של הסים הוא ממוחזר, הווה אומר שהוא היה שייך בעבר לחוזה שהסתיים, ואז אנחנו עלולים לקבל שיחות והודעות מהגורמים שהיו בעבר בקשר עם בעל המספר. כדי לנטרל את האפשרות הזאת, התחלתי את הניסוי בתקופת בקרה של כשבוע. בתקופה הזאת לא התקבלו שום הודעות או שיחות, כלומר הכל בסדר.

    בתאריך 27 בדצמבר, בתום תקופת הבקרה, רשמתי את המספר במאגר, וחיכיתי להודעות.

    עד ל-9 בינואר – לא הגיע כלום. לא שיחות ולא הודעות. ב-9 בינואר קיבלתי הודעה ולשונה ״בעקבות הפרסומים בתקשורת הנכם מוזמנים לבדיקה כמה כסף יש לכם בחברות הביטוח שניתן למשוך לחשבון הבנק שלכם. לבדיקה בחינם וללא התחייבות״. היה גם מספר לשלוח אליו ״להסרה״ והוא 0723941786. בתאריך 1 בפברואר קיבלתי עוד הודעה, על ״שקיות רפואי במחירים מצחיקים״. בשני המקרים נראה לי שאין קשר למאגר DNC.

    אז המסקנה, נכון לעכשיו, היא שאין פעילות מסיבית של ״חליבה״ שמשמשת למסרים שיווקיים. עדיין יכול להיות שגורמים נכלוליים מנצלים את החולשות ב API כדי לשאוב מספרים פעילים. אבל ככל שהצלחתי לבדוק, קשה לומר בוודאות שיש שליחה של הודעות לטלפונים שבמאגר.

    דרך אגב, השיטה של מספר (או כתובת) שקיימים במאגר רק כדי לתפוס את מי שמפר את תנאי השימוש היא לא חדשה, וגם יש לה שם: מלכודת דבש. אני בטוח שהרשות להגנת הפרטיות שותלת ברשימה כמה כאלה מיוזמתה. מה, לא?

    ומה הלאה? יש לי מספר חדש ונוצץ, ואת המחיר של הסים (כ-50 שקלים) לא אקבל בחזרה. אפשר להשתמש בו לניסוי דומה, במאגר אחר שאנשים חושדים בו שהוא פתיון לספאמרים. אני פתוח להצעות – תשלחו לי רעיונות ואני מבטיח לעשות ניסוי נוסף ולדווח לכם.

  • תוספת נפח

    ביום 30.11.2022 כתב סטנלי ריד בדה-מרקר על גז מונזל. בכתבה מופיע הגרף הבא, שמתאר את השינויים במחיר שלו:

    הגרף הזה גרוע. יש מספר סיבות:

    1. אם רוצים שנבין את שינוי הנתון לאורך הזמן, אז צריך גרף קוי ולא גרף עמודות.
    2. ציר הזמן לא אחיד: יש שתי נקודות זמן ב-2022, אחת נוספת עבור כל 2020, ואת 2021 מסתירים כליל.
    3. יש מעט מדי נתונים. גם ויזואלית, מה שרואים זה בעיקר רקע לבן. זה מעין היפוך של תופעה בשם chartjunk – תוספת קישוטים ויזואליים שלא מכילים מידע. מה שקורה פה זה מחסור גדול באלמנטים שנותנים מידע.

    מיעוט הנתונים והמספרים העגולים מרמזים שאולי עדיף לחסוך את המקום ולתאר את הנתונים במשפט. ואתם יודעים מה? זה בדיוק מה שתמצאו במאמר. בפסקה הרביעית כתוב:

    ״מחיר משלוח LNG לפני שנתיים היה כ–20 מיליון דולר. מאז נסק ל–200 מיליון דולר ביוני, ועכשיו התמתן לכחצי מזה, כשהחורף כבר בפתח.״

    למה צריך את זה גם כגרף? וגם אם נניח שצריך, למה בצורת גרף לא מתאימה? לעורך פתרונים.

  • תמונה שווה אלף מילים

    ביום 23.11.2022 כתב נתנאל גאמס בדה-מרקר על עובדים ממורמרים והשפעתם על סביבת העבודה. בכותרת המשנה נאמר שמספר העובדים האלה נמצא בעליה. ובנוסף, בתוך הטקסט מדברים על שיעור העובדים, ש״עלה ל-18%….שיא של קרוב לעשור״.

    אבל שיא של קרוב לעשור אומר שלפני עשור המספר (או השיעור) היה גבוה יותר, לא? למזלנו המאמר מכיל גרף, ובו נתונים היסטוריים של עשרים שנה:

    מהגרף עולים כמה דברים:

    • עובדתית, שיעור העובדים הלא מרוצים הוא בעליה, החל מ-2019.
    • בין 2007 ל-2013, שיעור העובדים הלא מרוצים היה גבוה לפחות כמו רמתו הנוכחית.

    כלומר הגרף גם תומך בטענה המרכזית שמניעה את כל המאמר, אבל באותה מידה תומך בטענה ההפוכה. זה קורה לא מעט עם נתונים אמיתיים, ואני מוריד את הכובע בפני העורך שהראה לנו את הנתונים כולם, על מורכבותם, ולא בחר להציג לנו תמונה חלקית.

    במבט כללי, הייתי אומר שהגרף כפי שהוא מוצג לא מראה שונות משמעותית במדד הרלבנטי. במילים אחרות, הקו נראה שטוח מכדי לדבר על עליות או ירידות. אולי אם היו מסירים את הקו הירוק, ומתקנים את קנה המידה שיהיה בטווח 0-20, אז השיפועים היו מתחדדים. למי שרוצה דיון יותר מפורט בנושא, בעבר דיברנו על קנה מידה והדגשת שינויים בפוסט ״זכאות לבגרות״, שבמקרה גם הוא מנתח כתבה של נתנאל גאמס.

  • כמה אפשר להתרחק מבית-כנסת בישראל?

    את ההשראה לפוסט הזה קיבלתי מאמריקאי בשם סטפן ואן וורלי. לאחר שהגיע לעיר נידחת ובה היה – כמובן – סניף של מזללת מקדונלדס, הוא תהה כמה רחוק אפשר להיות מסניף כלשהו של מקדונלדס בתחומי ארה״ב היבשתית (כלומר ללא אלסקה והוואי). הוא השיג את המיקומים של סניפי הרשת, 13,000 במספר, וחישב שלכל היותר תוכלו להתרחק 120 מייל (קצת פחות מ-200 קילומטר) מסניף כלשהו. הוא גם עלה לרגל לאותה נקודה כפונה, ותיעד את חוויותיו בסרטון. מדי מספר שנים הוא חוזר על החישוב, כי עם הזמן סניפים חדשים נפתחים ואחרים נסגרים.

    http://www.datapointed.net/2018/12/distance-to-nearest-mcdonalds-dec-2018/https://www.youtube.com/watch?v=J4Chycpq_Ik

    מה המקבילה אצלנו? בעקבות שיחה עם חברים, אני תהיתי מה המרחק הגדול ביותר מבית כנסת שאפשר להגיע אליו בתחומי ארץ הקודש. לפי ההערכות, יש בארץ בין 10 ל-15 אלף בתי כנסת, אבל ברור לכולם שהם לא מפוזרים בצורה אחידה, ושיש בארץ אי-שוויון גיאוגרפי בנגישות לספר תורה.

    לו היתה בידינו רשימה מלאה של בתי הכנסת, אז ניתן היה לעשות כמו ואן וורלי – לחשב מרחקים אל כולם ולמצוא את הנקודה. אבל זה לא כל כך פשוט. כמו שאפשר להבין מהכתבה מעלה, אין בנמצא מאגר מרכזי ומקיף של כל בתי הכנסת. בעצמי חיפשתי במאגר המפות הממשלתי ובעוד כמה מאגרים והעליתי חרס בידי.

    מה נשאר? יש לגוגל ממשק (API) עם גישה לנתונים שמוצגים בגוגל מאפס. זה מאגר די מקיף, ולצורך העניין ניתן להסתמך עליו. על הנייר, השימוש כרוך בתשלום, אבל תכל׳ס מדובר בשברי סנטים לכל שאילתה. ובנוסף, עם פתיחת החשבון הם גם מעניקים זיכוי נדיב כנגד שימוש. זה צריך להספיק בקלות לפרויקט תחביב כמו זה, אם לא משתוללים.

    מצד שני, אין בממשק של גוגל משהו כמו ״תביא את כל בתי הכנסת בישראל״. אפשר לבקש בתי כנסת בקרבת נקודה נתונה, ומה שזה יחזיר זה מספר לא גדול של התאמות. ואם אתם חושבים שאפשר לרשת את כל מפת ישראל בנקודות צפופות ולכל אחת לבצע שאילתא, אז זה בהחלט נכנס להגדרה של השתוללות. וגם אם (במזל), החיוב יהיה מתחת למענק ההצטרפות, אתם מנסים להוציא מגוגל מידע שעלה לה כסף להפיק, ושהיא יכולה להרוויח ממנו. כלומר בטווח הארוך זה לא מעשי.

    אז מה עושים? אמנם אי אפשר להוציא רשימה של כל בתי הכנסת בישראל, אבל אולי אפשר להסתפק בכמה בתי כנסת במקומות אסטרטגיים. תחזרו רגע להגדרת הבעיה – נניח שאני בלב סחנין, ותוהה מה המרחק לבית הכנסת הקרוב ביותר. אז לצורך הענין פחות מעניינים אותי בתי הכנסת בבאר שבע. יותר משמעותי מבחינתי לדעת מה יש בכרמיאל וברקפת. כלומר, אפשר לבדוק מול רשימה חלקית של בתי כנסת, בתנאי שהם מפוזרים על המפה בלי להשאיר ״חלונות״ גדולים מדי.

    ומכאן האלגוריתם – נתחיל ברשימה מצומצמת של בתי כנסת, ונבצע כמה סבבים. בכל סבב נמצא את הנקודה המרוחקת ביותר מבתי הכנסת שברשימה שלנו. אבל גם נעדכן את הרשימה (עוד קריאה למאגר המיפוי) כדי שתתעבה ליד הנקודה שמצאנו. בסבב הבא נחפש שוב, הפעם כנגד יותר בתי כנסת, ומן הסתם נמצא נקודה חדשה (מכיוון שיש עכשיו עוד בתי כנסת שסמוכים לנקודה הקודמת שמצאנו). נחזור על הסבבים עד שנראה שאין יותר תוספות משמעותיות לרשימה.

    וזה מה שעשיתי. התחלתי עם רשימת בתי הכנסת ב-10 הערים הגדולות בישראל. לאחר מספר סבבים התכנסתי לכ-500 בתי כנסת, שמפוזרים על המפה כך:

    ומהי אותה נקודה מרוחקת, אתם שואלים? באופן לא מפתיע, היא בנגב:

    ליתר דיוק, ממש בגבול מצרים, בסמוך לקניון הלבן. היא מרוחקת מרחק שווה של 45.9 ק״מ, בקו אוירי, משלושה בתי כנסת:

    1. בית הכנסת הרפורמי ביהל
    2. בית הכנסת בקטורה
    3. בית חב״ד במצפה רמון, זה המעוצב בדמות מרכז חב״ד העולמי שבברוקלין:

    וזה מספק את הסקרנות שלי בנושא. אין לי תכניות לשחזר את המסע של ואן וורלי. מכל מקום, קשה מאוד להגיע לשם כי כביש 10 סגור מטעמי ביטחון. מה שכן, אפשר לחזור על החישוב לאחר שיפתח בית כנסת בשיטים או בנאות סמדר. ואם יש כזה כבר – אז לאחר שמפות גוגל יעודכנו בנדון.

    (נ״ב – לגבי חישוב מרחקים על מפה – זה טיפה יותר מסובך ממה שנדמה בתחילה, אבל לא בהרבה)

  • תשומות, תפוקות, ושביתות

    ביום 29.8.2022 כתב נדב אייל ב״ידיעות״ על מצב מערכת החינוך, לקראת השביתה של 1 בספטמבר. זו כתבה שמטיחה בפרצוף אמת לא נעימה, וכל הכבוד לאייל ולידיעות אחרונות שמקדישים לנושא זמן ואינצ׳ים. הכתבה מכילה נתונים וגרפים ממחקר של פרופ׳ בן-דוד, שתומכים בטענה שהכספים המרובים שמוזרמים למערכת החינוך בישראל מצליחים להשיג מעט מאוד, עם וגם בלי התייחסות לגובה ההשקעה.

    הגרפים הם מאוד מורכבים, ובפרט ביחס לקהל. הם מתאימים בהחלט לקהל של אנשי מקצוע (כמו הקהלים שאליהם מייעד פרופ׳ בן דוד את החומר), אבל לשים אותם בעיתון יומי פופולרי זה הימור רציני. נתחיל מהקל ביותר:

    רמת הידע של מורים

    זה תיאור של רמת הידע של מורים, בשני מימדים: מתמטיקה וקריאה. זה נעשה בגרף פיזור (scatter plot), שהוא כשלעצמו מסובך להבנה. דנו בזה בפוסט קודם, שבאורח פלא גם הוא עוסק בתפוקות של מערכת החינוך. ההמלצה שם היתה לצמצם את הנתונים למימד יחיד, במידה ויש קורלציה בין שני המימדים. האם פה יש קורלציה? נראה שכן. יותר מזה, מישהו צייר על הגרף קו שחור שאינו מוסבר. מהו הקו הזה? למה הוא פה? נותר רק לנחש. הניחוש שלי – קו רגרסיה. מכל מקום – צריך מקרא!

    נעבור לגרף הכי מסובך. למעשה הוא כל כך מורכב, במסר ובגרפיקה שלו, שאני לא אדון בו כאן, אבל רק אציג אותו לעיונכם. אם יש לכם תובנות או הצעות לשיפור, אז יש פה מודול של הערות למטה.

    פער בהישגים מול אמהות

    והגרף השלישי הוא זה: תשומות (בשעות לימודים) ותפוקות (ביחידות לא מבוארות) ב-8 מדינות לעומת ישראל.

    תשומות ותפוקות בחינוך

    נתחיל בשבחים: יש פה נירמול ביחס לישראל, שזה רעיון מצוין (וגם על זה דיברנו בפוסט קודם). יש אלמנט גרפי שעובר דרך כל המלבנים, וזה הקו האנכי השחור, שמסמל את הנתונים של ישראל (גורם הנירמול). מעבר לזה, משהו לא ממש עובד כאן. קודם כל, הצבעים: הלבן מסמל תפוקות (הישגים) והצהוב משהו תשומות (שעות כיתה). אבל הלבן הוא צבע נייטרלי. למה בחרו דווקא בלבן וצהוב? אולי כי הגוונים מסתדרים יפה עם הרקע הירקרק. הרקע הירקרק, דרך אגב, מדמה לוח של גירים. כמו שהיה פעם בכיתות. אבל כבר כמה שנים טובות שבכיתות יש לוחות מפלסטיק לבן בוהק, אז הדימוי פה מדבר אולי להורים של התלמידים, אבל הוא ארכאי.

    ניסיתי לשחק עם הגרף, ובשלב ראשון לסובב אותו – העיניים שלנו טובות באומדן יחסי של גבהים יותר מאשר של רוחבים. זה נותן משהו כזה:

    בעיני זה יותר מוצלח ככה. אבל עדיין יש פה שתי בעיות. הראשונה היא שהמספרים השליליים הם לא באמת שליליים (אין כמות שלילית של שעות לימודים). זה נתון יחסי שנוצר בזמן הנרמול. הבעיה השניה היא יותר יסודית – היחידות. אומנם בשני המקרים זה באחוזים. אבל מה יחידות הבסיס של ״הישגים״? שוב, ניחוש שלי (למה אין מקרא!?) – ציונים במבחנים סטנדרטיים. זה לא נראה בר השוואה עם שעות לימוד. אז כדי להפריד טיפה בין שני המספרים, ריווחתי קצת את העמודות, כך:

    אופציה אחרת שקיבלתי מקוראים אומרת – למה לסבך? יש פה שני מדדים שונים, ולא צריך להתפתל, פשוט להציג שני גרפים שונים. משהו כזה:

    חדי העין יבחינו שאת ציר ה-Y בגרף התחתון מתחתי (הוא מתחיל ב-15), כדי להדגיש את ההבדלים בין העמודות. מה דעתכם על הגירסה הזאת?

    ומה עוד? הייתי שמח לראות מדוע נבחרו שמונה המדינות האלו מתוך כל ה OECD, ולא אחרות.
    ובכלל, אפשר להנגיש יותר את הנתונים עם קישור לכלים אינטראקטיביים, וגם עם קישור למצגת של פרופ׳ בן דוד. זה נושא חשוב מכדי שנזניח אותו.