הערות מהפגישה של שותפי TFF ב-16/2/2022, הערות מהמפגש ב-16/2/2022 של משתפי פעולה ב-TFF

  • משתתפים:

    • קשישטוף אוסטרובסקי (גוגל)
    • אלכס אינגרמן (גוגל)
    • דוויט קלינטון (גוגל)
    • בוי חן (LinkedIn)
    • Souvik Ghosh (LinkedIn)
    • Zheng Li (LinkedIn)
  • [chen] השימוש הנוכחי שלנו, תחומי עניין לתרומות, תהליכים כיצד לתרום; תוכנית פיתוח עתידית

  • [boyi] איך אנחנו משתמשים ב-FL היום

    • שני חלקים - אחד הוא חוצה סילו
      • נתונים של המשתמשים שלנו
      • דרישות משפטיות מגבילות את הגישה לנתונים
      • FL מגיע שימושי עם נתוני 3P
      • יכול למנף נתונים תוך עמידה ברגולציה
    • FL במכשיר - מעניין, אבל עובד בעיקר על סילו צולב
    • כמה פרויקטים שנוכל להמשיך
      • בונים אבות טיפוס
      • TFF שימושי
      • Benchmark FL לעומת למידה העברה מותאמת אישית
        • שימוש בנתונים של לקוחות כדי להכשיר מודל מותאם אישית לכל לקוח לעומת למידה של העברה, השווה
        • אתגרים עם איך FL עובד
          • חלק מהלקוחות גדולים מאחרים -> הטיה
          • הלקוחות התורמים הכי הרבה מודאגים מהרוכבים החופשיים; לקוחות עם מינימום נתונים מודאגים מכך שהם לא ישפיעו מספיק על המודל
        • אתגרי מדרגיות
          • כרגע להסקת מסקנות (מאות M)
          • נתוני אימון לא כל כך גדולים כרגע (10s-100sK/ממגורות)
          • הפעלת מסקנות באצווה על O(מאות M) לקוחות
          • נפח הנתונים הכולל כאתגר העיקרי
            • רשומות בכל הלקוחות
          • גודל האשכול מוגבל כעת, מה שמגביל את קצב ההסקה
        • לקוח = ממגורה שהנתונים לא יתערבבו עם ממגורות אחרות. מהי הקרדינליות?
          • עושה ניסויים עכשיו, רוצה להגדיל את קנה המידה ל-100 אלפי ממגורות בעתיד
        • מה המספר שראית עבור # לקוחות TFF?
          • במכשיר: מספר רב של ממגורות נתונים קטנות; x-silo הוא מספר קטן של מערכי נתונים גדולים
        • עד כמה הממגורות דומות?
          • הסכימות זהות, אבל התפלגות הנתונים שונה מאוד בין הממגורות. השתתפות לא שוויונית
      • [K] האם אתה חושב על TFF להסקת מסקנות כמו גם לאימון?
        • [ב] כרגע, השתמש ב-TFF לאימון; מעדיף להתאמן ולהסיק על אותה מסגרת.
        • [K] אותם אינפרא או אותם דגמים?
        • [ב} כרגע, אותו דגם ואותו אשכול
      • [ב] רוצה להבין כיצד להכשיר דגמים ולפרוס למכשירים.
      • [S] הצורך להכשיר דגמים בסביבה אחת, להוציא ולהשתמש בסביבה אחרת חשוב. רק לא עם הבקשה הראשונה.
  • [ב] מה אנחנו רוצים לבנות:

    • רעיון אחד לתרומה, ברגע שנעשה מדדי הוגנות, נוכל להוסיף כלים ואמות מידה ל-TFF
      • איך המודל פועל על פני ממגורות (ביצועים והטיה לא שווים)
    • [K] האם אתה רואה בזה בעיה בפועל? [ב] אנו מאמינים שזו תהיה בעיה בפועל.
    • [ב] חשבו על זה מנקודת מבט אדוורסרית. אנשים יהיו מודאגים לגבי הכנסת נתונים לקופסה. זה דאגה כללית אבל אין לנו מדד מסוים.
    • [K] לאיזה דבר אנחנו פונים? האם אתה מדבר על מצב שבו יש ממגורות + הנחיות לגבי איך לעבד את זה - אבל זה לא יריב, אתה פשוט לא רוצה ליצור הטיה. לעומת. מצב נוסף שבו יש מספר מוסדות, צדדים שאינם מאמינים הדדית. האם אנחנו חושבים על אחד מאלה או על שניהם?
    • [ב] אנו רוצים להסתכל על שניהם; כרגע תחשוב רק על האחרון.
    • [D] למשל סילו הנה חברות, ומערכי נתונים הם נתונים שהועלו על ידי כל אחת
    • [K] אתה מדגיש חששות לגבי טעינה חינם. אבל יש גם צדדים שאינם מאמינים הדדית. האם הצדדים רוצים למנוע מאחרים/מכם לראות את הנתונים? החששות הללו נמצאים במתח. מצד אחד רוצה לאמת תרומה למניעת התקפות, מצד שני לא רוצה לראות תוכן, למען הפרטיות
    • [ב] תסתכל על זה ב-2 דרכים. האחד הוא שמירת הפרטיות - דרך DP וכו'. חלק אחר, מנקודת מבט של ביצועי מודל, כאשר מאומנים מנתונים של ממגורות רבות, יש חשש שממגורות שונות מרוויחות אחרת. אנו חושבים שיש דרך סטנדרטית לגשת לראשון; האחרון יותר מסובך.
    • [יא] הגינות במובן זה שהמודל מתפקד היטב; אחד אחר יכול להיטען בחינם. זה האחרון שנמצא יותר במתח עם פרטיות. אתה מודאג מזה?
    • [ב] שניהם חשובים באותה מידה. רוצה גם להגן על פרטיות הנתונים וגם לקבל דרך הוגנת להפיץ את ההטבות.
    • [S] אין לנו עדיין תשובות טובות. [K] אותו דבר.
    • [ד] עד כמה החברות הללו סומכות על Linkedin שתפעיל את זה?
    • [S] אמון לא היה בעיה עד כה, לפחות בדוגמאות שאני מודע להן. היו לנו כמה בקשות אילוצים, אבל אין סירובים מוחלטים. אנשים מוכנים לחלוק את הנתונים בשבילנו כדי לבנות ערך משותף.
    • [א] דאגה לפרטיות רק של ממגורות, או של אנשים בתוך ממגורות?
    • [S] האחרון
  • [D] האם זה נבנה על Azure? דברים אחרים בפריסה שעלינו לחשוב עליהם?

    • [S] בסופו של דבר יכנסו מעבדי GPU; הדגמים הראשוניים יהיו קטנים יותר ובעלי פחות צרכים. בסופו של דבר, זה יכלול מספר גדול של חברים וארגונים → המודלים יגדלו למדי.
    • [ד] האם זה אותו תכלת שזמין לציבור? או איזו אינפרא פנימי למטרה, שאינה גלויה בחוץ.
    • [S] דברים סטנדרטיים למדי.
    • [D] מקל על שיתוף הפעולה, הופך את קוד OSS ליותר ערך מכיוון שכולם יכולים להריץ אותו בתכלת ציבורית.
  • [K] בוא נעשה דברים! מה אלה צריכים להיות? הזכרנו את חבילת הבנצ'מרק ופלטפורמה צולבת ממגורות. WDYT על יצירת PRD בציבור, לדבר על תכונות ומקרי שימוש?

    • [Z] איך נראה מפרט המוצר? רכיבים קטנים ב-TFF?
    • [k] יכול להיות שאנחנו מדברים על רכיבים, או מוצר שיכול להיבנות על גבי tff ולהיות זמין לאחרים.
    • [Z] אני רוצה להבין - האם זה תהליך התרומה? להתחיל עם המוצר?
    • [ק] אנחנו עושים את התהליך כאן. תלוי איפה אתה מרגיש בנוח.
    • [Z] האם יש לך דוגמאות למוצרים כאלה, אולי מחוץ ל-TFF אבל ב-TF.
    • [K] ל-TF יש תהליך למסמכי עיצוב. אנחנו יכולים להתחיל להפוך את הפתקים האלה למשהו כזה. למשל ממגורות, חסרות אמון הדדיות, רוצות להשתמש בטכניקות כמו DP, צריך לעבוד על Azure
    • [D] שימוש במדריך מקרי שימוש, מבלי לחשוף מידע
    • [K] אנחנו רוצים לפתח מפת דרכים, מסמכים, דוגמאות למקרי שימוש שיתקיימו ב-TFF בכל מקרה, אנחנו יכולים להתחיל ביחד. אם להתחיל בקטן קל יותר, בכל אופן, בואו נעשה זאת.
    • [ב] אני רואה הרבה מחקרים על אתגרים ב-FL. אולי נוכל לקחת כמה כלים כדי להתמודד עם האתגרים האלה ולהתחיל שם. למשל בדומה לרכיבה חופשית, הטרוגניות נתונים - נראה אתגר שכיח בהגדרות מאוחדות. כלים יהיו שימושיים באופן אוניברסלי.
      • [K] כלים להערכת אתגרים? או רכיבים של מערכת.
      • [ב] פונקציונליות ש-TFF יכול לספק
      • [K] +1. התחלה עם PRD נותן הקשר לדבר על תכונות, אבל אנחנו יכולים לדבר גם על תכונות בבידוד. אולי נוכל להתחיל עם מסמך שמתאר אתגר טעינה חינם ופועל לקראת כלים להתמודד איתם.
      • [ד] אנחנו גם עובדים עם חוקרים. האם לינקדאין שואפת לייצר תפוקות מחקר בנוסף למוצר?
      • [Z] בטווח הקצר, עדיין לא למחקר.
  • [K] נשמע שאנחנו יכולים להתחיל עם כמה מסמכים משותפים, להתחיל לתאר כמה תכונות או רכיבים? כל צד יכול ליזום. אנחנו יכולים להשתמש ב-Google docs ובאימייל. מאפשר ברירת המחדל לציבור.

  • [אוסטרוסקי] מה נרצה לבנות, ואיזה צעדים ראשונים קונקרטיים נוכל לעשות

    • שואפים ליותר מעוד פגישה - AIs לעצמנו?
    • התחלנו לתאר כמה מוצרים/פרויקטים ספציפיים
      • סוויטת Benchmark
      • פלטפורמת סילו חוצה עם DP, הגינות, הגנה לטעינה חופשית
    • השלבים הבאים אפשריים
      • האם להתחיל מסמך דרישות מוצר ולנסח אותו בגלוי ביחד עבור כל אחד מהדברים לעיל?
      • להתחיל להחליף רעיונות ברמת העיצוב?
      • תוכניות פוטנציאליות לתרומות פיתוח בפועל?
        • רכיבים/פיצ'רים ספציפיים שאתה רוצה לפתח?
    • חפצים ספציפיים ליצירה:
      • מסמך משותף המתאר בעיית טעינה חופשית ודרישות של כלי או תכונה ב-TFF שיכולים לטפל בה
      • מסמך משותף שמתאר את המדדים להטיה על פני ממגורות עם כמויות לא שוות של נתונים, מה היינו רוצים שהמדד ימדוד
      • מסמך משותף המגדיר רכיב חדש שיאפשר ל-TFF לתפקד בסביבה מבוססת Azure (TBD באיזו שכבה הוא יצטרך להשתלב)
  • [אוסטרובסקי] מתקשר בגלוי

    • מה לעשות זמין לציבור ( בדף הנחיתה של GitHub )
    • סיכום של דיונים והחלטות מתוך זה ופגישות המשך שיתפרסמו תוך מספר ימים לאחר כל פגישה בדף GitHub
    • קישורים לחפצים (כל תוכניות, מפות דרכים, מסמכי עיצוב וכו' שייווצרו) כמו כן יפורסמו ב-GitHub
    • שיחות (צ'אט?)
      • רָפוּי
    • יעדים משותפים:
      • מוצרים/רכיבים ספציפיים בהיקף?
      • אמנה עבור קבוצת עבודה ספציפית / מצומצמת יותר כדי לתמוך בפיתוח של אלה?
  • [ב] מה לעשות עם בעיות תפעוליות קטנות?

    • [K] בעיות רפיון או GitHub יכולות לעבוד. מה יהיה פרודוקטיבי עבורך?
  • [אוסטרוסקי] לוח פגישות חוזר שאנחנו יכולים להתחייב אליו במשותף?

    • מונטלי