דף זה תורגם על ידי Cloud Translation API.

הערות מהפגישה של שותפי TFF ב-16/2/2022, הערות מהמפגש ב-16/2/2022 של משתפי פעולה ב-TFF

משתתפים:
- קשישטוף אוסטרובסקי (גוגל)
- אלכס אינגרמן (גוגל)
- דוויט קלינטון (גוגל)
- בוי חן (LinkedIn)
- Souvik Ghosh (LinkedIn)
- Zheng Li (LinkedIn)
[chen] השימוש הנוכחי שלנו, תחומי עניין לתרומות, תהליכים כיצד לתרום; תוכנית פיתוח עתידית
[boyi] איך אנחנו משתמשים ב-FL היום
- שני חלקים - אחד הוא חוצה סילו
  - נתונים של המשתמשים שלנו
  - דרישות משפטיות מגבילות את הגישה לנתונים
  - FL מגיע שימושי עם נתוני 3P
  - יכול למנף נתונים תוך עמידה ברגולציה
- FL במכשיר - מעניין, אבל עובד בעיקר על סילו צולב
- כמה פרויקטים שנוכל להמשיך
  - בונים אבות טיפוס
  - TFF שימושי
  - Benchmark FL לעומת למידה העברה מותאמת אישית
    - שימוש בנתונים של לקוחות כדי להכשיר מודל מותאם אישית לכל לקוח לעומת למידה של העברה, השווה
    - אתגרים עם איך FL עובד
      - חלק מהלקוחות גדולים מאחרים -> הטיה
      - הלקוחות התורמים הכי הרבה מודאגים מהרוכבים החופשיים; לקוחות עם מינימום נתונים מודאגים מכך שהם לא ישפיעו מספיק על המודל
    - אתגרי מדרגיות
      - כרגע להסקת מסקנות (מאות M)
      - נתוני אימון לא כל כך גדולים כרגע (10s-100sK/ממגורות)
      - הפעלת מסקנות באצווה על O(מאות M) לקוחות
      - נפח הנתונים הכולל כאתגר העיקרי
        רשומות בכל הלקוחות
      - גודל האשכול מוגבל כעת, מה שמגביל את קצב ההסקה
    - לקוח = ממגורה שהנתונים לא יתערבבו עם ממגורות אחרות. מהי הקרדינליות?
      - עושה ניסויים עכשיו, רוצה להגדיל את קנה המידה ל-100 אלפי ממגורות בעתיד
    - מה המספר שראית עבור # לקוחות TFF?
      - במכשיר: מספר רב של ממגורות נתונים קטנות; x-silo הוא מספר קטן של מערכי נתונים גדולים
    - עד כמה הממגורות דומות?
      - הסכימות זהות, אבל התפלגות הנתונים שונה מאוד בין הממגורות. השתתפות לא שוויונית
  - [K] האם אתה חושב על TFF להסקת מסקנות כמו גם לאימון?
    - [ב] כרגע, השתמש ב-TFF לאימון; מעדיף להתאמן ולהסיק על אותה מסגרת.
    - [K] אותם אינפרא או אותם דגמים?
    - [ב} כרגע, אותו דגם ואותו אשכול
  - [ב] רוצה להבין כיצד להכשיר דגמים ולפרוס למכשירים.
  - [S] הצורך להכשיר דגמים בסביבה אחת, להוציא ולהשתמש בסביבה אחרת חשוב. רק לא עם הבקשה הראשונה.
[ב] מה אנחנו רוצים לבנות:
- רעיון אחד לתרומה, ברגע שנעשה מדדי הוגנות, נוכל להוסיף כלים ואמות מידה ל-TFF
  - איך המודל פועל על פני ממגורות (ביצועים והטיה לא שווים)
- [K] האם אתה רואה בזה בעיה בפועל? [ב] אנו מאמינים שזו תהיה בעיה בפועל.
- [ב] חשבו על זה מנקודת מבט אדוורסרית. אנשים יהיו מודאגים לגבי הכנסת נתונים לקופסה. זה דאגה כללית אבל אין לנו מדד מסוים.
- [K] לאיזה דבר אנחנו פונים? האם אתה מדבר על מצב שבו יש ממגורות + הנחיות לגבי איך לעבד את זה - אבל זה לא יריב, אתה פשוט לא רוצה ליצור הטיה. לעומת. מצב נוסף שבו יש מספר מוסדות, צדדים שאינם מאמינים הדדית. האם אנחנו חושבים על אחד מאלה או על שניהם?
- [ב] אנו רוצים להסתכל על שניהם; כרגע תחשוב רק על האחרון.
- [D] למשל סילו הנה חברות, ומערכי נתונים הם נתונים שהועלו על ידי כל אחת
- [K] אתה מדגיש חששות לגבי טעינה חינם. אבל יש גם צדדים שאינם מאמינים הדדית. האם הצדדים רוצים למנוע מאחרים/מכם לראות את הנתונים? החששות הללו נמצאים במתח. מצד אחד רוצה לאמת תרומה למניעת התקפות, מצד שני לא רוצה לראות תוכן, למען הפרטיות
- [ב] תסתכל על זה ב-2 דרכים. האחד הוא שמירת הפרטיות - דרך DP וכו'. חלק אחר, מנקודת מבט של ביצועי מודל, כאשר מאומנים מנתונים של ממגורות רבות, יש חשש שממגורות שונות מרוויחות אחרת. אנו חושבים שיש דרך סטנדרטית לגשת לראשון; האחרון יותר מסובך.
- [יא] הגינות במובן זה שהמודל מתפקד היטב; אחד אחר יכול להיטען בחינם. זה האחרון שנמצא יותר במתח עם פרטיות. אתה מודאג מזה?
- [ב] שניהם חשובים באותה מידה. רוצה גם להגן על פרטיות הנתונים וגם לקבל דרך הוגנת להפיץ את ההטבות.
- [S] אין לנו עדיין תשובות טובות. [K] אותו דבר.
- [ד] עד כמה החברות הללו סומכות על Linkedin שתפעיל את זה?
- [S] אמון לא היה בעיה עד כה, לפחות בדוגמאות שאני מודע להן. היו לנו כמה בקשות אילוצים, אבל אין סירובים מוחלטים. אנשים מוכנים לחלוק את הנתונים בשבילנו כדי לבנות ערך משותף.
- [א] דאגה לפרטיות רק של ממגורות, או של אנשים בתוך ממגורות?
- [S] האחרון
[D] האם זה נבנה על Azure? דברים אחרים בפריסה שעלינו לחשוב עליהם?
- [S] בסופו של דבר יכנסו מעבדי GPU; הדגמים הראשוניים יהיו קטנים יותר ובעלי פחות צרכים. בסופו של דבר, זה יכלול מספר גדול של חברים וארגונים → המודלים יגדלו למדי.
- [ד] האם זה אותו תכלת שזמין לציבור? או איזו אינפרא פנימי למטרה, שאינה גלויה בחוץ.
- [S] דברים סטנדרטיים למדי.
- [D] מקל על שיתוף הפעולה, הופך את קוד OSS ליותר ערך מכיוון שכולם יכולים להריץ אותו בתכלת ציבורית.
[K] בוא נעשה דברים! מה אלה צריכים להיות? הזכרנו את חבילת הבנצ'מרק ופלטפורמה צולבת ממגורות. WDYT על יצירת PRD בציבור, לדבר על תכונות ומקרי שימוש?
- [Z] איך נראה מפרט המוצר? רכיבים קטנים ב-TFF?
- [k] יכול להיות שאנחנו מדברים על רכיבים, או מוצר שיכול להיבנות על גבי tff ולהיות זמין לאחרים.
- [Z] אני רוצה להבין - האם זה תהליך התרומה? להתחיל עם המוצר?
- [ק] אנחנו עושים את התהליך כאן. תלוי איפה אתה מרגיש בנוח.
- [Z] האם יש לך דוגמאות למוצרים כאלה, אולי מחוץ ל-TFF אבל ב-TF.
- [K] ל-TF יש תהליך למסמכי עיצוב. אנחנו יכולים להתחיל להפוך את הפתקים האלה למשהו כזה. למשל ממגורות, חסרות אמון הדדיות, רוצות להשתמש בטכניקות כמו DP, צריך לעבוד על Azure
- [D] שימוש במדריך מקרי שימוש, מבלי לחשוף מידע
- [K] אנחנו רוצים לפתח מפת דרכים, מסמכים, דוגמאות למקרי שימוש שיתקיימו ב-TFF בכל מקרה, אנחנו יכולים להתחיל ביחד. אם להתחיל בקטן קל יותר, בכל אופן, בואו נעשה זאת.
- [ב] אני רואה הרבה מחקרים על אתגרים ב-FL. אולי נוכל לקחת כמה כלים כדי להתמודד עם האתגרים האלה ולהתחיל שם. למשל בדומה לרכיבה חופשית, הטרוגניות נתונים - נראה אתגר שכיח בהגדרות מאוחדות. כלים יהיו שימושיים באופן אוניברסלי.
  - [K] כלים להערכת אתגרים? או רכיבים של מערכת.
  - [ב] פונקציונליות ש-TFF יכול לספק
  - [K] +1. התחלה עם PRD נותן הקשר לדבר על תכונות, אבל אנחנו יכולים לדבר גם על תכונות בבידוד. אולי נוכל להתחיל עם מסמך שמתאר אתגר טעינה חינם ופועל לקראת כלים להתמודד איתם.
  - [ד] אנחנו גם עובדים עם חוקרים. האם לינקדאין שואפת לייצר תפוקות מחקר בנוסף למוצר?
  - [Z] בטווח הקצר, עדיין לא למחקר.
[K] נשמע שאנחנו יכולים להתחיל עם כמה מסמכים משותפים, להתחיל לתאר כמה תכונות או רכיבים? כל צד יכול ליזום. אנחנו יכולים להשתמש ב-Google docs ובאימייל. מאפשר ברירת המחדל לציבור.
[אוסטרוסקי] מה נרצה לבנות, ואיזה צעדים ראשונים קונקרטיים נוכל לעשות
- שואפים ליותר מעוד פגישה - AIs לעצמנו?
- התחלנו לתאר כמה מוצרים/פרויקטים ספציפיים
  - סוויטת Benchmark
  - פלטפורמת סילו חוצה עם DP, הגינות, הגנה לטעינה חופשית
- השלבים הבאים אפשריים
  - האם להתחיל מסמך דרישות מוצר ולנסח אותו בגלוי ביחד עבור כל אחד מהדברים לעיל?
  - להתחיל להחליף רעיונות ברמת העיצוב?
  - תוכניות פוטנציאליות לתרומות פיתוח בפועל?
    - רכיבים/פיצ'רים ספציפיים שאתה רוצה לפתח?
- חפצים ספציפיים ליצירה:
  - מסמך משותף המתאר בעיית טעינה חופשית ודרישות של כלי או תכונה ב-TFF שיכולים לטפל בה
  - מסמך משותף שמתאר את המדדים להטיה על פני ממגורות עם כמויות לא שוות של נתונים, מה היינו רוצים שהמדד ימדוד
  - מסמך משותף המגדיר רכיב חדש שיאפשר ל-TFF לתפקד בסביבה מבוססת Azure (TBD באיזו שכבה הוא יצטרך להשתלב)
[אוסטרובסקי] מתקשר בגלוי
- מה לעשות זמין לציבור ( בדף הנחיתה של GitHub )
- סיכום של דיונים והחלטות מתוך זה ופגישות המשך שיתפרסמו תוך מספר ימים לאחר כל פגישה בדף GitHub
- קישורים לחפצים (כל תוכניות, מפות דרכים, מסמכי עיצוב וכו' שייווצרו) כמו כן יפורסמו ב-GitHub
- שיחות (צ'אט?)
  - רָפוּי
- יעדים משותפים:
  - מוצרים/רכיבים ספציפיים בהיקף?
  - אמנה עבור קבוצת עבודה ספציפית / מצומצמת יותר כדי לתמוך בפיתוח של אלה?
[ב] מה לעשות עם בעיות תפעוליות קטנות?
- [K] בעיות רפיון או GitHub יכולות לעבוד. מה יהיה פרודוקטיבי עבורך?
[אוסטרוסקי] לוח פגישות חוזר שאנחנו יכולים להתחייב אליו במשותף?
- מונטלי

הערות מהפגישה של שותפי TFF ב-16/2/2022, הערות מהמפגש ב-16/2/2022 של משתפי פעולה ב-TFF קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

הערות מהפגישה של שותפי TFF ב-16/2/2022, הערות מהמפגש ב-16/2/2022 של משתפי פעולה ב-TFF