משתתפים:
- קשישטוף אוסטרובסקי (גוגל)
- אלכס אינגרמן (גוגל)
- דוויט קלינטון (גוגל)
- בוי חן (LinkedIn)
- Souvik Ghosh (LinkedIn)
- Zheng Li (LinkedIn)
[chen] השימוש הנוכחי שלנו, תחומי עניין לתרומות, תהליכים כיצד לתרום; תוכנית פיתוח עתידית
[boyi] איך אנחנו משתמשים ב-FL היום
- שני חלקים - אחד הוא חוצה סילו
- נתונים של המשתמשים שלנו
- דרישות משפטיות מגבילות את הגישה לנתונים
- FL מגיע שימושי עם נתוני 3P
- יכול למנף נתונים תוך עמידה ברגולציה
- FL במכשיר - מעניין, אבל עובד בעיקר על סילו צולב
- כמה פרויקטים שנוכל להמשיך
- בונים אבות טיפוס
- TFF שימושי
- Benchmark FL לעומת למידה העברה מותאמת אישית
- שימוש בנתונים של לקוחות כדי להכשיר מודל מותאם אישית לכל לקוח לעומת למידה של העברה, השווה
- אתגרים עם איך FL עובד
- חלק מהלקוחות גדולים מאחרים -> הטיה
- הלקוחות התורמים הכי הרבה מודאגים מהרוכבים החופשיים; לקוחות עם מינימום נתונים מודאגים מכך שהם לא ישפיעו מספיק על המודל
- אתגרי מדרגיות
- כרגע להסקת מסקנות (מאות M)
- נתוני אימון לא כל כך גדולים כרגע (10s-100sK/ממגורות)
- הפעלת מסקנות באצווה על O(מאות M) לקוחות
- נפח הנתונים הכולל כאתגר העיקרי
- רשומות בכל הלקוחות
- גודל האשכול מוגבל כעת, מה שמגביל את קצב ההסקה
- לקוח = ממגורה שהנתונים לא יתערבבו עם ממגורות אחרות. מהי הקרדינליות?
- עושה ניסויים עכשיו, רוצה להגדיל את קנה המידה ל-100 אלפי ממגורות בעתיד
- מה המספר שראית עבור # לקוחות TFF?
- במכשיר: מספר רב של ממגורות נתונים קטנות; x-silo הוא מספר קטן של מערכי נתונים גדולים
- עד כמה הממגורות דומות?
- הסכימות זהות, אבל התפלגות הנתונים שונה מאוד בין הממגורות. השתתפות לא שוויונית
- [K] האם אתה חושב על TFF להסקת מסקנות כמו גם לאימון?
- [ב] כרגע, השתמש ב-TFF לאימון; מעדיף להתאמן ולהסיק על אותה מסגרת.
- [K] אותם אינפרא או אותם דגמים?
- [ב} כרגע, אותו דגם ואותו אשכול
- [ב] רוצה להבין כיצד להכשיר דגמים ולפרוס למכשירים.
- [S] הצורך להכשיר דגמים בסביבה אחת, להוציא ולהשתמש בסביבה אחרת חשוב. רק לא עם הבקשה הראשונה.
- שני חלקים - אחד הוא חוצה סילו
[ב] מה אנחנו רוצים לבנות:
- רעיון אחד לתרומה, ברגע שנעשה מדדי הוגנות, נוכל להוסיף כלים ואמות מידה ל-TFF
- איך המודל פועל על פני ממגורות (ביצועים והטיה לא שווים)
- [K] האם אתה רואה בזה בעיה בפועל? [ב] אנו מאמינים שזו תהיה בעיה בפועל.
- [ב] חשבו על זה מנקודת מבט אדוורסרית. אנשים יהיו מודאגים לגבי הכנסת נתונים לקופסה. זה דאגה כללית אבל אין לנו מדד מסוים.
- [K] לאיזה דבר אנחנו פונים? האם אתה מדבר על מצב שבו יש ממגורות + הנחיות לגבי איך לעבד את זה - אבל זה לא יריב, אתה פשוט לא רוצה ליצור הטיה. לעומת. מצב נוסף שבו יש מספר מוסדות, צדדים שאינם מאמינים הדדית. האם אנחנו חושבים על אחד מאלה או על שניהם?
- [ב] אנו רוצים להסתכל על שניהם; כרגע תחשוב רק על האחרון.
- [D] למשל סילו הנה חברות, ומערכי נתונים הם נתונים שהועלו על ידי כל אחת
- [K] אתה מדגיש חששות לגבי טעינה חינם. אבל יש גם צדדים שאינם מאמינים הדדית. האם הצדדים רוצים למנוע מאחרים/מכם לראות את הנתונים? החששות הללו נמצאים במתח. מצד אחד רוצה לאמת תרומה למניעת התקפות, מצד שני לא רוצה לראות תוכן, למען הפרטיות
- [ב] תסתכל על זה ב-2 דרכים. האחד הוא שמירת הפרטיות - דרך DP וכו'. חלק אחר, מנקודת מבט של ביצועי מודל, כאשר מאומנים מנתונים של ממגורות רבות, יש חשש שממגורות שונות מרוויחות אחרת. אנו חושבים שיש דרך סטנדרטית לגשת לראשון; האחרון יותר מסובך.
- [יא] הגינות במובן זה שהמודל מתפקד היטב; אחד אחר יכול להיטען בחינם. זה האחרון שנמצא יותר במתח עם פרטיות. אתה מודאג מזה?
- [ב] שניהם חשובים באותה מידה. רוצה גם להגן על פרטיות הנתונים וגם לקבל דרך הוגנת להפיץ את ההטבות.
- [S] אין לנו עדיין תשובות טובות. [K] אותו דבר.
- [ד] עד כמה החברות הללו סומכות על Linkedin שתפעיל את זה?
- [S] אמון לא היה בעיה עד כה, לפחות בדוגמאות שאני מודע להן. היו לנו כמה בקשות אילוצים, אבל אין סירובים מוחלטים. אנשים מוכנים לחלוק את הנתונים בשבילנו כדי לבנות ערך משותף.
- [א] דאגה לפרטיות רק של ממגורות, או של אנשים בתוך ממגורות?
- [S] האחרון
- רעיון אחד לתרומה, ברגע שנעשה מדדי הוגנות, נוכל להוסיף כלים ואמות מידה ל-TFF
[D] האם זה נבנה על Azure? דברים אחרים בפריסה שעלינו לחשוב עליהם?
- [S] בסופו של דבר יכנסו מעבדי GPU; הדגמים הראשוניים יהיו קטנים יותר ובעלי פחות צרכים. בסופו של דבר, זה יכלול מספר גדול של חברים וארגונים → המודלים יגדלו למדי.
- [ד] האם זה אותו תכלת שזמין לציבור? או איזו אינפרא פנימי למטרה, שאינה גלויה בחוץ.
- [S] דברים סטנדרטיים למדי.
- [D] מקל על שיתוף הפעולה, הופך את קוד OSS ליותר ערך מכיוון שכולם יכולים להריץ אותו בתכלת ציבורית.
[K] בוא נעשה דברים! מה אלה צריכים להיות? הזכרנו את חבילת הבנצ'מרק ופלטפורמה צולבת ממגורות. WDYT על יצירת PRD בציבור, לדבר על תכונות ומקרי שימוש?
- [Z] איך נראה מפרט המוצר? רכיבים קטנים ב-TFF?
- [k] יכול להיות שאנחנו מדברים על רכיבים, או מוצר שיכול להיבנות על גבי tff ולהיות זמין לאחרים.
- [Z] אני רוצה להבין - האם זה תהליך התרומה? להתחיל עם המוצר?
- [ק] אנחנו עושים את התהליך כאן. תלוי איפה אתה מרגיש בנוח.
- [Z] האם יש לך דוגמאות למוצרים כאלה, אולי מחוץ ל-TFF אבל ב-TF.
- [K] ל-TF יש תהליך למסמכי עיצוב. אנחנו יכולים להתחיל להפוך את הפתקים האלה למשהו כזה. למשל ממגורות, חסרות אמון הדדיות, רוצות להשתמש בטכניקות כמו DP, צריך לעבוד על Azure
- [D] שימוש במדריך מקרי שימוש, מבלי לחשוף מידע
- [K] אנחנו רוצים לפתח מפת דרכים, מסמכים, דוגמאות למקרי שימוש שיתקיימו ב-TFF בכל מקרה, אנחנו יכולים להתחיל ביחד. אם להתחיל בקטן קל יותר, בכל אופן, בואו נעשה זאת.
- [ב] אני רואה הרבה מחקרים על אתגרים ב-FL. אולי נוכל לקחת כמה כלים כדי להתמודד עם האתגרים האלה ולהתחיל שם. למשל בדומה לרכיבה חופשית, הטרוגניות נתונים - נראה אתגר שכיח בהגדרות מאוחדות. כלים יהיו שימושיים באופן אוניברסלי.
- [K] כלים להערכת אתגרים? או רכיבים של מערכת.
- [ב] פונקציונליות ש-TFF יכול לספק
- [K] +1. התחלה עם PRD נותן הקשר לדבר על תכונות, אבל אנחנו יכולים לדבר גם על תכונות בבידוד. אולי נוכל להתחיל עם מסמך שמתאר אתגר טעינה חינם ופועל לקראת כלים להתמודד איתם.
- [ד] אנחנו גם עובדים עם חוקרים. האם לינקדאין שואפת לייצר תפוקות מחקר בנוסף למוצר?
- [Z] בטווח הקצר, עדיין לא למחקר.
[K] נשמע שאנחנו יכולים להתחיל עם כמה מסמכים משותפים, להתחיל לתאר כמה תכונות או רכיבים? כל צד יכול ליזום. אנחנו יכולים להשתמש ב-Google docs ובאימייל. מאפשר ברירת המחדל לציבור.
[אוסטרוסקי] מה נרצה לבנות, ואיזה צעדים ראשונים קונקרטיים נוכל לעשות
- שואפים ליותר מעוד פגישה - AIs לעצמנו?
- התחלנו לתאר כמה מוצרים/פרויקטים ספציפיים
- סוויטת Benchmark
- פלטפורמת סילו חוצה עם DP, הגינות, הגנה לטעינה חופשית
- השלבים הבאים אפשריים
- האם להתחיל מסמך דרישות מוצר ולנסח אותו בגלוי ביחד עבור כל אחד מהדברים לעיל?
- להתחיל להחליף רעיונות ברמת העיצוב?
- תוכניות פוטנציאליות לתרומות פיתוח בפועל?
- רכיבים/פיצ'רים ספציפיים שאתה רוצה לפתח?
- חפצים ספציפיים ליצירה:
- מסמך משותף המתאר בעיית טעינה חופשית ודרישות של כלי או תכונה ב-TFF שיכולים לטפל בה
- מסמך משותף שמתאר את המדדים להטיה על פני ממגורות עם כמויות לא שוות של נתונים, מה היינו רוצים שהמדד ימדוד
- מסמך משותף המגדיר רכיב חדש שיאפשר ל-TFF לתפקד בסביבה מבוססת Azure (TBD באיזו שכבה הוא יצטרך להשתלב)
[אוסטרובסקי] מתקשר בגלוי
- מה לעשות זמין לציבור ( בדף הנחיתה של GitHub )
- סיכום של דיונים והחלטות מתוך זה ופגישות המשך שיתפרסמו תוך מספר ימים לאחר כל פגישה בדף GitHub
- קישורים לחפצים (כל תוכניות, מפות דרכים, מסמכי עיצוב וכו' שייווצרו) כמו כן יפורסמו ב-GitHub
- שיחות (צ'אט?)
- רָפוּי
- יעדים משותפים:
- מוצרים/רכיבים ספציפיים בהיקף?
- אמנה עבור קבוצת עבודה ספציפית / מצומצמת יותר כדי לתמוך בפיתוח של אלה?
[ב] מה לעשות עם בעיות תפעוליות קטנות?
- [K] בעיות רפיון או GitHub יכולות לעבוד. מה יהיה פרודוקטיבי עבורך?
[אוסטרוסקי] לוח פגישות חוזר שאנחנו יכולים להתחייב אליו במשותף?
- מונטלי
הערות מהפגישה של שותפי TFF ב-16/2/2022, הערות מהמפגש ב-16/2/2022 של משתפי פעולה ב-TFF
אלא אם צוין אחרת, התוכן של דף זה הוא ברישיון Creative Commons Attribution 4.0 ודוגמאות הקוד הן ברישיון Apache 2.0. לפרטים, ניתן לעיין במדיניות האתר Google Developers. Java הוא סימן מסחרי רשום של חברת Oracle ו/או של השותפים העצמאיים שלה.
עדכון אחרון: 2025-07-25 (שעון UTC).
[[["התוכן קל להבנה","easyToUnderstand","thumb-up"],["התוכן עזר לי לפתור בעיה","solvedMyProblem","thumb-up"],["סיבה אחרת","otherUp","thumb-up"]],[["חסרים לי מידע או פרטים","missingTheInformationINeed","thumb-down"],["התוכן מורכב מדי או עם יותר מדי שלבים","tooComplicatedTooManySteps","thumb-down"],["התוכן לא עדכני","outOfDate","thumb-down"],["בעיה בתרגום","translationIssue","thumb-down"],["בעיה בדוגמאות/בקוד","samplesCodeIssue","thumb-down"],["סיבה אחרת","otherDown","thumb-down"]],["עדכון אחרון: 2025-07-25 (שעון UTC)."],[],[]]