ملاحظات من اجتماع متعاوني TFF بتاريخ 16/2/2022ملاحظات من اجتماع متعاوني TFF بتاريخ 16/2/2022

  • مشاركون:

    • كرزيستوف أوستروفسكي (Google)
    • أليكس إنجرمان (جوجل)
    • ديويت كلينتون (Google)
    • بويى تشين (ينكدين)
    • سوفيك غوش (لينكد إن)
    • زينج لي (ينكدين)
  • [chen] استخدامنا الحالي ، ومجالات الاهتمام بالمساهمات ، والعمليات المتعلقة بكيفية المساهمة ؛ خطة التنمية المستقبلية

  • [boyi] كيف نستخدم FL اليوم

    • جزأين - أحدهما صومعة متقاطعة
      • بيانات مستخدمينا
      • المتطلبات القانونية تقيد الوصول إلى البيانات
      • FL سهل الاستخدام مع بيانات 3P
      • يمكن الاستفادة من البيانات مع الحفاظ على الامتثال للتنظيم
    • FL على الجهاز - مثير للاهتمام ، ولكن في الغالب يعمل على صومعة متقاطعة
    • عدد قليل من المشاريع التي يمكننا متابعتها
      • تم بناء نماذج أولية
      • TFF سهل الاستخدام
      • Benchmark FL مقابل نقل التعلم المخصص
        • استخدام بيانات العملاء لتدريب نموذج مخصص لكل عميل مقابل نقل التعلم f ، قارن
        • تحديات مع كيفية عمل FL
          • بعض العملاء أكبر من الآخرين -> التحيز
          • العملاء الذين يساهمون أكثر في قلقهم بشأن الدراجين المجانيين ؛ العملاء الذين لديهم بيانات أقل قلقون من عدم التأثير على النموذج بشكل كافٍ
        • تحديات قابلية التوسع
          • الآن للاستدلال (مئات M)
          • بيانات التدريب ليست بهذا الحجم حاليًا (10s-100sK / silos)
          • تشغيل الاستدلال دفعة واحدة على عملاء O (مئات M)
          • الحجم الإجمالي للبيانات هو التحدي الرئيسي
            • السجلات عبر جميع العملاء
          • حجم الكتلة محدود الآن ، مما يحد من معدل الاستدلال
        • Client = silo يحتاج إلى عدم اختلاط البيانات مع الصوامع الأخرى. ما هي العلاقة الأساسية؟
          • إجراء التجارب الآن ، تريد التوسع إلى مئات الآلاف من الصوامع في المستقبل
        • ما هو الرقم الذي رأيته لعدد # من عملاء TFF؟
          • على الجهاز: عدد كبير من صوامع البيانات الصغيرة ؛ x-silo هو عدد صغير من مجموعات البيانات الكبيرة
        • ما مدى تشابه الصوامع؟
          • المخططات هي نفسها ، لكن توزيع البيانات يختلف كثيرًا عبر الصوامع. المشاركة غير المتكافئة
      • [K] هل تفكر في TFF للاستدلال بالإضافة إلى التدريب؟
        • [B] الآن ، استخدم TFF للتدريب ؛ يفضل التدريب والاستدلال على نفس الإطار.
        • [K] نفس النماذج أدناه أم نفس؟
        • [ب} الآن ، نفس النموذج ونفس المجموعة
      • [B] هل تريد فهم كيفية تدريب النماذج ونشرها على الأجهزة.
      • [S] تعد الحاجة إلى تدريب النماذج في بيئة ما ، وإخراجها واستخدامها في بيئة أخرى أمرًا مهمًا. ليس فقط مع التطبيق الأول.
  • [ب] ما نريد بناءه:

    • فكرة واحدة للمساهمة ، بمجرد قيامنا بمعايير الإنصاف ، يمكننا إضافة أدوات ومعايير إلى TFF
      • كيف يعمل النموذج عبر الصوامع (الأداء غير المتكافئ والتحيز)
    • [K] هل تعتبرها مشكلة في الممارسة؟ [B] نعتقد أنها ستكون مشكلة في الممارسة.
    • [B] فكر في هذا من منظور عدائي. سيهتم الناس بوضع البيانات في الصندوق. إنه مصدر قلق عام ولكن ليس لدينا مقياس معين.
    • [K] أي شيء نتناوله؟ هل تتحدث عن موقف توجد فيه صوامع + تشريعات حول كيفية معالجتها - ولكن الأمر ليس عدائيًا ، فأنت فقط لا تريد إنشاء تحيز. ضد. حالة أخرى حيث توجد مؤسسات متعددة ، لا تثق الأطراف بشكل متبادل. هل نفكر في واحد أو كلاهما؟
    • [ب] نريد أن ننظر إلى كليهما ؛ الآن فكر فقط في الأخير.
    • [D] على سبيل المثال الصومعة هنا الشركات ، ومجموعات البيانات هي البيانات التي تم تحميلها من قبل كل منها
    • [K] أنت تسلط الضوء على المخاوف بشأن التحميل الحر. لكن هناك أيضًا أطراف لا ثقة متبادلة. هل تريد الأطراف منع الآخرين / أنتم من رؤية البيانات؟ هذه المخاوف في حالة توتر. من ناحية ، تريد التحقق من المساهمة لمنع الهجمات ، من ناحية أخرى لا تريد رؤية المحتويات ، من أجل الخصوصية
    • [B] انظر إليها بطريقتين. أحدهما هو الحفاظ على الخصوصية - من خلال DP وما إلى ذلك. وجزء آخر ، من منظور أداء النموذج ، عند التدريب من بيانات العديد من الصوامع ، هناك قلق من أن الصوامع المختلفة تستفيد بشكل مختلف. نعتقد أن هناك طريقة معيارية للتعامل مع السابق ؛ هذا الأخير أكثر صعوبة.
    • [K] العدل بمعنى أن يعمل النموذج جيدًا ؛ يمكن أن يكون الآخر بشكل حر. هذا الأخير هو الأكثر توترا مع الخصوصية. هل أنت قلق حيال ذلك؟
    • [B] كلاهما لا يقل أهمية. ترغب في حماية خصوصية البيانات والحصول على طريقة عادلة لتوزيع الفوائد.
    • [S] ليس لدينا إجابات جيدة حتى الآن. [K] نفس الشيء.
    • [D] ما مدى ثقة هذه الشركات في LinkedIn لتشغيل هذا؟
    • لم تكن الثقة مشكلة حتى الآن ، على الأقل في الأمثلة التي أعرفها. لقد تلقينا بعض طلبات التقييد ، لكن لم يكن لدينا رفض قاطع. الناس على استعداد لمشاركة البيانات من أجل بناء قيمة مشتركة.
    • [أ] قلق بشأن خصوصية مجرد صوامع أم أفراد داخل صوامع؟
    • [S] الأخير
  • [D] هل هذا مبني على أزور؟ أشياء نشر أخرى نحتاج إلى التفكير فيها؟

    • [S] ستدخل وحدات معالجة الرسومات في النهاية ؛ ستكون النماذج الأولية أصغر حجمًا ولها احتياجات أقل. في النهاية ، سيشمل هذا عددًا كبيرًا من الأعضاء والشركات ← ستنمو النماذج بشكل كبير إلى حد ما.
    • [D] هل هذا هو نفس اللازوردي المتاح للجمهور؟ أو بعض البنى التحتية الداخلية التي لا يمكن رؤيتها بالخارج.
    • [S] أشياء قياسية جميلة.
    • [D] يجعل من السهل التعاون ، ويجعل كود OSS أكثر قيمة حيث يمكن للجميع تشغيله على اللازوردية العامة.
  • [K] دعونا نصنع الأشياء! ماذا يجب أن تكون هذه؟ ذكرنا مجموعة معيارية ومنصة عبر الصومعة. WDYT حول تجسيد PRD في الجمهور ، والتحدث عن الميزات وحالات الاستخدام؟

    • [Z] كيف تبدو مواصفات المنتج؟ مكونات صغيرة في TFF؟
    • [ك] يمكن أن نتحدث عن مكونات ، أو منتج يمكن بناؤه فوق tff ويكون متاحًا للآخرين.
    • [Z] أريد أن أفهم - هل هذه هي عملية المساهمة؟ ابدأ بالمنتج؟
    • [ك] نحن نجعل العملية هنا. يعتمد على المكان الذي تشعر فيه بالراحة.
    • [Z] هل لديك أمثلة على مثل هذه المنتجات ، ربما خارج TFF ولكن في TF.
    • [K] لدى فريق العمل عملية خاصة بمستندات التصميم. يمكننا البدء في تحويل هذه الملاحظات إلى شيء من هذا القبيل. على سبيل المثال ، الصوامع ، التي لا تثق بشكل متبادل ، تريد استخدام تقنيات مثل DP ، تحتاج إلى العمل على Azure
    • [D] وجود دليل لحالات الاستخدام مفيد ، دون الكشف عن المعلومات
    • [K] نريد تطوير خارطة طريق ومستندات وأمثلة لحالات الاستخدام التي ستكون موجودة في TFF على أي حال ، يمكننا أن نبدأ معًا. إذا كان البدء على نطاق صغير أسهل ، فلنقم بذلك بكل الوسائل.
    • [B] أرى الكثير من الأبحاث حول التحديات في فلوريدا. ربما يمكننا أخذ بعض الأدوات لمعالجة هذه التحديات والبدء من هناك. على سبيل المثال ، يشبه عدم تجانس البيانات حرية الوصول - ويبدو أنه يمثل تحديًا شائعًا في الإعدادات الموحدة. الأدوات ستكون مفيدة عالميا.
      • [ك] أدوات لتقييم التحديات؟ أو مكونات النظام.
      • [B] الوظائف التي يمكن أن يوفرها TFF
      • [K] +1. يوفر البدء بـ PRD سياقًا للحديث عن الميزات ، ولكن يمكننا أيضًا التحدث عن الميزات بمعزل عن غيرها. ربما يمكننا البدء بالمستند الذي يصف تحدي التحميل الحر ويعمل على أدوات للتعامل معها.
      • [D] نحن نعمل أيضًا مع الباحثين. هل تهدف LinkedIn إلى إنشاء مخرجات بحثية بالإضافة إلى المنتج؟
      • [Z] على المدى القصير ، ليس بعد للبحث.
  • [K] يبدو أنه يمكننا البدء ببعض المستندات المشتركة ، هل نبدأ في وصف بعض الميزات أو المكونات؟ يمكن لأي من الطرفين البدء. يمكننا استخدام مستندات جوجل والبريد الإلكتروني. يتيح افتراضيًا في الأماكن العامة.

  • [ostrowski] ما نرغب في بنائه ، وما الخطوات الأولى الملموسة التي يمكننا اتخاذها

    • هل تهدف إلى أكثر من اجتماع آخر - أنظمة الذكاء الاصطناعي لأنفسنا؟
    • لقد بدأنا في وصف بعض المنتجات / المشاريع المحددة
      • جناح المعيار
      • منصة عبر الصومعة مع DP والإنصاف والبروتسيتونات المجانية التحميل
    • الخطوات التالية الممكنة
      • بدء مستند متطلبات المنتج وتجسيده معًا بشكل علني لكل مما سبق؟
      • ابدأ في تبادل الأفكار على مستوى التصميم؟
      • الخطط المحتملة للمساهمات الإنمائية الفعلية؟
        • مكونات / ميزات معينة ترغب في تطويرها؟
    • القطع الأثرية المحددة المراد إنشاؤها:
      • مستند مشترك يصف مشكلة التحميل الحر ومتطلبات أداة أو ميزة في TFF يمكنها معالجتها
      • مستند مشترك يصف معايير التحيز عبر المستودعات ذات الكميات غير المتكافئة من البيانات ، ما نود أن يقيسه المعيار
      • مستند مشترك يحدد مكونًا جديدًا من شأنه تمكين TFF للعمل في بيئة تستند إلى Azure (يتم تحديدها لاحقًا وهي الطبقة التي ستحتاج إلى التكامل معها)
  • [ostrowski] التواصل علنا

    • ما يجب إتاحته للجمهور (على صفحة GitHub المقصودة )
    • يتاح ملخص المناقشات والقرارات المنبثقة عن هذا الاجتماع واجتماعات المتابعة في غضون أيام قليلة بعد كل اجتماع على صفحة GitHub
    • روابط إلى القطع الأثرية (أي خطط أو خرائط طريق أو مستندات تصميم ، إلخ التي سيتم إنشاؤها) سيتم نشرها أيضًا على GitHub
    • محادثات (دردشة؟)
      • تثاقل
    • الأهداف المشتركة:
      • منتجات / مكونات محددة في النطاق؟
      • ميثاق لمجموعة عمل أكثر تحديدًا / ضيقة النطاق لدعم تطوير هذه؟
  • [B] ماذا تفعل للقضايا التشغيلية الصغيرة؟

    • [K] يمكن أن تنجح مشكلات Slack أو GitHub. ما الذي سيكون مثمرًا بالنسبة لك؟
  • [ostrowski] الجدول الزمني للاجتماعات المتكررة يمكننا الالتزام به بشكل مشترك؟

    • مونتلي