टीएफएफ सहयोगियों की 2/16/2022 की बैठक के लिए नोट्स, टीएफएफ सहयोगियों की 2/16/2022 की बैठक के लिए नोट्स

  • प्रतिभागी:

    • क्रज़िस्तोफ़ ओस्ट्रोवस्की (गूगल)
    • एलेक्स इंगरमैन (गूगल)
    • डेविट क्लिंटन (गूगल)
    • बोयी चेन (लिंक्डइन)
    • सौविक घोष (लिंक्डइन)
    • झेंग ली (लिंक्डइन)
  • [चेन] हमारा वर्तमान उपयोग, योगदान के लिए रुचि के क्षेत्र, योगदान करने के तरीके पर प्रक्रियाएं; भविष्य की विकास योजना

  • [boyi] आज हम FL का उपयोग कैसे कर रहे हैं

    • दो भाग - एक है क्रॉस-सिलो
      • हमारे उपयोगकर्ताओं का डेटा
      • कानूनी आवश्यकताएं डेटा तक पहुंच को बाधित करती हैं
      • FL 3P डेटा के साथ काम आता है
      • विनियमन के अनुपालन में रहते हुए डेटा का लाभ उठा सकते हैं
    • ऑन-डिवाइस FL - दिलचस्प, लेकिन अधिकतर क्रॉस-सिलो पर काम कर रहा है
    • कुछ परियोजनाएं जिन्हें हम आगे बढ़ा सकते हैं
      • प्रोटोटाइप बना रहे हैं
      • TFF काम आता है
      • बेंचमार्क FL बनाम व्यक्तिगत ट्रांसफर लर्निंग
        • प्रत्येक क्लाइंट के लिए व्यक्तिगत मॉडल को प्रशिक्षित करने के लिए क्लाइंट के डेटा का उपयोग करना बनाम ट्रांसफर लर्निंग f, तुलना करें
        • FL कैसे काम करता है इसके साथ चुनौतियां
          • कुछ क्लाइंट दूसरों से बड़े होते हैं -> पूर्वाग्रह
          • सबसे अधिक योगदान करने वाले ग्राहक फ्री-राइडर्स के बारे में चिंतित हैं; कम से कम डेटा वाले ग्राहक मॉडल को पर्याप्त रूप से प्रभावित नहीं करने के बारे में चिंतित हैं
        • मापनीयता चुनौतियां
          • अनुमान के लिए अभी (सैकड़ों एम)
          • प्रशिक्षण डेटा वर्तमान में इतना बड़ा नहीं है (10s-100sK/silos)
          • O (सैकड़ों M) क्लाइंट के बैच में चल रहा अनुमान
          • मुख्य चुनौती के रूप में कुल डेटा वॉल्यूम
            • सभी ग्राहकों के रिकॉर्ड
          • क्लस्टर का आकार अब सीमित है, अनुमान की दर को सीमित करता है
        • क्लाइंट = साइलो जिसे डेटा को अन्य साइलो के साथ मिलाने की आवश्यकता नहीं है। कार्डिनैलिटी क्या है?
          • अभी प्रयोग कर रहे हैं, भविष्य में 100-हजारों साइलो को स्केल करना चाहते हैं
        • आपने # TFF क्लाइंट के लिए कौन सी संख्या देखी है?
          • ऑन-डिवाइस: बड़ी संख्या में छोटे डेटा साइलो; x-silo बड़े डेटासेट की छोटी संख्या है
        • साइलो कितने समान हैं?
          • स्कीमा समान हैं, लेकिन डेटा का वितरण साइलो में बहुत भिन्न होता है। असमान भागीदारी
      • [के] क्या आप अनुमान के साथ-साथ प्रशिक्षण के लिए टीएफएफ के बारे में सोच रहे हैं?
        • [बी] अभी, प्रशिक्षण के लिए टीएफएफ का प्रयोग करें; एक ही ढांचे पर प्रशिक्षण और अनुमान लगाना पसंद करेंगे।
        • [के] वही इंफ्रा या वही मॉडल?
        • [बी} अभी, एक ही मॉडल और एक ही क्लस्टर
      • [बी] यह समझना चाहते हैं कि मॉडलों को कैसे प्रशिक्षित किया जाए और उपकरणों पर कैसे तैनात किया जाए।
      • [एस] एक वातावरण में मॉडल को प्रशिक्षित करने, बाहर निकालने और दूसरे वातावरण में उपयोग करने की आवश्यकता महत्वपूर्ण है। बस पहले आवेदन के साथ नहीं।
  • [बी] हम क्या बनाना चाहते हैं:

    • योगदान के लिए एक विचार, एक बार जब हम निष्पक्षता पर बेंचमार्क कर लेते हैं, तो हम TFF में टूल और बेंचमार्क जोड़ सकते हैं
      • मॉडल सिलोस में कैसे करता है (असमान प्रदर्शन और पूर्वाग्रह)
    • [के] क्या आप इसे व्यवहार में समस्या के रूप में देखते हैं? [बी] हमें विश्वास है कि यह व्यवहार में एक समस्या होगी।
    • [बी] इसके बारे में एक प्रतिकूल परिप्रेक्ष्य से सोचें। लोगों को बॉक्स में डेटा डालने की चिंता होगी। यह एक सामान्य चिंता है लेकिन हमारे पास कोई विशेष मीट्रिक नहीं है।
    • [के] हम किस बात को संबोधित कर रहे हैं? क्या आप उस स्थिति के बारे में बात कर रहे हैं जहां इसे संसाधित करने के तरीके के बारे में सिलोस + विनियमन हैं - लेकिन यह प्रतिकूल नहीं है, आप केवल पूर्वाग्रह पैदा नहीं करना चाहते हैं। बनाम एक और स्थिति जहां कई संस्थाएं हैं, परस्पर अविश्वास करने वाली पार्टियां हैं। क्या हम इनमें से एक या दोनों के बारे में सोच रहे हैं?
    • [बी] हम दोनों को देखना चाहते हैं; अभी केवल बाद के बारे में सोचो।
    • [डी] जैसे साइलो यहां कंपनियां हैं, और डेटासेट प्रत्येक द्वारा अपलोड किए गए डेटा हैं
    • [के] आप फ्रीलोडिंग के बारे में चिंताओं को उजागर कर रहे हैं। लेकिन परस्पर अविश्वास करने वाली पार्टियां भी हैं। क्या पार्टियां दूसरों को डेटा देखने से रोकना चाहती हैं? ये चिंताएं तनाव में हैं। एक तरफ हमलों को रोकने के लिए योगदान को सत्यापित करना चाहते हैं, दूसरी तरफ गोपनीयता के लिए सामग्री नहीं देखना चाहते हैं
    • [बी] इसे 2 तरीकों से देखें। एक है गोपनीयता का संरक्षण - डीपी आदि के माध्यम से। अन्य भाग, मॉडल प्रदर्शन के दृष्टिकोण से, जब कई साइलो के डेटा से प्रशिक्षित किया जाता है, तो चिंता होती है कि अलग-अलग साइलो अलग-अलग लाभान्वित होते हैं। हमें लगता है कि पूर्व से संपर्क करने का एक मानक तरीका है; बाद वाला अधिक पेचीदा है।
    • [के] इस अर्थ में निष्पक्षता कि मॉडल अच्छा प्रदर्शन करता है; दूसरा फ्रीलोडिंग हो सकता है। इसका उत्तरार्द्ध जो गोपनीयता के साथ तनाव में अधिक है। क्या आप इसके बारे में चिंतित हैं?
    • [बी] दोनों समान रूप से महत्वपूर्ण हैं। दोनों डेटा गोपनीयता की रक्षा करना चाहते हैं और लाभों को वितरित करने का उचित तरीका चाहते हैं।
    • [एस] हमारे पास अभी तक अच्छे उत्तर नहीं हैं। [के] वही।
    • [डी] ये कंपनियां इसे संचालित करने के लिए लिंक्डइन पर कितना भरोसा करती हैं?
    • [एस] ट्रस्ट अब तक कोई मुद्दा नहीं रहा है, कम से कम उदाहरणों में मुझे पता है। हमारे पास कुछ बाधा अनुरोध हैं, लेकिन कोई स्पष्ट इनकार नहीं है। आम मूल्य बनाने के लिए लोग हमारे लिए डेटा साझा करने को तैयार हैं।
    • [ए] सिर्फ साइलो, या साइलो के भीतर व्यक्तियों की गोपनीयता के बारे में चिंता?
    • [एस] बाद वाला
  • [डी] क्या यह Azure पर बनाया जा रहा है? अन्य परिनियोजन चीजें जिनके बारे में हमें विचार करने की आवश्यकता है?

    • [एस] अंततः जीपीयू आ जाएगा; शुरुआती मॉडल छोटे होंगे और उनकी जरूरतें कम होंगी। आखिरकार, इसमें बड़ी संख्या में सदस्य और उद्यम शामिल होंगे → मॉडल काफी बड़े हो जाएंगे।
    • [डी] क्या यह वही नीला है जो सार्वजनिक रूप से उपलब्ध है? या लक्षित करने के लिए कुछ आंतरिक इन्फ्रा, जो बाहर दिखाई नहीं दे रहा है।
    • [एस] सुंदर मानक सामान।
    • [डी] सहयोग करना आसान बनाता है, ओएसएस कोड को और अधिक मूल्यवान बनाता है क्योंकि हर कोई इसे सार्वजनिक नीला पर चला सकता है।
  • [के] चलो चीजें बनाते हैं! ये क्या होना चाहिए? हमने बेंचमार्क सूट और क्रॉस-साइलो प्लेटफॉर्म का उल्लेख किया है। WDYT सार्वजनिक रूप से एक PRD को बाहर निकालने के बारे में, सुविधाओं के बारे में बात करें और मामलों का उपयोग करें?

    • [जेड] उत्पाद का विवरण कैसा दिखता है? टीएफएफ में छोटे घटक?
    • [के] हम घटकों, या एक उत्पाद के बारे में बात कर सकते हैं जिसे tff के शीर्ष पर बनाया जा सकता है और दूसरों के लिए उपलब्ध हो सकता है।
    • [जेड] मैं समझना चाहता हूं - क्या यह योगदान प्रक्रिया है? उत्पाद से शुरू करें?
    • [के] हम यहां प्रक्रिया कर रहे हैं। इस पर निर्भर करता है कि आप कहां सहज महसूस करते हैं।
    • [जेड] क्या आपके पास ऐसे उत्पादों के उदाहरण हैं, शायद टीएफएफ के बाहर लेकिन टीएफ में।
    • [के] टीएफ में डिजाइन डॉक्स के लिए एक प्रक्रिया है। हम इन नोटों को कुछ इस तरह बदलना शुरू कर सकते हैं। जैसे सिलोस, परस्पर अविश्वास, DP जैसी तकनीकों का उपयोग करना चाहते हैं, Azure पर काम करने की आवश्यकता है
    • [डी] जानकारी का खुलासा किए बिना, उपयोग के मामलों की निर्देशिका होना मददगार है
    • [के] हम एक रोडमैप, दस्तावेज़, उपयोग के मामलों के उदाहरण विकसित करना चाहते हैं जो वैसे भी टीएफएफ में मौजूद होंगे, हम एक साथ शुरू कर सकते हैं। यदि छोटा शुरू करना आसान है, तो हर तरह से इसे करने दें।
    • [बी] मैं FL में चुनौतियों के बारे में बहुत सारे शोध देखता हूं। हो सकता है कि हम इन चुनौतियों को संबोधित करने के लिए कुछ उपकरण ले सकें और वहां से शुरू कर सकें। जैसे फ्री-राइडिंग के समान, डेटा विषमता - फ़ेडरेटेड सेटिंग्स में आम चुनौती लगती है। उपकरण सार्वभौमिक रूप से उपयोगी होंगे।
      • [के] चुनौतियों का मूल्यांकन करने के लिए उपकरण? या सिस्टम के घटक।
      • [बी] कार्यक्षमता जो टीएफएफ प्रदान कर सकती है
      • [के] +1। पीआरडी से शुरू करने से सुविधाओं के बारे में बात करने का संदर्भ मिलता है, लेकिन हम अलग-अलग सुविधाओं के बारे में भी बात कर सकते हैं। हो सकता है कि हम उस डॉक्टर से शुरू कर सकते हैं जो फ्रीलोडिंग चुनौती का वर्णन करता है और इससे निपटने के लिए टूल की दिशा में काम करता है।
      • [डी] हम शोधकर्ताओं के साथ भी काम करते हैं। क्या लिंक्डइन का लक्ष्य उत्पाद के अलावा अनुसंधान आउटपुट उत्पन्न करना है?
      • [जेड] अल्पावधि में, अभी तक शोध के लिए नहीं।
  • [के] ऐसा लगता है कि हम कुछ साझा दस्तावेज़ों से शुरू कर सकते हैं, कुछ सुविधाओं या घटकों का वर्णन करना शुरू कर सकते हैं? कोई भी पार्टी पहल कर सकती है। हम गूगल डॉक्स और ईमेल का उपयोग कर सकते हैं। सार्वजनिक रूप से डिफ़ॉल्ट होने दें।

  • [ओस्ट्रोवस्की] हम क्या बनाना चाहते हैं, और हम कौन से ठोस कदम उठा सकते हैं

    • एक और बैठक से अधिक के लिए लक्ष्य - एआई अपने लिए?
    • हमने कुछ विशिष्ट उत्पादों / परियोजनाओं का वर्णन करना शुरू कर दिया है
      • बेंचमार्क सुइट
      • डीपी, निष्पक्षता, फ्री-लोडिंग प्रोटीन के साथ क्रॉस-साइलो प्लेटफॉर्म
    • संभावित अगले चरण
      • एक उत्पाद आवश्यकता दस्तावेज़ प्रारंभ करें और उपरोक्त में से प्रत्येक के लिए इसे एक साथ खुले तौर पर पेश करें?
      • डिज़ाइन-स्तरीय विचारों का आदान-प्रदान प्रारंभ करें?
      • वास्तविक विकास योगदान के लिए संभावित योजनाएं?
        • विशिष्ट घटक/विशेषताएं जिन्हें आप विकसित करना चाहेंगे?
    • बनाने के लिए विशिष्ट कलाकृतियाँ:
      • साझा दस्तावेज़ जो फ्रीलोडिंग समस्या का वर्णन करता है और TFF में एक उपकरण या सुविधा की आवश्यकताओं का वर्णन करता है जो इसे संबोधित कर सकता है
      • साझा दस्तावेज़ जो असमान मात्रा में डेटा के साथ साइलो में पूर्वाग्रह के लिए बेंचमार्क का वर्णन करता है, जिसे हम बेंचमार्क से मापना चाहते हैं
      • साझा दस्तावेज़ जो एक नए घटक को परिभाषित करता है जो टीएफएफ को एज़ूर-आधारित वातावरण में कार्य करने में सक्षम बनाता है (टीबीडी किस परत के साथ एकीकृत करने की आवश्यकता होगी)
  • [ओस्ट्रोवस्की] खुले तौर पर संवाद करना

    • सार्वजनिक रूप से क्या उपलब्ध कराया जाए ( GitHub लैंडिंग पृष्ठ पर)
    • गिटहब पेज पर प्रत्येक बैठक के बाद कुछ दिनों के भीतर इस पर चर्चा और निर्णयों का सारांश और अनुवर्ती बैठकें उपलब्ध कराई जाएंगी
    • कलाकृतियों के लिंक (किसी भी योजना, रोडमैप, डिज़ाइन डॉक्स, आदि को बनाया जाना है) इसी तरह GitHub पर प्रकाशित किया जाना है
    • बातचीत (चैट?)
      • ढीला
    • साझा लक्ष्य:
      • विशिष्ट उत्पाद/घटक दायरे में हैं?
      • इनके विकास का समर्थन करने के लिए अधिक विशिष्ट/संकीर्ण कार्य समूह के लिए चार्टर?
  • [बी] छोटे, परिचालन संबंधी मुद्दों के लिए क्या करें?

    • [के] सुस्त या गिटहब मुद्दे काम कर सकते हैं। आपके लिए क्या उत्पादक होगा?
  • [ओस्ट्रोवस्की] आवर्ती बैठक कार्यक्रम जिसे हम संयुक्त रूप से प्रतिबद्ध कर सकते हैं?

    • Montlhy