หมายเหตุจากการประชุมของผู้ทำงานร่วมกัน TFF วันที่ 2/16/2565 หมายเหตุจากการประชุมของผู้ทำงานร่วมกัน TFF วันที่ 2/16/2565

  • ผู้เข้าร่วม:

    • คริสตอฟ ออสตรอฟสกี (Google)
    • อเล็กซ์ อิงเกอร์แมน (Google)
    • เดอวิตต์ คลินตัน (Google)
    • บอย เฉิน (LinkedIn)
    • ซูวิค กอช (LinkedIn)
    • เจิ้งลี่ (LinkedIn)
  • [chen] การใช้งานในปัจจุบันของเรา พื้นที่ที่น่าสนใจสำหรับการบริจาค กระบวนการเกี่ยวกับวิธีการบริจาค แผนพัฒนาในอนาคต

  • [boyi] วันนี้เราใช้ FL กันอย่างไร

    • สองส่วน - อันหนึ่งเป็นครอสไซโล
      • ข้อมูลผู้ใช้ของเรา
      • ข้อกำหนดทางกฎหมายจำกัดการเข้าถึงข้อมูล
      • FL มาพร้อมกับ 3P data
      • สามารถใช้ประโยชน์จากข้อมูลในขณะที่ยังคงปฏิบัติตามกฎระเบียบ
    • FL บนอุปกรณ์ - น่าสนใจ แต่ส่วนใหญ่ทำงานกับ cross-silo
    • บางโครงการที่เราสามารถทำได้
      • ได้รับการสร้างต้นแบบ
      • TFF มีประโยชน์
      • Benchmark FL กับการเรียนรู้การถ่ายโอนส่วนบุคคล
        • การใช้ข้อมูลของลูกค้าเพื่อฝึกแบบจำลองส่วนบุคคลสำหรับลูกค้าแต่ละรายเทียบกับการถ่ายโอนการเรียนรู้ f, comparison
        • ความท้าทายเกี่ยวกับวิธีการทำงานของ FL
          • ลูกค้าบางรายมีขนาดใหญ่กว่าลูกค้ารายอื่น -> อคติ
          • ลูกค้าที่มีส่วนร่วมมากที่สุดมีความกังวลเกี่ยวกับผู้ขับขี่อิสระ ลูกค้าที่มีข้อมูลน้อยกังวลว่าจะมีอิทธิพลต่อโมเดลไม่เพียงพอ
        • ความท้าทายในการขยายขนาด
          • ตอนนี้สำหรับการอนุมาน (หลายร้อย M)
          • ข้อมูลการฝึกในปัจจุบันมีขนาดไม่ใหญ่นัก (10s-100sK/ไซโล)
          • ทำการอนุมานเป็นชุดมากกว่าไคลเอนต์ O (หลายร้อย M)
          • ปริมาณข้อมูลทั้งหมดเป็นความท้าทายหลัก
            • บันทึกไปยังลูกค้าทั้งหมด
          • ขนาดคลัสเตอร์ถูกจำกัดในขณะนี้ จำกัดอัตราการอนุมาน
        • ลูกค้า = ไซโลที่ไม่ต้องการข้อมูลผสมกับไซโลอื่น คาร์ดินัลลิตี้คืออะไร?
          • ทำการทดลองตอนนี้ ต้องการขยายเป็นแสนไซโลในอนาคต
        • คุณเห็นจำนวนลูกค้า TFF # รายเป็นจำนวนเท่าใด
          • บนอุปกรณ์: ไซโลข้อมูลขนาดเล็กจำนวนมาก x-silo เป็นชุดข้อมูลขนาดใหญ่จำนวนน้อย
        • ไซโลมีความคล้ายคลึงกันอย่างไร?
          • สคีมาเหมือนกัน แต่การกระจายข้อมูลแตกต่างกันมากในไซโล การมีส่วนร่วมที่ไม่เท่าเทียมกัน
      • [K] คุณกำลังคิดถึง TFF สำหรับการอนุมานและการฝึกอบรมหรือไม่?
        • [B] ตอนนี้ ใช้ TFF เพื่อฝึก; ต้องการฝึกอบรมและอนุมานในกรอบการทำงานเดียวกัน
        • [K] อินฟาเรดหรือรุ่นเดียวกัน?
        • [b} ตอนนี้รุ่นเดียวกันและคลัสเตอร์เดียวกัน
      • [B] ต้องการทำความเข้าใจวิธีฝึกโมเดลและปรับใช้กับอุปกรณ์
      • [S] ความจำเป็นในการฝึกโมเดลในสภาพแวดล้อมหนึ่ง นำออกและใช้งานในอีกสภาพแวดล้อมหนึ่งเป็นสิ่งสำคัญ ไม่ใช่แค่กับการสมัครครั้งแรก
  • [B] สิ่งที่เราต้องการสร้าง:

    • แนวคิดหนึ่งสำหรับการมีส่วนร่วม เมื่อเราทำการวัดประสิทธิภาพความเป็นธรรม เราจะสามารถเพิ่มเครื่องมือและการวัดประสิทธิภาพลงใน TFF
      • แบบจำลองทำงานอย่างไรในไซโล (ประสิทธิภาพและอคติที่ไม่เท่ากัน)
    • [K] คุณเห็นว่าเป็นปัญหาในทางปฏิบัติหรือไม่? [B] เราเชื่อว่ามันจะเป็นปัญหาในทางปฏิบัติ
    • [B] คิดเกี่ยวกับเรื่องนี้จากมุมมองของฝ่ายตรงข้าม ผู้คนจะกังวลเกี่ยวกับการใส่ข้อมูลลงในกล่อง เป็นข้อกังวลทั่วไป แต่เราไม่มีตัวชี้วัดเฉพาะ
    • [K] เรากำลังพูดถึงเรื่องอะไรอยู่? คุณกำลังพูดถึงสถานการณ์ที่มี silos + reguialtions เกี่ยวกับวิธีการดำเนินการ - แต่ไม่ใช่ความขัดแย้ง คุณเพียงแค่ไม่ต้องการสร้างอคติ เทียบกับ อีกสถานการณ์หนึ่งที่มีหลายสถาบัน ต่างฝ่ายต่างไม่ไว้วางใจซึ่งกันและกัน เรากำลังคิดเกี่ยวกับเรื่องนี้อย่างใดอย่างหนึ่งหรือทั้งสองอย่าง?
    • [B] เราต้องการดูทั้งสองอย่าง ตอนนี้คิดแต่เรื่องหลังเท่านั้น
    • [D] เช่น ไซโลนี่คือบริษัท และชุดข้อมูลเป็นข้อมูลที่อัปโหลดโดยแต่ละราย
    • [K] คุณกำลังเน้นย้ำถึงความกังวลเกี่ยวกับการโหลดฟรี แต่ก็ยังมีฝ่ายที่ไม่ไว้วางใจซึ่งกันและกัน ฝ่ายต่างๆ ต้องการป้องกันไม่ให้ผู้อื่น/คุณเห็นข้อมูลหรือไม่ ความกังวลเหล่านี้อยู่ในความตึงเครียด ด้านหนึ่งต้องการตรวจสอบการสนับสนุนเพื่อป้องกันการโจมตี อีกด้านหนึ่งไม่ต้องการดูเนื้อหา เพื่อความเป็นส่วนตัว
    • [B] ดูมันใน 2 วิธี หนึ่งคือการรักษาความเป็นส่วนตัว - ผ่าน DP เป็นต้น ส่วนอื่น ๆ จากมุมมองของประสิทธิภาพของแบบจำลอง เมื่อฝึกจากข้อมูลของไซโลจำนวนมาก มีความกังวลว่าไซโลที่แตกต่างกันได้ประโยชน์ต่างกัน เราคิดว่ามีวิธีมาตรฐานในการเข้าหาอดีต หลังมีความยุ่งยากมากขึ้น
    • [K] ความเป็นธรรมในแง่ที่ว่าโมเดลทำงานได้ดี อีกอันหนึ่งสามารถโหลดได้ฟรี อันหลังที่ตึงเครียดกับความเป็นส่วนตัวมากกว่า คุณกังวลเกี่ยวกับมันหรือไม่?
    • [B] ทั้งสองมีความสำคัญเท่าเทียมกัน ต้องการทั้งปกป้องความเป็นส่วนตัวของข้อมูลและมีวิธีการกระจายผลประโยชน์อย่างยุติธรรม
    • [S] เรายังไม่มีคำตอบที่ดีเลย [K] เหมือนกัน
    • [D] บริษัทเหล่านี้เชื่อมั่นใน LinkedIn มากน้อยเพียงใดในการดำเนินการนี้
    • [S] ความน่าเชื่อถือไม่เคยเป็นปัญหามาก่อน อย่างน้อยก็ในตัวอย่างที่ฉันทราบ เรามีการร้องขอข้อจำกัดบางอย่าง แต่ไม่มีการปฏิเสธอย่างเด็ดขาด ผู้คนยินดีแบ่งปันข้อมูลให้เราเพื่อสร้างคุณค่าร่วมกัน
    • [A] กังวลเกี่ยวกับความเป็นส่วนตัวของเพียงไซโลหรือบุคคลภายในไซโล?
    • [S] หลัง
  • [D] สิ่งนี้ถูกสร้างขึ้นบน Azure หรือไม่ สิ่งอื่น ๆ ในการปรับใช้ที่เราต้องคำนึงถึง?

    • [S] ในที่สุด GPU ก็จะเข้ามา รุ่นเริ่มต้นจะมีขนาดเล็กลงและมีความต้องการน้อยลง ในที่สุด สิ่งนี้จะเกี่ยวข้องกับสมาชิกและองค์กรจำนวนมาก → โมเดลจะเติบโตค่อนข้างมาก
    • [D] นี่เป็นสีฟ้าแบบเดียวกับที่เปิดเผยต่อสาธารณะหรือไม่? หรืออินฟาเรดภายในเป้าหมายซึ่งไม่สามารถมองเห็นได้ภายนอก
    • [S] สิ่งที่ค่อนข้างมาตรฐาน
    • [D] ช่วยให้ทำงานร่วมกันได้ง่ายขึ้น ทำให้โค้ด OSS มีค่ามากขึ้น เนื่องจากทุกคนสามารถเรียกใช้โค้ดบนสีฟ้าสาธารณะได้
  • [K] มาทำสิ่งต่าง ๆ กันเถอะ! สิ่งเหล่านี้ควรเป็นอย่างไร? เรากล่าวถึงชุดมาตรฐานและแพลตฟอร์มข้ามไซโล WDYT เกี่ยวกับการจัดทำ PRD ในที่สาธารณะ พูดคุยเกี่ยวกับคุณสมบัติและกรณีการใช้งาน?

    • [Z] สเปกสินค้าหน้าตาเป็นอย่างไร? ส่วนประกอบขนาดเล็กใน TFF?
    • [k] เราอาจกำลังพูดถึงส่วนประกอบหรือผลิตภัณฑ์ที่สามารถสร้างขึ้นบน tff และพร้อมใช้งานสำหรับผู้อื่น
    • [Z] ฉันต้องการจะเข้าใจ - นี่เป็นกระบวนการสนับสนุนหรือไม่? เริ่มต้นด้วยผลิตภัณฑ์?
    • [k] เรากำลังดำเนินการที่นี่ ขึ้นอยู่กับว่าคุณสบายใจตรงไหน
    • [Z] คุณมีตัวอย่างผลิตภัณฑ์ดังกล่าวหรือไม่ อาจอยู่นอก TFF แต่ใน TF
    • [K] TF มีขั้นตอนการออกแบบเอกสาร เราสามารถเริ่มแปลงบันทึกเหล่านี้เป็นสิ่งที่ต้องการได้ เช่น ไซโล ไม่ไว้วางใจซึ่งกันและกัน ต้องการใช้เทคนิคอย่าง DP ต้องทำงานบน Azure
    • [D] การมีไดเร็กทอรีกรณีการใช้งานมีประโยชน์โดยไม่ต้องเปิดเผยข้อมูล
    • [K] เราต้องการพัฒนาแผนงาน เอกสาร ตัวอย่างกรณีการใช้งานที่จะมีอยู่ใน TFF ต่อไป เราสามารถเริ่มต้นร่วมกันได้ หากการเริ่มต้นเล็ก ๆ ง่ายกว่า ให้ทำเช่นนี้
    • [B] ฉันเห็นงานวิจัยมากมายเกี่ยวกับความท้าทายในฟลอริดา บางทีเราอาจใช้เครื่องมือสองสามอย่างเพื่อจัดการกับความท้าทายเหล่านี้และเริ่มต้นที่นั่น เช่น ความแตกต่างของข้อมูลคล้ายกับการขับขี่อิสระ ดูเหมือนความท้าทายทั่วไปในการตั้งค่าแบบรวมศูนย์ เครื่องมือจะเป็นประโยชน์ในระดับสากล
      • [K] เครื่องมือในการประเมินความท้าทาย? หรือส่วนประกอบของระบบ
      • [B] ฟังก์ชั่นที่ TFF สามารถให้ได้
      • [K] +1 การเริ่มต้นด้วย PRD จะให้บริบทในการพูดคุยเกี่ยวกับคุณลักษณะต่างๆ แต่เราสามารถพูดคุยเกี่ยวกับคุณลักษณะแยกกันได้ บางทีเราอาจเริ่มด้วยเอกสารที่อธิบายความท้าทายในการโหลดฟรีและทำงานเพื่อใช้เครื่องมือในการจัดการ
      • [D] เรายังทำงานร่วมกับนักวิจัย LinkedIn ตั้งเป้าไปที่การสร้างผลงานวิจัยเพิ่มเติมจากผลิตภัณฑ์หรือไม่
      • [Z] ในระยะสั้นยังไม่มีการวิจัย
  • [K] ดูเหมือนว่าเราสามารถเริ่มต้นด้วยเอกสารที่แชร์สองสามฉบับ เริ่มอธิบายคุณลักษณะหรือส่วนประกอบบางอย่าง? ฝ่ายใดฝ่ายหนึ่งสามารถเริ่มต้นได้ เราสามารถใช้ google docs และ email ให้ค่าเริ่มต้นเป็นในที่สาธารณะ

  • [ostrowski] สิ่งที่เราอยากจะสร้าง และก้าวแรกที่เป็นรูปธรรมที่เราสามารถทำได้

    • ตั้งเป้ามากกว่าการประชุม - AI เพื่อตัวเราเอง?
    • เราได้เริ่มอธิบายผลิตภัณฑ์/โครงการเฉพาะบางส่วนแล้ว
      • ชุดเกณฑ์มาตรฐาน
      • แพลตฟอร์มข้ามไซโลที่มี DP, ความยุติธรรม, การป้องกันโหลดฟรี
    • ขั้นตอนต่อไปที่เป็นไปได้
      • เริ่มต้นเอกสารความต้องการผลิตภัณฑ์และเนื้อมันออกมาอย่างเปิดเผยสำหรับแต่ละข้อข้างต้นหรือไม่?
      • เริ่มแลกเปลี่ยนแนวคิดระดับการออกแบบ?
      • แผนที่เป็นไปได้สำหรับการสนับสนุนการพัฒนาจริง?
        • ส่วนประกอบ/คุณสมบัติเฉพาะที่คุณต้องการพัฒนา?
    • สิ่งประดิษฐ์เฉพาะเพื่อสร้าง:
      • เอกสารที่ใช้ร่วมกันที่อธิบายปัญหาการโหลดฟรีและข้อกำหนดของเครื่องมือหรือคุณลักษณะใน TFF ที่สามารถแก้ไขได้
      • เอกสารที่แชร์ซึ่งอธิบายการวัดประสิทธิภาพสำหรับอคติข้ามไซโลที่มีข้อมูลจำนวนไม่เท่ากัน สิ่งที่เราต้องการให้เกณฑ์เปรียบเทียบวัด
      • เอกสารที่แชร์ซึ่งกำหนดองค์ประกอบใหม่ที่จะเปิดใช้งาน TFF เพื่อทำงานในสภาพแวดล้อมที่ใช้ Azure (TBD ว่าจะต้องผสานรวมกับเลเยอร์ใด)
  • [ostrowski] สื่อสารอย่างเปิดเผย

    • สิ่งที่ต้องเผยแพร่ต่อสาธารณะ (บน หน้า Landing Page ของ GitHub )
    • สรุปการอภิปรายและการตัดสินใจจากนี้และการประชุมติดตามผลภายในสองสามวันหลังจากการประชุมแต่ละครั้งในหน้า th GitHub
    • ลิงก์ไปยังสิ่งประดิษฐ์ (แผน แผนงาน เอกสารการออกแบบ ฯลฯ ที่จะสร้าง) เช่นเดียวกับที่จะเผยแพร่บน GitHub
    • บทสนทนา (แชท?)
      • หย่อน
    • เป้าหมายร่วมกัน:
      • ผลิตภัณฑ์ / ส่วนประกอบเฉพาะในขอบเขต?
      • กฎบัตรสำหรับคณะทำงานที่มีขอบเขตเฉพาะเจาะจงมากขึ้น/ในขอบเขตที่แคบเพื่อรองรับการพัฒนาเหล่านี้ ?
  • [B] จะทำอย่างไรกับปัญหาเล็กๆ น้อยๆ ในการดำเนินงาน?

    • [K] ปัญหา Slack หรือ GitHub สามารถทำงานได้ อะไรจะเป็นประโยชน์สำหรับคุณ?
  • [ostrowski] ตารางการประชุมที่เกิดขึ้นซ้ำๆ ที่เราสามารถร่วมกันยืนยันได้?

    • มนตรี