หน้านี้ได้รับการแปลโดย Cloud Translation API

หมายเหตุจากการประชุมของผู้ทำงานร่วมกัน TFF วันที่ 2/16/2565 หมายเหตุจากการประชุมของผู้ทำงานร่วมกัน TFF วันที่ 2/16/2565

ผู้เข้าร่วม:
- คริสตอฟ ออสตรอฟสกี (Google)
- อเล็กซ์ อิงเกอร์แมน (Google)
- เดอวิตต์ คลินตัน (Google)
- บอย เฉิน (LinkedIn)
- ซูวิค กอช (LinkedIn)
- เจิ้งลี่ (LinkedIn)
[chen] การใช้งานในปัจจุบันของเรา พื้นที่ที่น่าสนใจสำหรับการบริจาค กระบวนการเกี่ยวกับวิธีการบริจาค แผนพัฒนาในอนาคต
[boyi] วันนี้เราใช้ FL กันอย่างไร
- สองส่วน - อันหนึ่งเป็นครอสไซโล
  - ข้อมูลผู้ใช้ของเรา
  - ข้อกำหนดทางกฎหมายจำกัดการเข้าถึงข้อมูล
  - FL มาพร้อมกับ 3P data
  - สามารถใช้ประโยชน์จากข้อมูลในขณะที่ยังคงปฏิบัติตามกฎระเบียบ
- FL บนอุปกรณ์ - น่าสนใจ แต่ส่วนใหญ่ทำงานกับ cross-silo
- บางโครงการที่เราสามารถทำได้
  - ได้รับการสร้างต้นแบบ
  - TFF มีประโยชน์
  - Benchmark FL กับการเรียนรู้การถ่ายโอนส่วนบุคคล
    - การใช้ข้อมูลของลูกค้าเพื่อฝึกแบบจำลองส่วนบุคคลสำหรับลูกค้าแต่ละรายเทียบกับการถ่ายโอนการเรียนรู้ f, comparison
    - ความท้าทายเกี่ยวกับวิธีการทำงานของ FL
      - ลูกค้าบางรายมีขนาดใหญ่กว่าลูกค้ารายอื่น -> อคติ
      - ลูกค้าที่มีส่วนร่วมมากที่สุดมีความกังวลเกี่ยวกับผู้ขับขี่อิสระ ลูกค้าที่มีข้อมูลน้อยกังวลว่าจะมีอิทธิพลต่อโมเดลไม่เพียงพอ
    - ความท้าทายในการขยายขนาด
      - ตอนนี้สำหรับการอนุมาน (หลายร้อย M)
      - ข้อมูลการฝึกในปัจจุบันมีขนาดไม่ใหญ่นัก (10s-100sK/ไซโล)
      - ทำการอนุมานเป็นชุดมากกว่าไคลเอนต์ O (หลายร้อย M)
      - ปริมาณข้อมูลทั้งหมดเป็นความท้าทายหลัก
        บันทึกไปยังลูกค้าทั้งหมด
      - ขนาดคลัสเตอร์ถูกจำกัดในขณะนี้ จำกัดอัตราการอนุมาน
    - ลูกค้า = ไซโลที่ไม่ต้องการข้อมูลผสมกับไซโลอื่น คาร์ดินัลลิตี้คืออะไร?
      - ทำการทดลองตอนนี้ ต้องการขยายเป็นแสนไซโลในอนาคต
    - คุณเห็นจำนวนลูกค้า TFF # รายเป็นจำนวนเท่าใด
      - บนอุปกรณ์: ไซโลข้อมูลขนาดเล็กจำนวนมาก x-silo เป็นชุดข้อมูลขนาดใหญ่จำนวนน้อย
    - ไซโลมีความคล้ายคลึงกันอย่างไร?
      - สคีมาเหมือนกัน แต่การกระจายข้อมูลแตกต่างกันมากในไซโล การมีส่วนร่วมที่ไม่เท่าเทียมกัน
  - [K] คุณกำลังคิดถึง TFF สำหรับการอนุมานและการฝึกอบรมหรือไม่?
    - [B] ตอนนี้ ใช้ TFF เพื่อฝึก; ต้องการฝึกอบรมและอนุมานในกรอบการทำงานเดียวกัน
    - [K] อินฟาเรดหรือรุ่นเดียวกัน?
    - [b} ตอนนี้รุ่นเดียวกันและคลัสเตอร์เดียวกัน
  - [B] ต้องการทำความเข้าใจวิธีฝึกโมเดลและปรับใช้กับอุปกรณ์
  - [S] ความจำเป็นในการฝึกโมเดลในสภาพแวดล้อมหนึ่ง นำออกและใช้งานในอีกสภาพแวดล้อมหนึ่งเป็นสิ่งสำคัญ ไม่ใช่แค่กับการสมัครครั้งแรก
[B] สิ่งที่เราต้องการสร้าง:
- แนวคิดหนึ่งสำหรับการมีส่วนร่วม เมื่อเราทำการวัดประสิทธิภาพความเป็นธรรม เราจะสามารถเพิ่มเครื่องมือและการวัดประสิทธิภาพลงใน TFF
  - แบบจำลองทำงานอย่างไรในไซโล (ประสิทธิภาพและอคติที่ไม่เท่ากัน)
- [K] คุณเห็นว่าเป็นปัญหาในทางปฏิบัติหรือไม่? [B] เราเชื่อว่ามันจะเป็นปัญหาในทางปฏิบัติ
- [B] คิดเกี่ยวกับเรื่องนี้จากมุมมองของฝ่ายตรงข้าม ผู้คนจะกังวลเกี่ยวกับการใส่ข้อมูลลงในกล่อง เป็นข้อกังวลทั่วไป แต่เราไม่มีตัวชี้วัดเฉพาะ
- [K] เรากำลังพูดถึงเรื่องอะไรอยู่? คุณกำลังพูดถึงสถานการณ์ที่มี silos + reguialtions เกี่ยวกับวิธีการดำเนินการ - แต่ไม่ใช่ความขัดแย้ง คุณเพียงแค่ไม่ต้องการสร้างอคติ เทียบกับ อีกสถานการณ์หนึ่งที่มีหลายสถาบัน ต่างฝ่ายต่างไม่ไว้วางใจซึ่งกันและกัน เรากำลังคิดเกี่ยวกับเรื่องนี้อย่างใดอย่างหนึ่งหรือทั้งสองอย่าง?
- [B] เราต้องการดูทั้งสองอย่าง ตอนนี้คิดแต่เรื่องหลังเท่านั้น
- [D] เช่น ไซโลนี่คือบริษัท และชุดข้อมูลเป็นข้อมูลที่อัปโหลดโดยแต่ละราย
- [K] คุณกำลังเน้นย้ำถึงความกังวลเกี่ยวกับการโหลดฟรี แต่ก็ยังมีฝ่ายที่ไม่ไว้วางใจซึ่งกันและกัน ฝ่ายต่างๆ ต้องการป้องกันไม่ให้ผู้อื่น/คุณเห็นข้อมูลหรือไม่ ความกังวลเหล่านี้อยู่ในความตึงเครียด ด้านหนึ่งต้องการตรวจสอบการสนับสนุนเพื่อป้องกันการโจมตี อีกด้านหนึ่งไม่ต้องการดูเนื้อหา เพื่อความเป็นส่วนตัว
- [B] ดูมันใน 2 วิธี หนึ่งคือการรักษาความเป็นส่วนตัว - ผ่าน DP เป็นต้น ส่วนอื่น ๆ จากมุมมองของประสิทธิภาพของแบบจำลอง เมื่อฝึกจากข้อมูลของไซโลจำนวนมาก มีความกังวลว่าไซโลที่แตกต่างกันได้ประโยชน์ต่างกัน เราคิดว่ามีวิธีมาตรฐานในการเข้าหาอดีต หลังมีความยุ่งยากมากขึ้น
- [K] ความเป็นธรรมในแง่ที่ว่าโมเดลทำงานได้ดี อีกอันหนึ่งสามารถโหลดได้ฟรี อันหลังที่ตึงเครียดกับความเป็นส่วนตัวมากกว่า คุณกังวลเกี่ยวกับมันหรือไม่?
- [B] ทั้งสองมีความสำคัญเท่าเทียมกัน ต้องการทั้งปกป้องความเป็นส่วนตัวของข้อมูลและมีวิธีการกระจายผลประโยชน์อย่างยุติธรรม
- [S] เรายังไม่มีคำตอบที่ดีเลย [K] เหมือนกัน
- [D] บริษัทเหล่านี้เชื่อมั่นใน LinkedIn มากน้อยเพียงใดในการดำเนินการนี้
- [S] ความน่าเชื่อถือไม่เคยเป็นปัญหามาก่อน อย่างน้อยก็ในตัวอย่างที่ฉันทราบ เรามีการร้องขอข้อจำกัดบางอย่าง แต่ไม่มีการปฏิเสธอย่างเด็ดขาด ผู้คนยินดีแบ่งปันข้อมูลให้เราเพื่อสร้างคุณค่าร่วมกัน
- [A] กังวลเกี่ยวกับความเป็นส่วนตัวของเพียงไซโลหรือบุคคลภายในไซโล?
- [S] หลัง
[D] สิ่งนี้ถูกสร้างขึ้นบน Azure หรือไม่ สิ่งอื่น ๆ ในการปรับใช้ที่เราต้องคำนึงถึง?
- [S] ในที่สุด GPU ก็จะเข้ามา รุ่นเริ่มต้นจะมีขนาดเล็กลงและมีความต้องการน้อยลง ในที่สุด สิ่งนี้จะเกี่ยวข้องกับสมาชิกและองค์กรจำนวนมาก → โมเดลจะเติบโตค่อนข้างมาก
- [D] นี่เป็นสีฟ้าแบบเดียวกับที่เปิดเผยต่อสาธารณะหรือไม่? หรืออินฟาเรดภายในเป้าหมายซึ่งไม่สามารถมองเห็นได้ภายนอก
- [S] สิ่งที่ค่อนข้างมาตรฐาน
- [D] ช่วยให้ทำงานร่วมกันได้ง่ายขึ้น ทำให้โค้ด OSS มีค่ามากขึ้น เนื่องจากทุกคนสามารถเรียกใช้โค้ดบนสีฟ้าสาธารณะได้
[K] มาทำสิ่งต่าง ๆ กันเถอะ! สิ่งเหล่านี้ควรเป็นอย่างไร? เรากล่าวถึงชุดมาตรฐานและแพลตฟอร์มข้ามไซโล WDYT เกี่ยวกับการจัดทำ PRD ในที่สาธารณะ พูดคุยเกี่ยวกับคุณสมบัติและกรณีการใช้งาน?
- [Z] สเปกสินค้าหน้าตาเป็นอย่างไร? ส่วนประกอบขนาดเล็กใน TFF?
- [k] เราอาจกำลังพูดถึงส่วนประกอบหรือผลิตภัณฑ์ที่สามารถสร้างขึ้นบน tff และพร้อมใช้งานสำหรับผู้อื่น
- [Z] ฉันต้องการจะเข้าใจ - นี่เป็นกระบวนการสนับสนุนหรือไม่? เริ่มต้นด้วยผลิตภัณฑ์?
- [k] เรากำลังดำเนินการที่นี่ ขึ้นอยู่กับว่าคุณสบายใจตรงไหน
- [Z] คุณมีตัวอย่างผลิตภัณฑ์ดังกล่าวหรือไม่ อาจอยู่นอก TFF แต่ใน TF
- [K] TF มีขั้นตอนการออกแบบเอกสาร เราสามารถเริ่มแปลงบันทึกเหล่านี้เป็นสิ่งที่ต้องการได้ เช่น ไซโล ไม่ไว้วางใจซึ่งกันและกัน ต้องการใช้เทคนิคอย่าง DP ต้องทำงานบน Azure
- [D] การมีไดเร็กทอรีกรณีการใช้งานมีประโยชน์โดยไม่ต้องเปิดเผยข้อมูล
- [K] เราต้องการพัฒนาแผนงาน เอกสาร ตัวอย่างกรณีการใช้งานที่จะมีอยู่ใน TFF ต่อไป เราสามารถเริ่มต้นร่วมกันได้ หากการเริ่มต้นเล็ก ๆ ง่ายกว่า ให้ทำเช่นนี้
- [B] ฉันเห็นงานวิจัยมากมายเกี่ยวกับความท้าทายในฟลอริดา บางทีเราอาจใช้เครื่องมือสองสามอย่างเพื่อจัดการกับความท้าทายเหล่านี้และเริ่มต้นที่นั่น เช่น ความแตกต่างของข้อมูลคล้ายกับการขับขี่อิสระ ดูเหมือนความท้าทายทั่วไปในการตั้งค่าแบบรวมศูนย์ เครื่องมือจะเป็นประโยชน์ในระดับสากล
  - [K] เครื่องมือในการประเมินความท้าทาย? หรือส่วนประกอบของระบบ
  - [B] ฟังก์ชั่นที่ TFF สามารถให้ได้
  - [K] +1 การเริ่มต้นด้วย PRD จะให้บริบทในการพูดคุยเกี่ยวกับคุณลักษณะต่างๆ แต่เราสามารถพูดคุยเกี่ยวกับคุณลักษณะแยกกันได้ บางทีเราอาจเริ่มด้วยเอกสารที่อธิบายความท้าทายในการโหลดฟรีและทำงานเพื่อใช้เครื่องมือในการจัดการ
  - [D] เรายังทำงานร่วมกับนักวิจัย LinkedIn ตั้งเป้าไปที่การสร้างผลงานวิจัยเพิ่มเติมจากผลิตภัณฑ์หรือไม่
  - [Z] ในระยะสั้นยังไม่มีการวิจัย
[K] ดูเหมือนว่าเราสามารถเริ่มต้นด้วยเอกสารที่แชร์สองสามฉบับ เริ่มอธิบายคุณลักษณะหรือส่วนประกอบบางอย่าง? ฝ่ายใดฝ่ายหนึ่งสามารถเริ่มต้นได้ เราสามารถใช้ google docs และ email ให้ค่าเริ่มต้นเป็นในที่สาธารณะ
[ostrowski] สิ่งที่เราอยากจะสร้าง และก้าวแรกที่เป็นรูปธรรมที่เราสามารถทำได้
- ตั้งเป้ามากกว่าการประชุม - AI เพื่อตัวเราเอง?
- เราได้เริ่มอธิบายผลิตภัณฑ์/โครงการเฉพาะบางส่วนแล้ว
  - ชุดเกณฑ์มาตรฐาน
  - แพลตฟอร์มข้ามไซโลที่มี DP, ความยุติธรรม, การป้องกันโหลดฟรี
- ขั้นตอนต่อไปที่เป็นไปได้
  - เริ่มต้นเอกสารความต้องการผลิตภัณฑ์และเนื้อมันออกมาอย่างเปิดเผยสำหรับแต่ละข้อข้างต้นหรือไม่?
  - เริ่มแลกเปลี่ยนแนวคิดระดับการออกแบบ?
  - แผนที่เป็นไปได้สำหรับการสนับสนุนการพัฒนาจริง?
    - ส่วนประกอบ/คุณสมบัติเฉพาะที่คุณต้องการพัฒนา?
- สิ่งประดิษฐ์เฉพาะเพื่อสร้าง:
  - เอกสารที่ใช้ร่วมกันที่อธิบายปัญหาการโหลดฟรีและข้อกำหนดของเครื่องมือหรือคุณลักษณะใน TFF ที่สามารถแก้ไขได้
  - เอกสารที่แชร์ซึ่งอธิบายการวัดประสิทธิภาพสำหรับอคติข้ามไซโลที่มีข้อมูลจำนวนไม่เท่ากัน สิ่งที่เราต้องการให้เกณฑ์เปรียบเทียบวัด
  - เอกสารที่แชร์ซึ่งกำหนดองค์ประกอบใหม่ที่จะเปิดใช้งาน TFF เพื่อทำงานในสภาพแวดล้อมที่ใช้ Azure (TBD ว่าจะต้องผสานรวมกับเลเยอร์ใด)
[ostrowski] สื่อสารอย่างเปิดเผย
- สิ่งที่ต้องเผยแพร่ต่อสาธารณะ (บน หน้า Landing Page ของ GitHub )
- สรุปการอภิปรายและการตัดสินใจจากนี้และการประชุมติดตามผลภายในสองสามวันหลังจากการประชุมแต่ละครั้งในหน้า th GitHub
- ลิงก์ไปยังสิ่งประดิษฐ์ (แผน แผนงาน เอกสารการออกแบบ ฯลฯ ที่จะสร้าง) เช่นเดียวกับที่จะเผยแพร่บน GitHub
- บทสนทนา (แชท?)
  - หย่อน
- เป้าหมายร่วมกัน:
  - ผลิตภัณฑ์ / ส่วนประกอบเฉพาะในขอบเขต?
  - กฎบัตรสำหรับคณะทำงานที่มีขอบเขตเฉพาะเจาะจงมากขึ้น/ในขอบเขตที่แคบเพื่อรองรับการพัฒนาเหล่านี้ ?
[B] จะทำอย่างไรกับปัญหาเล็กๆ น้อยๆ ในการดำเนินงาน?
- [K] ปัญหา Slack หรือ GitHub สามารถทำงานได้ อะไรจะเป็นประโยชน์สำหรับคุณ?
[ostrowski] ตารางการประชุมที่เกิดขึ้นซ้ำๆ ที่เราสามารถร่วมกันยืนยันได้?
- มนตรี