2022년 2월 16일 TFF 협력자 회의의 메모,2022년 2월 16일 TFF 협력자 회의의 메모

  • 참가자들:

    • 크지슈토프 오스트로프스키(구글)
    • 알렉스 잉거만(구글)
    • 드윗 클린턴(구글)
    • 첸보이(LinkedIn)
    • 수빅 고쉬(LinkedIn)
    • 정리(LinkedIn)
  • [chen] 우리의 현재 사용법, 기여에 대한 관심 영역, 기여 방법에 대한 프로세스; 향후 개발 계획

  • [보이] 요즘 FL 활용법

    • 두 부분 - 하나는 교차 사일로
      • 사용자 데이터
      • 데이터 액세스를 제한하는 법적 요구 사항
      • FL은 3P 데이터로 편리합니다.
      • 규정을 준수하면서 데이터 활용 가능
    • 온디바이스 FL - 흥미롭지만 대부분 교차 사일로에서 작업
    • 우리가 추구할 수 있는 몇 가지 프로젝트
      • 프로토타입을 제작하고 있습니다
      • TFF는 편리합니다.
      • Benchmark FL 대 개인화된 전이 학습
        • 클라이언트의 데이터를 사용하여 각 클라이언트에 대한 개인화된 모델 훈련 vs. 전이 학습 f, 비교
        • FL 작동 방식에 대한 도전
          • 다른 클라이언트보다 큰 일부 클라이언트 -> 편향
          • 가장 많이 기여하는 고객들은 무임승차에 대해 걱정하고 있습니다. 데이터가 가장 적은 클라이언트는 모델에 충분히 영향을 미치지 않는 것에 대해 걱정합니다.
        • 확장성 문제
          • 바로 지금 추론을 위해 (수백 M)
          • 현재 그렇게 크지 않은 훈련 데이터(10s-100sK/silo)
          • O(수백 M) 클라이언트를 통해 일괄적으로 추론 실행
          • 주요 과제인 총 데이터 볼륨
            • 모든 클라이언트에 대한 기록
          • 이제 클러스터 크기가 제한되어 추론 속도가 제한됩니다.
        • 클라이언트 = 데이터가 다른 사일로와 섞이지 않아야 하는 사일로. 카디널리티는 무엇입니까?
          • 현재 실험을 하고 있으며 향후 100만 개의 사일로로 확장하고자 합니다.
        • TFF 클라이언트의 #에 대해 본 숫자는 무엇입니까?
          • 온디바이스: 많은 수의 소규모 데이터 사일로 x-silo는 소수의 대규모 데이터 세트입니다.
        • 사일로는 얼마나 유사합니까?
          • 스키마는 동일하지만 데이터 분포가 사일로 간에 많이 다릅니다. 불평등한 참여
      • [K] TFF를 학습용뿐만 아니라 추론용으로도 생각하고 계십니까?
        • [B] 바로 지금, 훈련에 TFF를 사용하십시오. 동일한 프레임워크에서 학습하고 추론하는 것을 선호합니다.
        • [K] 동일한 인프라 또는 동일한 모델?
        • [b} 바로 지금, 동일한 모델 및 동일한 클러스터
      • [B] 모델을 교육하고 장치에 배포하는 방법을 이해하고 싶습니다.
      • [S] 한 환경에서 모델을 훈련하고 다른 환경에서 꺼내서 사용할 필요성이 중요합니다. 첫 번째 응용 프로그램이 아닙니다.
  • [B] 우리가 만들고자 하는 것:

    • 기여에 대한 한 가지 아이디어는 공정성에 대한 벤치마크를 수행하면 TFF에 도구와 벤치마크를 추가할 수 있다는 것입니다.
      • 사일로(silo)에서 모델이 수행하는 방식(불균등한 성능 및 편향)
    • [K] 실천이 문제라고 보십니까? [B] 우리는 그것이 실제로 문제가 될 것이라고 믿습니다.
    • [B] 적대적 관점에서 이것을 생각하십시오. 사람들은 상자에 데이터를 넣는 것에 대해 걱정할 것입니다. 일반적인 관심사이지만 특정 지표가 없습니다.
    • [K] 우리는 어떤 것을 다루고 있습니까? 사일로 + 처리 방법에 대한 요구 사항이 있는 상황에 대해 이야기하고 있습니까? 그러나 적대적이지 않으며 편견을 만들고 싶지 않습니다. 대 여러 기관, 상호 불신하는 당사자가 있는 또 다른 상황. 우리는 이 중 하나 또는 둘 모두에 대해 생각하고 있습니까?
    • [B] 우리는 둘 다 보고 싶습니다. 지금은 후자에 대해서만 생각하십시오.
    • [D] 예를 들어 사일로는 회사이고 데이터 세트는 각 회사에서 업로드한 데이터입니다.
    • [K] 당신은 무임승차에 대한 우려를 강조하고 있습니다. 그러나 상호 불신하는 당사자도 있습니다. 당사자는 다른 사람/귀하가 데이터를 보는 것을 방지하기를 원합니까? 이러한 우려는 긴장 상태에 있습니다. 한편으로는 공격을 방지하기 위한 기여를 확인하고 다른 한편으로는 개인 정보 보호를 위해 콘텐츠를 보고 싶지 않습니다.
    • [B] 두 가지로 보세요. 하나는 DP 등을 통한 개인 정보 보호입니다. 다른 부분은 모델 성능 관점에서 많은 사일로의 데이터에서 훈련할 때 사일로마다 혜택이 다르게 나타날 수 있다는 우려가 있습니다. 우리는 전자에 접근하는 표준 방법이 있다고 생각합니다. 후자가 더 까다롭습니다.
    • [K] 모델이 잘 수행된다는 점에서 공정성; 다른 하나는 무료로 로드할 수 있습니다. 사생활 보호에 더 긴장하는 것은 후자입니다. 걱정되세요?
    • [B] 둘 다 똑같이 중요합니다. 데이터 개인 정보를 보호하고 혜택을 공정하게 분배할 수 있기를 원합니다.
    • [S] 아직 좋은 답변이 없습니다. [케이] 똑같습니다.
    • [D] 이 회사들은 이것을 운영하기 위해 링크드인을 얼마나 신뢰합니까?
    • [S] 신뢰는 적어도 내가 알고 있는 예에서는 지금까지 문제가 되지 않았습니다. 우리는 몇 가지 제약 요청을 받았지만 명백한 거부는 없었습니다. 사람들은 우리가 공통 가치를 구축할 수 있도록 데이터를 기꺼이 공유합니다.
    • [A] 사일로 또는 사일로 내 개인의 개인 정보 보호에 대한 우려가 있습니까?
    • [S] 후자
  • [D] Azure에서 구축 중인가요? 고려해야 할 다른 배포 사항은 무엇입니까?

    • [S] 결국 GPU가 들어올 것입니다. 초기 모델은 더 작고 필요도 적습니다. 결국, 여기에는 많은 수의 회원과 기업이 포함될 것입니다 → 모델이 상당히 커질 것입니다.
    • [D] 공개된 것과 동일한 하늘빛입니까? 또는 외부에서 볼 수 없는 일부 내부 인프라를 대상으로 합니다.
    • [S] 꽤 표준적인 것들.
    • [D] 공동 작업을 더 쉽게 만들고 모든 사람이 공개된 하늘빛에서 실행할 수 있으므로 OSS 코드를 더 가치 있게 만듭니다.
  • [K] 만들자! 이것들은 무엇이어야합니까? 벤치마크 제품군과 교차 사일로 플랫폼에 대해 언급했습니다. 공개적으로 PRD를 구체화하는 것에 대한 WDYT, 기능 및 사용 사례에 대해 이야기하시겠습니까?

    • [Z] 제품 스펙이 어떻게 되나요? TFF의 작은 구성 요소?
    • [k] 우리는 tff 위에 구축될 수 있고 다른 사람들이 사용할 수 있는 구성 요소 또는 제품에 대해 이야기할 수 있습니다.
    • [Z] 이해하고 싶습니다. 이것이 기여 프로세스입니까? 제품으로 시작하시겠습니까?
    • [k] 여기에서 프로세스를 만들고 있습니다. 편안함을 느끼는 위치에 따라 다릅니다.
    • [Z] TFF 외부에 있지만 TF에 그러한 제품의 예가 있습니까?
    • [K] TF에는 디자인 문서 프로세스가 있습니다. 우리는 이 메모를 그런 것으로 변환하기 시작할 수 있습니다. 예: 상호 신뢰하지 않는 사일로, DP와 같은 기술을 사용하려면 Azure에서 작동해야 함
    • [D] 정보를 공개하지 않고 사용 사례 디렉토리를 갖는 것이 도움이 됩니다.
    • [K] 우리는 로드맵, 문서, 어쨌든 TFF에 존재할 사용 사례의 예를 개발하고 싶습니다. 함께 시작할 수 있습니다. 작게 시작하는 것이 더 쉽다면, 꼭 이것을 해보자.
    • [B] FL에서 도전 과제에 대한 연구를 많이 봅니다. 어쩌면 우리는 이러한 문제를 해결하고 시작하기 위해 몇 가지 도구를 사용할 수 있습니다. 예를 들어 무임 승차와 유사한 데이터 이질성 - 연합 설정에서 일반적인 문제로 보입니다. 도구는 보편적으로 유용할 것입니다.
      • [K] 도전 과제를 평가하는 도구? 또는 시스템의 구성 요소.
      • [B] TFF가 제공할 수 있는 기능
      • [케이] +1. PRD로 시작하면 기능에 대해 이야기하기 위한 컨텍스트를 제공하지만 기능에 대해 별도로 이야기할 수도 있습니다. 어쩌면 우리는 프리로딩 문제를 설명하고 처리할 도구에 대해 설명하는 문서로 시작할 수 있습니다.
      • [D] 우리는 또한 연구원들과 함께 일합니다. LinkedIn은 제품 외에도 연구 결과를 생성하는 것을 목표로 하고 있습니까?
      • [Z] 단기적으로는 아직 연구 단계가 아닙니다.
  • [K] 몇 가지 공유 문서로 시작하여 일부 기능이나 구성 요소를 설명할 수 있을 것 같습니까? 어느 당사자든 시작할 수 있습니다. Google 문서와 이메일을 사용할 수 있습니다. 기본값을 공개로 설정합니다.

  • [ostrowski] 우리가 만들고 싶은 것과 우리가 취할 수 있는 구체적인 첫 단계

    • 다른 만남 그 이상을 목표로 - 우리 자신을 위한 AI?
    • 우리는 몇 가지 특정 제품/프로젝트를 설명하기 시작했습니다.
      • 벤치마크 제품군
      • DP, 공정성, 무부하 보호 기능이 있는 교차 사일로 플랫폼
    • 가능한 다음 단계
      • 제품 요구 사항 문서를 시작하고 위의 각 항목에 대해 공개적으로 함께 구체화하시겠습니까?
      • 디자인 수준의 아이디어 교환을 시작하시겠습니까?
      • 실제 개발 기여에 대한 잠재적인 계획은?
        • 개발하고 싶은 특정 구성 요소/기능은 무엇입니까?
    • 생성할 특정 아티팩트:
      • 무료 로딩 문제와 이를 해결할 수 있는 TFF의 도구 또는 기능 요구 사항을 설명하는 공유 문서
      • 데이터의 양이 같지 않은 사일로 전반의 편향에 대한 벤치마크, 벤치마크에서 측정하려는 항목을 설명하는 공유 문서
      • Azure 기반 환경에서 TFF가 작동할 수 있도록 하는 새 구성 요소를 정의하는 공유 문서(통합해야 하는 계층은 미정)
  • [ostrowski] 공개적으로 의사 소통하기

    • 공개적으로 사용할 수 있는 항목( GitHub 방문 페이지 )
    • GitHub 페이지에서 각 회의 후 며칠 이내에 제공될 이 회의 및 후속 회의의 토론 및 결정 요약
    • 마찬가지로 GitHub에 게시할 아티팩트(생성할 계획, 로드맵, 설계 문서 등)에 대한 링크
    • 대화(채팅?)
      • 느슨하게
    • 공유 목표:
      • 범위 내 특정 제품/구성 요소?
      • 이들의 개발을 지원하기 위해 보다 구체적이고 좁은 범위의 작업 그룹을 위한 헌장?
  • [B] 작은 운영상의 문제는 어떻게 해야 하나요?

    • [K] Slack 또는 GitHub 문제가 작동할 수 있습니다. 무엇이 당신에게 생산적입니까?
  • [ostrowski] 공동으로 약속할 수 있는 정기 회의 일정은?

    • 몬틀리