TensorFlow 데이터세트 팀을 위한 제품 피드백

개요

TensorFlow 데이터세트(TFDS)는 TensorFlow 또는 JAX와 같은 기타 Python ML 프레임워크와 함께 사용할 수 있는 데이터세트 모음입니다. TFDS로 데이터세트를 사용하면 팀이 사용하기 쉽고 고성능의 입력 파이프라인을 빌드할 수 있습니다.

TensorFlow 팀은 프로젝트에서 TensorFlow 데이터세트를 사용하는 외부 팀과 협력하길 바랍니다.

공개 및 비공개 데이터세트 모두에 TFDS를 사용할 수 있다는 것을 알고 계셨습니까?

자격:

다음 범주 중 하나에 해당하는 사용 사례를 가진 회사와 협력하려고 합니다.

  • 공용: TFDS에서 호스팅되는 공개적으로 사용 가능한 리포지토리에 데이터세트를 공유하는 데 관심이 있는 모든 사람, 여기에는 데이터를 직접 호스팅하고 재배포할 수 있도록 TFDS에 대한 권한 부여가 포함됩니다.
  • 개인용: 내부 데이터세트용으로 TFDS를 활용하고 추출, 서식 지정 및 배포와 같은 기능의 이점을 누리고 싶지만, 데이터에 대한 액세스를 제한하려는 모든 엔터프라이즈, 회사 또는 기관

TFDS와 협력한다는 것은 무엇을 의미합니까?

TFDS를 통합하는 데 도움이 되는 기술 지원을 함께 제공하고 싶습니다. 여기에는 GitHub 질문 지원 및 TFDS 팀과의 상담이 포함됩니다.

그 대가로 당사에 피드백을 제공할 회사와 협력하려고 합니다. 여기에는 신생 기업, 대기업 또는 교육 기관의 사용 사례를 포함하여 모든 산업 부문의 기업이 포함됩니다. 협력하면 TFDS 커뮤니티를 지원하는 적합한 기능 세트를 구축하는 데 도움이 됩니다.

왜 TFDS인가

TFDS에는 이미 수백 개의 공개 데이터세트가 포함되어 있으며, 쉽고 유연한 API를 통해 임의 크기의 데이터세트에 액세스할 수 있습니다.

개인용 시나리오가 있는 파트너의 경우, 자체 내부 데이터세트를 통합하면 공개 및 내부 데이터에 대한 실행/테스트 간에 쉽게 전환할 수 있습니다.

또한, 데이터세트를 TFDS에 추가하면 조직의 다른 부서에서 더 쉽게 액세스할 수 있습니다.

데이터세트는 모든 종류의 형식과 모든 장소에 배포되며 머신러닝 파이프라인에 공급할 수 있는 형식으로 항상 저장되지는 않습니다.

TFDS는 이러한 모든 데이터세트를 표준 형식으로 변환하는 방법을 제공하고, 머신러닝 파이프라인을 준비하는 데 필요한 사전 처리를 수행하고, 표준 입력 파이프라인을 제공합니다.

TFDS를 통해 제공되는 데이터세트는 다음과 같은 많은 기능을 제공합니다.

  • 정보 객체를 통해 데이터세트 메타 데이터 노출(레이블 이름, 예제 수, 데이터세트 크기)
  • 훈련 및 테스트 분할에 기본 데이터세트를 사용하거나 사용자 정의 하위 분할을 동적으로 생성
  • 버전 관리

Google Research는 프로젝트 전반에서 TFDS를 많이 활용합니다.

심상

Google의 AI 연구팀은 공유 텍스트-텍스트 프레임워크인 T5에 대한 연구 논문을 발표했습니다. 이 프레임워크는 많은 NLP 벤치마크에서 최첨단 결과를 생성하는 동시에 다양한 중요 다운스트림 작업에 맞게 미세 조정할 수 있을 만큼 유연합니다. T5의 일부 애플리케이션은 비공개 질문을 포함하고 빈 텍스트 생성을 채웁니다. T5에서 사용하는 사전 훈련 목표는 모델이 손상된 텍스트 내에서 누락된 단어를 예측하는 빈칸 채우기 작업과 더 밀접하게 일치합니다. 팀은 TFDS를 활용하여 생성한 데이터세트를 처리하고 모델을 훈련하는 데 사용했습니다.

심상

또한, Google의 연구팀은 컴퓨터 비전 분야의 발전을 위해 TFDS의 사전 훈련된 표현을 활용했습니다. VTAB에서 자연 이미지, 인공 환경(구조적) 및 비표준 카메라로 캡처한 이미지(특수) 등 다양한 영역에서 들어오는 까다로운 다운스트림 비전 작업 세트에 대한 시각적 모델을 평가했습니다. 데이터세트의 가용성은 연구가 이미지에서 특징 추출을 개선하는 데 도움이 되었습니다.

심상

마지막으로 TFDS는 다른 NLP 예제에서 사용되었습니다. Google 연구원은 다국어 학습에 대한 더 많은 연구를 장려하기 위해 일련의 언어 작업 및 벤치마크인 EXTREME을 출시했습니다.

TFDS를 사용하는 더 많은 리포지토리는 여기에서 확인할 수 있습니다.

문의하기

tfds-feedback@tensorflow.org로 문의하시면 Tensorflow Datasets 팀이 연락을 드릴 것입니다.