เอะอะ

  • คำอธิบาย :

ชุดข้อมูล Free Universal Sound Separation (FUSS) เป็นฐานข้อมูลของการผสมเสียงตามอำเภอใจและการอ้างอิงระดับแหล่งที่มา สำหรับใช้ในการทดลองเกี่ยวกับการแยกเสียงตามอำเภอใจ

นี่คือข้อมูลการแยกเสียงอย่างเป็นทางการสำหรับ DCASE2020 Challenge Task 4: Sound Event Detection and Separation in Domestic Environments

ภาพรวม: ข้อมูลเสียง FUSS มาจากชุดข้อมูล Freesound รุ่นก่อนเปิดตัวที่รู้จักกันในชื่อ (FSD50k) ซึ่งเป็นชุดข้อมูลเหตุการณ์เสียงที่ประกอบด้วยเนื้อหา Freesound ที่มีป้ายกำกับจาก AudioSet Ontology ด้วยการใช้ป้ายกำกับ FSD50K ไฟล์ต้นฉบับเหล่านี้ได้รับการคัดกรองในลักษณะที่น่าจะประกอบด้วยเสียงประเภทเดียวเท่านั้น ไม่มีป้ายกำกับสำหรับไฟล์ต้นฉบับเหล่านี้ และไม่ถือว่าเป็นส่วนหนึ่งของความท้าทาย สำหรับวัตถุประสงค์ของความท้าทาย DCASE Task4 Sound Separation and Event Detection ระบบไม่ควรใช้ป้ายกำกับ FSD50K แม้ว่าอาจพร้อมใช้งานเมื่อปล่อย FSD50K ก็ตาม

ในการสร้างส่วนผสม คลิปแหล่งที่มาความยาว 10 วินาทีจะถูกรวมเข้ากับการตอบสนองของแรงกระตุ้นในห้องจำลองและนำมารวมกัน แต่ละส่วนผสม 10 วินาทีมีระหว่าง 1 ถึง 4 แหล่ง ไฟล์ต้นฉบับที่ยาวกว่า 10 วินาทีถือเป็นแหล่งที่มา "พื้นหลัง" ทุกส่วนผสมมีแหล่งที่มาพื้นหลังหนึ่งแหล่ง ซึ่งทำงานตลอดระยะเวลาทั้งหมด เรามี: สูตรซอฟต์แวร์สำหรับสร้างชุดข้อมูล การตอบสนองของห้อง และเสียงต้นฉบับ

แยก ตัวอย่าง
'test' 1,000
'train' 20,000
'validation' 1,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
รหัส เทนเซอร์ สตริง
แยม เทนเซอร์ สตริง
mix_audio เครื่องเสียง (160000,) int16
เซ็กเมนต์ ลำดับ
เซกเมนต์/end_time_seconds เทนเซอร์ ลอย32
กลุ่ม/ฉลาก เทนเซอร์ สตริง
เซ็กเมนต์/start_time_seconds เทนเซอร์ ลอย32
แหล่งที่มา ลำดับ
แหล่งที่มา/เสียง เครื่องเสียง (160000,) int16
แหล่งที่มา/ป้ายกำกับ ป้ายกำกับคลาส int64
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('mixture_audio', 'sources')

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

เอะอะ/เสียงก้อง (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า: เสียงก้องเริ่มต้น

  • ขนาดการดาวน์โหลด : 7.35 GiB

  • ขนาดชุดข้อมูล : 43.20 GiB

  • ตัวอย่าง ( tfds.as_dataframe ):

เอะอะ/ยังไม่ได้ดำเนินการ

  • คำอธิบาย การกำหนดค่า : เสียงที่ไม่ได้ประมวลผลโดยไม่มีเสียงสะท้อนเพิ่มเติม

  • ขนาดการดาวน์โหลด : 8.28 GiB

  • ขนาดชุดข้อมูล : 45.58 GiB

  • ตัวอย่าง ( tfds.as_dataframe ):