ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

เอะอะ

  • รายละเอียด:

ชุดข้อมูล Free Universal Sound Separation (FUSS) เป็นฐานข้อมูลของการผสมเสียงตามอำเภอใจและการอ้างอิงระดับต้นทาง สำหรับใช้ในการทดลองแยกเสียงตามอำเภอใจ

นี่คือข้อมูลการแยกเสียงอย่างเป็นทางการสำหรับ DCASE2020 Challenge Task 4: Sound Event Detection and Separation in Domestic Environment

ภาพรวม: ข้อมูลเสียง FUSS มาจากชุดข้อมูล Freesound ก่อนวางจำหน่ายที่รู้จักกันในชื่อ (FSD50k) ซึ่งเป็นชุดข้อมูลเหตุการณ์เสียงที่ประกอบด้วยเนื้อหา Freesound ที่มีป้ายกำกับจาก AudioSet Ontology การใช้ป้ายกำกับ FSD50K ไฟล์ต้นฉบับเหล่านี้ได้รับการตรวจสอบแล้วว่าอาจมีเสียงประเภทเดียวเท่านั้น ไม่มีป้ายกำกับสำหรับไฟล์ต้นฉบับเหล่านี้ และไม่ถือว่าเป็นส่วนหนึ่งของความท้าทาย สำหรับวัตถุประสงค์ของความท้าทาย DCASE Task4 Sound Separation และ Event Detection ระบบไม่ควรใช้ป้ายกำกับ FSD50K แม้ว่าอาจพร้อมใช้งานเมื่อเปิดตัว FSD50K

ในการสร้างส่วนผสม คลิปของแหล่งที่มา 10 วินาทีจะถูกรวมเข้าด้วยกันด้วยการตอบสนองของอิมพัลส์ในห้องจำลองและรวมเข้าด้วยกัน แต่ละส่วนผสม 10 วินาทีประกอบด้วย 1 ถึง 4 แหล่ง ไฟล์ต้นฉบับที่ยาวกว่า 10 วินาทีถือเป็นแหล่งที่มา "เบื้องหลัง" ทุกส่วนผสมมีแหล่งที่มาพื้นหลังเดียว ซึ่งใช้งานได้ตลอดระยะเวลา เราจัดเตรียม: สูตรซอฟต์แวร์เพื่อสร้างชุดข้อมูล การตอบสนองของแรงกระตุ้นในห้อง และเสียงต้นฉบับของแหล่งที่มา

แยก ตัวอย่าง
'test' 1,000
'train' 20,000
'validation' 1,000
  • คุณสมบัติ:
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('mixture_audio', 'sources')

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

  • อ้างอิง:

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

เอะอะ/ก้องกังวาน (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย Config: เสียงสะท้อนค่าเริ่มต้น

  • ขนาดการดาวน์โหลด: 7.35 GiB

  • ขนาดชุด: 43.20 GiB

  • ตัวอย่าง ( tfds.as_dataframe ):

เอะอะ / ยังไม่ได้

  • คำอธิบาย Config: เสียงที่ยังไม่ได้โดยไม่ต้องเสียงก้องเพิ่มเติม

  • ขนาดการดาวน์โหลด: 8.28 GiB

  • ขนาดชุด: 45.58 GiB

  • ตัวอย่าง ( tfds.as_dataframe ):