AudioSpectrogram

الطبقة النهائية العامة AudioSpectrogram

ينتج تصورا للبيانات الصوتية مع مرور الوقت.

تعد المخططات الطيفية طريقة قياسية لتمثيل المعلومات الصوتية كسلسلة من شرائح معلومات التردد، شريحة واحدة لكل نافذة زمنية. ومن خلال دمج هذه العناصر معًا في تسلسل، فإنها تشكل بصمة مميزة للصوت مع مرور الوقت.

تتوقع هذه العملية تلقي البيانات الصوتية كمدخلات، مخزنة على شكل عوامات في النطاق من -1 إلى 1، جنبًا إلى جنب مع عرض النافذة في العينات، وخطوة تحدد مدى تحريك النافذة بين الشرائح. ومن هذا فإنه يولد مخرجات ثلاثية الأبعاد. البعد الأول مخصص للقنوات الموجودة في الإدخال، لذا فإن إدخال صوت الاستريو سيكون له اثنان هنا على سبيل المثال. البعد الثاني هو الزمن، بشرائح ترددية متتالية. البعد الثالث له قيمة سعة لكل تردد خلال تلك الشريحة الزمنية.

وهذا يعني أن التخطيط عند تحويله وحفظه كصورة يتم تدويره بمقدار 90 درجة في اتجاه عقارب الساعة من مخطط طيفي نموذجي. يتجه الزمن نحو الأسفل على المحور Y، ويتناقص التردد من اليسار إلى اليمين.

تمثل كل قيمة في النتيجة الجذر التربيعي لمجموع الأجزاء الحقيقية والتخيلية من تحويل فورييه السريع (FFT) في نافذة العينات الحالية. وبهذه الطريقة، يمثل البعد الأدنى قوة كل تردد في النافذة الحالية، ويتم ربط النوافذ المجاورة في البعد التالي.

للحصول على نظرة أكثر وضوحًا وبديهية لما تفعله هذه العملية، يمكنك تشغيل Tensorflow/examples/wav_to_spectrogram لقراءة ملف صوتي وحفظ المخطط الطيفي الناتج كصورة PNG.

فئات متداخلة

فصل AudioSpectrogram.Options السمات الاختيارية لـ AudioSpectrogram

الثوابت

خيط OP_NAME اسم هذه العملية كما هو معروف بواسطة محرك TensorFlow الأساسي

الأساليب العامة

الإخراج <TFloat32>
كإخراج ()
إرجاع المقبض الرمزي للموتر.
مخطط الطيف الصوتي الثابت
إنشاء (نطاق النطاق ، المعامل <TFloat32> الإدخال، حجم النافذة الطويلة، الخطوة الطويلة، الخيارات... الخيارات)
طريقة المصنع لإنشاء فئة تغلف عملية AudioSpectrogram جديدة.
AudioSpectrogram.Options ثابت
الحجم التربيعي (الحجم المنطقي التربيعي)
الإخراج <TFloat32>
مخطط طيفي ()
تمثيل ثلاثي الأبعاد للترددات الصوتية كصورة.

الطرق الموروثة

الثوابت

السلسلة النهائية الثابتة العامة OP_NAME

اسم هذه العملية كما هو معروف بواسطة محرك TensorFlow الأساسي

القيمة الثابتة: "AudioSpectrogram"

الأساليب العامة

الإخراج العام <TFloat32> asOutput ()

إرجاع المقبض الرمزي للموتر.

المدخلات إلى عمليات TensorFlow هي مخرجات عملية TensorFlow أخرى. يتم استخدام هذه الطريقة للحصول على مقبض رمزي يمثل حساب الإدخال.

إنشاء مخطط صوتي ثابت عام (نطاق النطاق ، المعامل <TFloat32> الإدخال، حجم النافذة الطويلة، الخطوة الطويلة، الخيارات... خيارات)

طريقة المصنع لإنشاء فئة تغلف عملية AudioSpectrogram جديدة.

حدود
نِطَاق النطاق الحالي
مدخل تعويم تمثيل البيانات الصوتية.
بحجم النافذه مدى اتساع نافذة الإدخال في العينات. للحصول على أعلى كفاءة، يجب أن يكون هذا قوة اثنين، ولكن يتم قبول القيم الأخرى.
خطوة إلى أي مدى ينبغي أن يكون مركز نوافذ العينة المجاورة متباعدًا.
خيارات يحمل قيم السمات الاختيارية
عائدات
  • مثيل جديد من AudioSpectrogram

AudioSpectrogram.Options العام الثابت

حدود
حجم مربع سواء لإرجاع الحجم التربيعي أو الحجم فقط. يمكن أن يؤدي استخدام الحجم التربيعي إلى تجنب الحسابات الإضافية.

الإخراج العام <TFloat32> الطيفي ()

تمثيل ثلاثي الأبعاد للترددات الصوتية كصورة.