AudioSpectrogram

सार्वजनिक अंतिम श्रेणी ऑडियोस्पेक्ट्रोग्राम

समय के साथ ऑडियो डेटा का विज़ुअलाइज़ेशन तैयार करता है।

स्पेक्ट्रोग्राम ऑडियो जानकारी को आवृत्ति जानकारी के स्लाइस की एक श्रृंखला के रूप में प्रस्तुत करने का एक मानक तरीका है, समय की प्रत्येक विंडो के लिए एक स्लाइस। इन्हें एक क्रम में जोड़कर, वे समय के साथ ध्वनि का एक विशिष्ट फिंगरप्रिंट बनाते हैं।

यह ऑप एक इनपुट के रूप में ऑडियो डेटा प्राप्त करने की अपेक्षा करता है, जिसे -1 से 1 की रेंज में फ़्लोट के रूप में संग्रहीत किया जाता है, साथ में नमूनों में एक विंडो की चौड़ाई, और स्लाइस के बीच विंडो को कितनी दूर ले जाना है यह निर्दिष्ट करने वाला एक स्ट्राइड। इससे यह त्रि-आयामी आउटपुट उत्पन्न करता है। पहला आयाम इनपुट में चैनलों के लिए है, इसलिए उदाहरण के लिए स्टीरियो ऑडियो इनपुट में यहां दो होंगे। दूसरा आयाम समय है, क्रमिक आवृत्ति स्लाइस के साथ। तीसरे आयाम में उस समय स्लाइस के दौरान प्रत्येक आवृत्ति के लिए एक आयाम मान होता है।

इसका मतलब यह है कि जब लेआउट को एक छवि के रूप में परिवर्तित और सहेजा जाता है तो उसे एक सामान्य स्पेक्ट्रोग्राम से 90 डिग्री दक्षिणावर्त घुमाया जाता है। समय Y अक्ष से नीचे की ओर उतर रहा है, और आवृत्ति बाएँ से दाएँ घटती जाती है।

परिणाम में प्रत्येक मान नमूनों की वर्तमान विंडो पर एफएफटी के वास्तविक और काल्पनिक भागों के योग के वर्गमूल को दर्शाता है। इस तरह, सबसे निचला आयाम वर्तमान विंडो में प्रत्येक आवृत्ति की शक्ति का प्रतिनिधित्व करता है, और आसन्न विंडो को अगले आयाम में संयोजित किया जाता है।

यह ऑपरेशन क्या करता है, इसे अधिक सहज और दृश्य रूप से देखने के लिए, आप एक ऑडियो फ़ाइल में पढ़ने के लिए टेंसरफ्लो/उदाहरण/wav_to_स्पेक्ट्रोग्राम चला सकते हैं और परिणामी स्पेक्ट्रोग्राम को पीएनजी छवि के रूप में सहेज सकते हैं।

नेस्टेड क्लासेस

कक्षा ऑडियोस्पेक्ट्रोग्राम.विकल्प AudioSpectrogram के लिए वैकल्पिक विशेषताएँ

स्थिरांक

डोरी OP_NAME इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है

सार्वजनिक तरीके

आउटपुट < TFloat32 >
आउटपुट के रूप में ()
टेंसर का प्रतीकात्मक हैंडल लौटाता है।
स्थिर ऑडियोस्पेक्ट्रोग्राम
बनाएं ( स्कोप स्कोप, ऑपरेंड < TFloat32 > इनपुट, लंबी विंडो आकार, लंबी स्ट्राइड, विकल्प... विकल्प)
एक नए ऑडियोस्पेक्ट्रोग्राम ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।
स्थिर ऑडियोस्पेक्ट्रोग्राम.विकल्प
परिमाणवर्ग (बूलियन परिमाणवर्ग)
आउटपुट < TFloat32 >
स्पेक्ट्रोग्राम ()
एक छवि के रूप में ऑडियो आवृत्तियों का 3डी प्रतिनिधित्व।

विरासत में मिली विधियाँ

स्थिरांक

सार्वजनिक स्थैतिक अंतिम स्ट्रिंग OP_NAME

इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है

स्थिर मान: "ऑडियोस्पेक्ट्रोग्राम"

सार्वजनिक तरीके

सार्वजनिक आउटपुट < TFloat32 > asOutput ()

टेंसर का प्रतीकात्मक हैंडल लौटाता है।

TensorFlow संचालन के इनपुट किसी अन्य TensorFlow ऑपरेशन के आउटपुट हैं। इस पद्धति का उपयोग एक प्रतीकात्मक हैंडल प्राप्त करने के लिए किया जाता है जो इनपुट की गणना का प्रतिनिधित्व करता है।

सार्वजनिक स्थैतिक ऑडियोस्पेक्ट्रोग्राम बनाएं ( स्कोप स्कोप, ऑपरेंड < TFloat32 > इनपुट, लंबी विंडो आकार, लंबी स्ट्राइड, विकल्प... विकल्प)

एक नए ऑडियोस्पेक्ट्रोग्राम ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।

पैरामीटर
दायरा वर्तमान दायरा
इनपुट ऑडियो डेटा का फ़्लोट प्रतिनिधित्व।
खिड़की का आकार नमूनों में इनपुट विंडो कितनी चौड़ी है. उच्चतम दक्षता के लिए यह दो की शक्ति होनी चाहिए, लेकिन अन्य मान भी स्वीकार किए जाते हैं।
छलांग आसन्न नमूना खिड़कियों का केंद्र कितना दूर होना चाहिए।
विकल्प वैकल्पिक गुण मान रखता है
रिटर्न
  • ऑडियोस्पेक्ट्रोग्राम का एक नया उदाहरण

सार्वजनिक स्थैतिक ऑडियोस्पेक्ट्रोग्राम.विकल्प परिमाण वर्ग (बूलियन परिमाण वर्ग)

पैरामीटर
परिमाणवर्ग क्या वर्ग परिमाण लौटाना है या केवल परिमाण लौटाना है। वर्ग परिमाण का उपयोग करने से अतिरिक्त गणनाओं से बचा जा सकता है।

सार्वजनिक आउटपुट < TFloat32 > स्पेक्ट्रोग्राम ()

एक छवि के रूप में ऑडियो आवृत्तियों का 3डी प्रतिनिधित्व।