AudioSpectrogram

genel final sınıfı AudioSpectrogram

Zaman içinde ses verilerinin görselleştirilmesini sağlar.

Spektrogramlar, ses bilgisini, her zaman penceresi için bir dilim olmak üzere, bir dizi frekans bilgisi dilimleri olarak temsil etmenin standart bir yoludur. Bunları bir dizi halinde birleştirerek zaman içinde sesin ayırt edici bir parmak izini oluştururlar.

Bu operasyon, -1 ila 1 aralığında kayan nokta olarak saklanan ses verilerini, örneklerdeki pencere genişliği ve pencerenin dilimler arasında ne kadar uzağa taşınacağını belirten bir adımla birlikte bir giriş olarak almayı bekler. Bundan üç boyutlu bir çıktı üretir. İlk boyut girişteki kanallar içindir, dolayısıyla stereo ses girişinde örneğin burada iki tane bulunur. İkinci boyut, birbirini takip eden frekans dilimleriyle zamandır. Üçüncü boyut, o zaman dilimindeki her frekans için bir genlik değerine sahiptir.

Bu, görüntü olarak dönüştürülüp kaydedildiğinde düzenin tipik bir spektrogramdan saat yönünde 90 derece döndürüldüğü anlamına gelir. Zaman Y ekseninde aşağı doğru iniyor ve frekans soldan sağa doğru azalıyor.

Sonuçtaki her değer, örneklerin geçerli penceresindeki bir FFT'nin gerçek ve sanal kısımlarının toplamının karekökünü temsil eder. Bu şekilde en düşük boyut, geçerli penceredeki her frekansın gücünü temsil eder ve bitişik pencereler bir sonraki boyutta birleştirilir.

Bu işlemin ne yaptığına daha sezgisel ve görsel bir bakış sağlamak için tensorflow/examples/wav_to_spectrogram komutunu çalıştırarak bir ses dosyasını okuyabilir ve elde edilen spektrogramı PNG görüntüsü olarak kaydedebilirsiniz.

İç İçe Sınıflar

sınıf AudioSpectrogram.Seçenekler AudioSpectrogram için isteğe bağlı özellikler

Sabitler

Sicim OP_NAME Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı

Genel Yöntemler

Çıkış < TFloat32 >
Çıkış olarak ()
Tensörün sembolik tutamacını döndürür.
statik Ses Spektrogramı
oluştur ( Kapsam kapsamı, İşlenen < TFloat32 > giriş, Uzun pencere Boyutu, Uzun adım, Seçenekler... seçenekler)
Yeni bir AudioSpectrogram işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.
Statik AudioSpectrogram.Seçenekler
büyüklükKare (Boolean büyüklükKare)
Çıkış < TFloat32 >
spektrogram ()
Ses frekanslarının bir görüntü olarak 3 boyutlu gösterimi.

Kalıtsal Yöntemler

Sabitler

genel statik son Dize OP_NAME

Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı

Sabit Değer: "AudioSpectrogram"

Genel Yöntemler

genel Çıkış < TFloat32 > asOutput ()

Tensörün sembolik tutamacını döndürür.

TensorFlow işlemlerinin girdileri, başka bir TensorFlow işleminin çıktılarıdır. Bu yöntem, girişin hesaplanmasını temsil eden sembolik bir tanıtıcı elde etmek için kullanılır.

genel statik AudioSpectrogram oluşturma ( Kapsam kapsamı, İşlenen < TFloat32 > giriş, Uzun pencere Boyutu, Uzun adım, Seçenekler... seçenekler)

Yeni bir AudioSpectrogram işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.

Parametreler
kapsam mevcut kapsam
giriş Ses verilerinin kayan gösterimi.
Pencere boyutu Örneklerde giriş penceresinin genişliği. En yüksek verimlilik için bu ikinin katı olmalıdır, ancak diğer değerler de kabul edilir.
adım Bitişik örnek pencerelerin merkezinin birbirinden ne kadar uzakta olması gerektiği.
seçenekler isteğe bağlı nitelik değerlerini taşır
İadeler
  • AudioSpectrogram'ın yeni bir örneği

genel statik SesSpektrogramı.Seçenekler büyüklüğüKare (Boolean büyüklüğüKare)

Parametreler
büyüklükKare Kare büyüklüğünün mü yoksa sadece büyüklüğün mü döndürüleceği. Kare büyüklüğün kullanılması ekstra hesaplamaları önleyebilir.

genel Çıkış < TFloat32 > spektrogram ()

Ses frekanslarının bir görüntü olarak 3 boyutlu gösterimi.