AudioSpectrogram

AudioSpectrogram kelas akhir publik

Menghasilkan visualisasi data audio dari waktu ke waktu.

Spektogram adalah cara standar untuk merepresentasikan informasi audio sebagai rangkaian potongan informasi frekuensi, satu potongan untuk setiap jendela waktu. Dengan menggabungkannya menjadi satu rangkaian, mereka membentuk sidik jari suara yang khas dari waktu ke waktu.

Operasi ini mengharapkan untuk menerima data audio sebagai masukan, disimpan sebagai float dalam rentang -1 hingga 1, bersama dengan lebar jendela dalam sampel, dan langkah yang menentukan seberapa jauh jendela harus dipindahkan antar irisan. Dari sini menghasilkan keluaran tiga dimensi. Dimensi pertama adalah untuk saluran masukan, jadi masukan audio stereo akan memiliki dua saluran di sini misalnya. Dimensi kedua adalah waktu, dengan irisan frekuensi yang berurutan. Dimensi ketiga memiliki nilai amplitudo untuk setiap frekuensi selama irisan waktu tersebut.

Ini berarti tata letak ketika dikonversi dan disimpan sebagai gambar diputar 90 derajat searah jarum jam dari spektogram biasa. Waktu menurun sumbu Y, dan frekuensi menurun dari kiri ke kanan.

Setiap nilai dalam hasil mewakili akar kuadrat dari jumlah bagian nyata dan imajiner dari FFT pada jendela sampel saat ini. Dengan cara ini, dimensi terendah mewakili kekuatan setiap frekuensi pada jendela saat ini, dan jendela yang berdekatan digabungkan dalam dimensi berikutnya.

Untuk mendapatkan tampilan yang lebih intuitif dan visual tentang fungsi operasi ini, Anda dapat menjalankan tensorflow/examples/wav_to_spectrogram untuk membaca file audio dan menyimpan spektogram yang dihasilkan sebagai gambar PNG.

Kelas Bersarang

kelas AudioSpectogram.Opsi Atribut opsional untuk AudioSpectrogram

Konstanta

Rangkaian OP_NAME Nama operasi ini dikenal dengan mesin inti TensorFlow

Metode Publik

Keluaran < TFloat32 >
sebagai Keluaran ()
Mengembalikan pegangan simbolis tensor.
Spektogram Audio statis
buat ( Lingkup lingkup, Operan < TFloat32 > masukan, Ukuran jendela panjang, Langkah panjang, Opsi... opsi)
Metode pabrik untuk membuat kelas yang membungkus operasi AudioSpectrogram baru.
AudioSpectrogram.Options statis
magnitudoSquared (magnitudo BooleanSquared)
Keluaran < TFloat32 >
spektogram ()
Representasi 3D dari frekuensi audio sebagai gambar.

Metode Warisan

Konstanta

String akhir statis publik OP_NAME

Nama operasi ini dikenal dengan mesin inti TensorFlow

Nilai Konstan: "AudioSpectogram"

Metode Publik

Keluaran publik < TFloat32 > asOutput ()

Mengembalikan pegangan simbolis tensor.

Masukan ke operasi TensorFlow adalah keluaran dari operasi TensorFlow lainnya. Metode ini digunakan untuk mendapatkan pegangan simbolis yang mewakili perhitungan input.

pembuatan AudioSpectrogram statis publik ( Lingkup cakupan, input Operan <TFloat32> , Ukuran jendela panjang, Langkah panjang, Opsi... opsi)

Metode pabrik untuk membuat kelas yang membungkus operasi AudioSpectrogram baru.

Parameter
cakupan ruang lingkup saat ini
memasukkan Representasi data audio mengambang.
ukuran jendela Seberapa lebar jendela masukan dalam sampel. Untuk efisiensi tertinggi, nilai ini harus dipangkatkan dua, tetapi nilai lain dapat diterima.
melangkah Seberapa jauh seharusnya jarak bagian tengah jendela sampel yang berdekatan.
pilihan membawa nilai atribut opsional
Kembali
  • contoh baru AudioSpectrogram

AudioSpectrogram statis publik. Pilihan magnitudoSquared (Boolean magnitudoSquared)

Parameter
besarnyaKuadrat Apakah akan mengembalikan besaran kuadrat atau hanya besarannya saja. Menggunakan besaran kuadrat dapat menghindari perhitungan tambahan.

Output publik < TFloat32 > spektogram ()

Representasi 3D dari frekuensi audio sebagai gambar.