AudioSpectrogram

classe finale pubblica AudioSpettrogramma

Produce una visualizzazione dei dati audio nel tempo.

Gli spettrogrammi sono un modo standard di rappresentare le informazioni audio come una serie di porzioni di informazioni sulla frequenza, una porzione per ciascuna finestra temporale. Unendoli insieme in una sequenza, formano nel tempo un'impronta distintiva del suono.

Questa operazione prevede di ricevere dati audio come input, memorizzati come numeri in virgola mobile nell'intervallo da -1 a 1, insieme a una larghezza della finestra in campioni e un passo che specifica di quanto spostare la finestra tra le sezioni. Da questo genera un output tridimensionale. La prima dimensione riguarda i canali in ingresso, quindi un ingresso audio stereo ne avrebbe due qui, ad esempio. La seconda dimensione è il tempo, con sezioni di frequenza successive. La terza dimensione ha un valore di ampiezza per ciascuna frequenza durante quell'intervallo di tempo.

Ciò significa che il layout quando viene convertito e salvato come immagine viene ruotato di 90 gradi in senso orario rispetto a uno spettrogramma tipico. Il tempo scende lungo l'asse Y e la frequenza diminuisce da sinistra a destra.

Ciascun valore nel risultato rappresenta la radice quadrata della somma delle parti reale e immaginaria di una FFT nella finestra corrente dei campioni. In questo modo, la dimensione più bassa rappresenta la potenza di ciascuna frequenza nella finestra corrente e le finestre adiacenti vengono concatenate nella dimensione successiva.

Per avere uno sguardo più intuitivo e visivo su ciò che fa questa operazione, puoi eseguire tensorflow/examples/wav_to_spectrogram per leggere un file audio e salvare lo spettrogramma risultante come immagine PNG.

Classi nidificate

classe AudioSpettrogramma.Opzioni Attributi facoltativi per AudioSpectrogram

Costanti

Corda OP_NAME Il nome di questa operazione, come noto al motore principale di TensorFlow

Metodi pubblici

Uscita < TFloat32 >
comeuscita ()
Restituisce l'handle simbolico del tensore.
Audiospettrogramma statico
crea (ambito ambito , operando < TFloat32 > input, dimensione finestra lunga, passo lungo, opzioni... opzioni)
Metodo factory per creare una classe che racchiude una nuova operazione AudioSpectrogram.
AudioSpectrogram.Options statico
grandezzaSquared (magnitudine booleanaSquared)
Uscita < TFloat32 >
spettrogramma ()
Rappresentazione 3D delle frequenze audio come immagine.

Metodi ereditati

Costanti

Stringa finale statica pubblica OP_NAME

Il nome di questa operazione, come noto al motore principale di TensorFlow

Valore costante: "AudioSpettrogramma"

Metodi pubblici

Uscita pubblica < TFloat32 > asOutput ()

Restituisce l'handle simbolico del tensore.

Gli input per le operazioni TensorFlow sono output di un'altra operazione TensorFlow. Questo metodo viene utilizzato per ottenere un handle simbolico che rappresenta il calcolo dell'input.

creazione audiospettrogramma statico pubblico (ambito ambito , ingresso operando < TFloat32 >, dimensione finestra lunga, passo lungo, opzioni... opzioni)

Metodo factory per creare una classe che racchiude una nuova operazione AudioSpectrogram.

Parametri
scopo ambito attuale
ingresso Rappresentazione mobile dei dati audio.
windowSize Quanto è ampia la finestra di input nei campioni. Per la massima efficienza dovrebbe essere una potenza di due, ma sono accettati altri valori.
passo Quanto dovrebbe essere distante il centro delle finestre campione adiacenti.
opzioni trasporta valori di attributi opzionali
ritorna
  • una nuova istanza di AudioSpectrogram

pubblico statico AudioSpectrogram.Options grandezzaSquared (Booleano grandezzaSquared)

Parametri
grandezzaQuadrato Se restituire la grandezza al quadrato o solo la grandezza. L'uso della magnitudo quadrata può evitare calcoli aggiuntivi.

output pubblico < TFloat32 > spettrogramma ()

Rappresentazione 3D delle frequenze audio come immagine.