AudioSpectrogram

aula final pública AudioSpectrogram

Produz uma visualização de dados de áudio ao longo do tempo.

Os espectrogramas são uma forma padrão de representar informações de áudio como uma série de fatias de informações de frequência, uma fatia para cada janela de tempo. Ao juntá-los em uma sequência, eles formam uma impressão digital distinta do som ao longo do tempo.

Esta operação espera receber dados de áudio como entrada, armazenados como pontos flutuantes no intervalo de -1 a 1, juntamente com uma largura de janela em amostras e um passo especificando até que ponto a janela deve ser movida entre as fatias. A partir disso, ele gera uma saída tridimensional. A primeira dimensão é para os canais na entrada, então uma entrada de áudio estéreo teria dois aqui, por exemplo. A segunda dimensão é o tempo, com sucessivas fatias de frequência. A terceira dimensão possui um valor de amplitude para cada frequência durante esse intervalo de tempo.

Isso significa que o layout, quando convertido e salvo como uma imagem, é girado 90 graus no sentido horário a partir de um espectrograma típico. O tempo desce no eixo Y e a frequência diminui da esquerda para a direita.

Cada valor no resultado representa a raiz quadrada da soma das partes reais e imaginárias de uma FFT na janela atual de amostras. Desta forma, a dimensão mais baixa representa a potência de cada frequência na janela atual, e as janelas adjacentes são concatenadas na próxima dimensão.

Para obter uma visão mais intuitiva e visual do que esta operação faz, você pode executar tensorflow/examples/wav_to_spectrogram para ler um arquivo de áudio e salvar o espectrograma resultante como uma imagem PNG.

Classes aninhadas

aula AudioSpectrogram.Opções Atributos opcionais para AudioSpectrogram

Constantes

Corda OP_NAME O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Métodos Públicos

Saída < TFloat32 >
asOutput ()
Retorna o identificador simbólico do tensor.
Espectrograma de áudio estático
create ( Escopo , Operando <TFloat32> entrada, Long windowSize, Long stride, Options... options)
Método de fábrica para criar uma classe que envolve uma nova operação AudioSpectrogram.
AudioSpectrogram.Options estático
magnitudeSquared (magnitude booleanaSquared)
Saída < TFloat32 >
espectrograma ()
Representação 3D das frequências de áudio como uma imagem.

Métodos herdados

Constantes

String final estática pública OP_NAME

O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Valor Constante: "ÁudioEspectrograma"

Métodos Públicos

Saída pública < TFloat32 > asOutput ()

Retorna o identificador simbólico do tensor.

As entradas para operações do TensorFlow são saídas de outra operação do TensorFlow. Este método é usado para obter um identificador simbólico que representa o cálculo da entrada.

public static AudioSpectrogram create ( Scope scope, Operand < TFloat32 > input, Long windowSize, Long stride, Options... options)

Método de fábrica para criar uma classe que envolve uma nova operação AudioSpectrogram.

Parâmetros
escopo escopo atual
entrada Representação flutuante de dados de áudio.
tamanho da janela Qual a largura da janela de entrada nas amostras. Para maior eficiência, esta deve ser uma potência de dois, mas outros valores são aceitos.
passo Qual deve ser a distância entre o centro das janelas de amostra adjacentes.
opções carrega valores de atributos opcionais
Devoluções
  • uma nova instância do AudioSpectrogram

public static AudioSpectrogram.Options magnitudeSquared (Boolean magnitudeSquared)

Parâmetros
magnitudeQuadrado Seja para retornar a magnitude quadrada ou apenas a magnitude. Usar a magnitude quadrada pode evitar cálculos extras.

saída pública < TFloat32 > espectrograma ()

Representação 3D das frequências de áudio como uma imagem.