AudioSpectrogram

aula final pública AudioSpectrogram

Produz uma visualização de dados de áudio ao longo do tempo.

Os espectrogramas são uma forma padrão de representar informações de áudio como uma série de fatias de informações de frequência, uma fatia para cada janela de tempo. Ao juntá-los em uma sequência, eles formam uma impressão digital distinta do som ao longo do tempo.

Esta operação espera receber dados de áudio como entrada, armazenados como pontos flutuantes no intervalo de -1 a 1, juntamente com uma largura de janela em amostras e um passo especificando até que ponto a janela deve ser movida entre as fatias. A partir disso, ele gera uma saída tridimensional. A primeira dimensão é para os canais na entrada, então uma entrada de áudio estéreo teria dois aqui, por exemplo. A segunda dimensão é o tempo, com sucessivas fatias de frequência. A terceira dimensão possui um valor de amplitude para cada frequência durante esse intervalo de tempo.

Isso significa que o layout, quando convertido e salvo como uma imagem, é girado 90 graus no sentido horário a partir de um espectrograma típico. O tempo desce no eixo Y e a frequência diminui da esquerda para a direita.

Cada valor no resultado representa a raiz quadrada da soma das partes reais e imaginárias de uma FFT na janela atual de amostras. Desta forma, a dimensão mais baixa representa a potência de cada frequência na janela atual, e as janelas adjacentes são concatenadas na próxima dimensão.

Para obter uma visão mais intuitiva e visual do que esta operação faz, você pode executar tensorflow/examples/wav_to_spectrogram para ler um arquivo de áudio e salvar o espectrograma resultante como uma imagem PNG.

Classes aninhadas

aula AudioSpectrogram.Opções Atributos opcionais para AudioSpectrogram

Constantes

Corda OP_NAME O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Métodos Públicos

Saída < TFloat32 >	asOutput () Retorna o identificador simbólico do tensor.
Espectrograma de áudio estático	create ( Escopo , Operando <TFloat32> entrada, Long windowSize, Long stride, Options... options) Método de fábrica para criar uma classe que envolve uma nova operação AudioSpectrogram.
AudioSpectrogram.Options estático	magnitudeSquared (magnitude booleanaSquared)
Saída < TFloat32 >	espectrograma () Representação 3D das frequências de áudio como uma imagem.

Métodos herdados

Da classe org.tensorflow.op.RawOp

booleano final	é igual (objeto obj)
int final	código hash ()
Operação	op () Retorne esta unidade de cálculo como uma única `Operation` .
sequência final	para sequenciar ()

Da classe java.lang.Object

boleano	é igual (objeto arg0)
aula final<?>	getClass ()
interno	código hash ()
vazio final	notificar ()
vazio final	notificar todos ()
Corda	para sequenciar ()
vazio final	espere (long arg0, int arg1)
vazio final	espere (arg0 longo)
vazio final	espere ()

Da interface org.tensorflow.op.Op

ambiente de execução abstrato	env () Retorne o ambiente de execução em que esta operação foi criada.
operação abstrata	op () Retorne esta unidade de cálculo como uma única `Operation` .

Da interface org.tensorflow.Operand

Saída abstrata < TFloat32 >	asOutput () Retorna o identificador simbólico do tensor.
resumo TFloat32	comoTensor () Retorna o tensor neste operando.
forma abstrata	forma () Retorna a forma (possivelmente parcialmente conhecida) do tensor referido pela `Output` deste operando.
Classe abstrata <TFloat32>	tipo () Retorna o tipo de tensor deste operando

Da interface org.tensorflow.ndarray.Shaped

abstrato int	classificação ()
forma abstrata	forma ()
abstrato longo	tamanho () Calcula e retorna o tamanho total deste contêiner, em número de valores.

Constantes

String final estática pública OP_NAME

O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Valor Constante: "ÁudioEspectrograma"

Métodos Públicos

Saída pública < TFloat32 > asOutput ()

Retorna o identificador simbólico do tensor.

As entradas para operações do TensorFlow são saídas de outra operação do TensorFlow. Este método é usado para obter um identificador simbólico que representa o cálculo da entrada.

public static AudioSpectrogram create ( Scope scope, Operand < TFloat32 > input, Long windowSize, Long stride, Options... options)

Método de fábrica para criar uma classe que envolve uma nova operação AudioSpectrogram.

Parâmetros

escopo	escopo atual
entrada	Representação flutuante de dados de áudio.
tamanho da janela	Qual a largura da janela de entrada nas amostras. Para maior eficiência, esta deve ser uma potência de dois, mas outros valores são aceitos.
passo	Qual deve ser a distância entre o centro das janelas de amostra adjacentes.
opções	carrega valores de atributos opcionais

Devoluções

uma nova instância do AudioSpectrogram

public static AudioSpectrogram.Options magnitudeSquared (Boolean magnitudeSquared)

Parâmetros

magnitudeQuadrado	Seja para retornar a magnitude quadrada ou apenas a magnitude. Usar a magnitude quadrada pode evitar cálculos extras.

saída pública < TFloat32 > espectrograma ()

Representação 3D das frequências de áudio como uma imagem.