Estiramiento de tiempo de audio y escala de tono

De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a buscar

La extensión de tiempo es el proceso de cambiar la velocidad o la duración de una señal de audio sin afectar su tono . La escala de tono es lo contrario: el proceso de cambiar el tono sin afectar la velocidad. El cambio de tono es una escala de tono implementada en una unidad de efectos y diseñada para presentaciones en vivo. El control de tono es un proceso más simple que afecta el tono y la velocidad simultáneamente al ralentizar o acelerar una grabación.

Estos procesos se utilizan a menudo para hacer coincidir los tonos y tempos de dos clips pregrabados para mezclar cuando los clips no se pueden volver a ejecutar o muestrear. La ampliación de tiempo se utiliza a menudo para ajustar los anuncios de radio [1] y el audio de los anuncios de televisión [2] para que encajen exactamente en los 30 o 60 segundos disponibles. Se puede utilizar para ajustar material más largo a un intervalo de tiempo designado, como una transmisión de 1 hora.

Remuestreo

La forma más sencilla de cambiar la duración o el tono de una grabación de audio es cambiar la velocidad de reproducción. Para una grabación de audio digital , esto se puede lograr a través de la conversión de frecuencia de muestreo . Desafortunadamente, las frecuencias en la grabación siempre se escalan en la misma proporción que la velocidad, transportando su tono percibido hacia arriba o hacia abajo en el proceso. Disminuir la velocidad de la grabación para aumentar la duración también reduce el tono, acelerarla para una duración más corta también aumenta el tono creando el efecto Chipmunk . Por lo tanto, los dos efectos no se pueden separar cuando se utiliza este método. Una pista de percusión que no contenga instrumentos afinados se puede convertir con una frecuencia de muestreo moderada para ajustar el tempo sin efectos adversos, pero una pista afinada no.

Dominio de la frecuencia

Vocoder de fase

Una forma de estirar la longitud de una señal sin afectar el tono es construir un codificador de voz de fase después de Flanagan, Golden y Portnoff.

Pasos básicos:

  1. calcule la relación instantánea de frecuencia/amplitud de la señal utilizando la STFT , que es la transformada discreta de Fourier de un bloque de muestras corto, superpuesto y con ventanas uniformes;
  2. aplicar algún procesamiento a las magnitudes y fases de la transformada de Fourier (como volver a muestrear los bloques FFT); y
  3. realice una STFT inversa tomando la transformada de Fourier inversa en cada fragmento y agregando los fragmentos de forma de onda resultantes, también llamados superposición y adición (OLA). [3]

El codificador de voz de fase maneja bien los componentes sinusoidales , pero las primeras implementaciones introdujeron una mancha considerable en las formas de onda transitorias ("latidos") en todas las tasas de compresión/expansión no enteras, lo que hace que los resultados sean escalonados y difusos. Las mejoras recientes permiten obtener resultados de mejor calidad en todas las relaciones de compresión/expansión, pero aún persiste un efecto de borrosidad residual.

La técnica del codificador de voz de fase también se puede utilizar para realizar cambios de tono, coros, manipulación de timbre, armonización y otras modificaciones inusuales, todas las cuales se pueden cambiar en función del tiempo.

Sistema de análisis/síntesis sinusoidal (basado en McAulay & Quatieri 1988 , p. 161) [4]

Modelado espectral sinusoidal

Otro método para estirar el tiempo se basa en un modelo espectral de la señal. En este método, los picos se identifican en fotogramas utilizando la STFT de la señal, y las "pistas" sinusoidales se crean conectando picos en fotogramas adyacentes. Luego, las pistas se vuelven a sintetizar en una nueva escala de tiempo. Este método puede producir buenos resultados tanto en material polifónico como de percusión, especialmente cuando la señal se separa en subbandas. Sin embargo, este método es más exigente computacionalmente que otros métodos. [ cita requerida ]

Modelado de un sonido monofónico como observación a lo largo de una hélice de una función con un dominio de cilindro

Dominio del tiempo

SOLA

Rabiner y Schafer en 1978 propusieron una solución alternativa que funciona en el dominio del tiempo : intentar encontrar el período (o de manera equivalente, la frecuencia fundamental ) de una sección dada de la onda usando algún algoritmo de detección de tono (comúnmente el pico de la autocorrelación de la señal , o, a veces , procesamiento cepstral ), y fusionar un período con otro.

Esto se denomina escalado de armónicos en el dominio del tiempo [5] o el método de suma y superposición sincronizada (SOLA) y funciona un poco más rápido que el codificador de voz de fase en máquinas más lentas, pero falla cuando la autocorrelación estima incorrectamente el período de una señal con armónicos complicados (como como piezas orquestales ).

Adobe Audition (anteriormente Cool Edit Pro) parece resolver esto al buscar el período más cercano a un período central que el usuario especifica, que debe ser un múltiplo entero del tempo y entre 30 Hz y la frecuencia de graves más baja.

Esto tiene un alcance mucho más limitado que el procesamiento basado en el codificador de voz de fase, pero se puede hacer mucho menos intensivo en el procesador, para aplicaciones en tiempo real. Proporciona los resultados más coherentes [ cita requerida ] para sonidos de un solo tono, como grabaciones de voz o instrumentos musicales monofónicos.

Los paquetes de procesamiento de audio comerciales de gama alta combinan las dos técnicas (por ejemplo, separando la señal en formas de onda sinusoidales y transitorias), o utilizan otras técnicas basadas en la transformada wavelet o el procesamiento de redes neuronales artificiales [ cita requerida ] , produciendo la más alta estiramiento del tiempo de calidad.

Enfoque basado en marcos

Enfoque basado en tramas de muchos procedimientos TSM

Para preservar el tono de una señal de audio al estirar o comprimir su duración, muchos procedimientos de modificación de escala de tiempo (TSM) siguen un enfoque basado en cuadros. [6] Dada una señal de audio original en tiempo discreto, el primer paso de esta estrategia es dividir la señal en cuadros de análisis cortos de longitud fija. Los marcos de análisis están espaciados por un número fijo de muestras, llamado tamaño de salto de análisis. . Para lograr la modificación real de la escala de tiempo, los marcos de análisis se reubican temporalmente para tener un tamaño de salto de síntesis. . Esta reubicación de cuadro da como resultado una modificación de la duración de la señal por un factor de estiramiento de . Sin embargo, la simple superposición de los marcos de análisis no modificados generalmente da como resultado artefactos no deseados, como discontinuidades de fase o fluctuaciones de amplitud. Para evitar este tipo de artefactos, los cuadros de análisis se adaptan para formar cuadros de síntesis , antes de la reconstrucción de la señal de salida modificada en la escala de tiempo.

La estrategia de cómo derivar los marcos de síntesis de los marcos de análisis es una diferencia clave entre los diferentes procedimientos de TSM.

Audición rápida y habla rápida

Para el caso específico del habla, se puede realizar estiramientos de tiempo usando PSOLA .

El habla comprimida en el tiempo es la representación de un texto verbal en un tiempo comprimido. Si bien se podría esperar que la aceleración reduzca la comprensión, Herb Friedman dice que "los experimentos han demostrado que el cerebro funciona de manera más eficiente si la velocidad de la información a través de los oídos, a través del habla, es la velocidad de lectura 'promedio', que es de aproximadamente 200 a 300 palabras por minuto. (palabras por minuto), sin embargo, la velocidad promedio del habla está en el vecindario de 100 a 150 palabras por minuto". [7]

Escuchar un discurso comprimido en el tiempo se considera el equivalente de la lectura rápida . [8] [9]

Escala de tono

El cambio de tono (escalado de frecuencia) se proporciona en Eventide Harmonizer
El cambio de frecuencia proporcionado por Bode Frequency Shifter no mantiene la relación de frecuencia ni la armonía.

Estas técnicas también se pueden usar para transponer una muestra de audio mientras se mantiene constante la velocidad o la duración. Esto se puede lograr estirando el tiempo y luego volviendo a muestrear a la longitud original. Alternativamente, la frecuencia de las sinusoides en un modelo sinusoidal puede alterarse directamente y la señal puede reconstruirse en la escala de tiempo adecuada.

La transposición se puede llamar escalado de frecuencia o cambio de tono , según la perspectiva.

Por ejemplo, uno podría subir el tono de cada nota una quinta perfecta, manteniendo el mismo tempo. Uno puede ver esta transposición como "cambio de tono", "cambiar" cada nota 7 teclas hacia arriba en un teclado de piano, o agregar una cantidad fija en la escala Mel , o agregar una cantidad fija en el espacio de tono lineal . Uno puede ver la misma transposición como "escalado de frecuencia", "escalado" (multiplicando) la frecuencia de cada nota por 3/2.

La transposición musical conserva las proporciones de las frecuencias armónicas que determinan el timbre del sonido , a diferencia del cambio de frecuencia realizado por la modulación de amplitud , que agrega una compensación de frecuencia fija a la frecuencia de cada nota. (En teoría, se podría realizar una escala de tono literal en la que se escala la ubicación del espacio de tono musical [una nota más alta se desplazaría a un intervalo mayor en el espacio de tono lineal que una nota más baja], pero eso es muy inusual y no musical. [ cita requerida ] )

El procesamiento en el dominio del tiempo funciona mucho mejor aquí, ya que las manchas son menos notorias, pero escalar las muestras vocales distorsiona los formantes en una especie de efecto similar al de Alvin y las ardillas , que puede ser deseable o indeseable. Un proceso que conserva los formantes y el carácter de una voz implica analizar la señal con un codificador de voz de canal o un codificador de voz LPC más cualquiera de varios algoritmos de detección de tono y luego volver a sintetizarla a una frecuencia fundamental diferente.

Se puede encontrar una descripción detallada de las técnicas de grabación analógicas más antiguas para el cambio de tono en la entrada de Alvin and the Chipmunks .

En software de consumo

La extensión de tiempo de audio con corrección de tono se encuentra en todos los navegadores web modernos como parte del estándar HTML para la reproducción de medios. [10] Controles similares son omnipresentes en aplicaciones y marcos de medios como GStreamer y Unity .

Véase también

Referencias

  1. ^ "Dolby, las ardillas y NAB2004" . Archivado desde el original el 27 de mayo de 2008. {{cite magazine}}:Revista Cite requiere |magazine=( ayuda )
  2. ^ "Discurso variable" . www.atarimamagazines.com .
  3. ^ Jont B. Allen (junio de 1977). "Análisis espectral de tiempo corto, síntesis y modificación por transformada discreta de Fourier". Transacciones IEEE sobre acústica, voz y procesamiento de señales . ASSP-25 (3): 235–238.
  4. ^ McAulay, RJ; Quatieri, TF (1988), "Procesamiento del habla basado en un modelo sinusoidal" (PDF) , The Lincoln Laboratory Journal , 1 (2): 153–167, archivado desde el original (PDF) el 21 de mayo de 2012 , consultado en 2014 -09-07
  5. ^ David Malah (abril de 1979). "Algoritmos en el dominio del tiempo para la reducción del ancho de banda armónico y el escalado temporal de las señales de voz". Transacciones IEEE sobre acústica, voz y procesamiento de señales . ASSP-27 (2): 121–133.
  6. ^ Jonathan Driedger y Meinard Müller (2016). "Una revisión de la modificación de la escala de tiempo de las señales musicales" . Ciencias Aplicadas . 6 (2): 57. doi : 10.3390/app6020057 .
  7. ^ Discurso variable , Informática creativa vol. 9, núm. 7 / julio de 1983 / pág. 122
  8. ^ "Escucha podcasts en la mitad del tiempo" .
  9. ^ "iPods a toda velocidad" . Archivado desde el original el 2006-09-02.
  10. ^ "HTMLMediaElement.playbackRate - API web" . MDN . Consultado el 1 de septiembre de 2021 .

Enlaces externos

0.037444114685059