¿Qué es el pulso y qué es el audio?

El pulso es una forma de onda formada por el impacto de los pulsos. Se puede dividir en muchos tipos y puede controlar circuitos analógicos y digitales. Los más comunes son el pulso de kilometraje del coche y el control PAM del inversor.

Creemos que sabemos qué es el audio, pero lo que sabemos sobre el audio nunca cambiará. Por supuesto, muchos cambios se anunciaron pero nunca llegaron (y algunos llegaron pero no fueron anunciados). En el país del audio, el audio MPEG-4 puede ser simplemente una provincia remota. Por otro lado, la tecnología de la comunicación está cambiando nuestras vidas de maneras que no hubiéramos imaginado hace cinco o diez años. El audio tal como lo conocemos, incluido el MP3 y otros formatos de datos comprimidos, puede terminar convirtiéndose en un pasatiempo para unos pocos.

Antes de discutir este tema, también podríamos presentar algunos conocimientos sobre MPEG-4 y su relación con el vídeo. En primer lugar, no existe ningún MPEG-3: MPEG-2 ya contiene algunas de las funciones diseñadas originalmente para MPEG-3. En segundo lugar, MP3 es el componente de sonido de MPEG-1 y MPEG-2, no existe ningún MP4.

La idea básica de varios sistemas MPEG es codificar señales de audio y vídeo de una manera que ahorre ancho de banda y cumpla con los requisitos de almacenamiento de datos. Todavía recuerdo mi reacción inicial cuando supe por primera vez que era posible codificar audio con calidad cercana a un CD utilizando una codificación equivalente a 4 bits; mi reacción inicial fue de escepticismo. ¡MP3 ahora puede lograr este objetivo con aproximadamente 1,6 bits! MP3 permite transmitir audio a través de Internet. De lo contrario, el audio sería un extraño en Internet y las compañías discográficas podrían seguir durmiendo. MPEG-2 convirtió los fantásticos vídeos en DVD en un gran éxito y rápidamente se hizo popular. Sin embargo, todavía existe una necesidad subyacente de transmitir más contenido, especialmente tecnología de telefonía móvil de próxima generación que permite a los teléfonos móviles pequeños acceder a Internet, incluida la transmisión de vídeo. Esta tecnología se desarrollará a un ritmo increíble en los próximos años. Aunque el ancho de banda de los teléfonos móviles aumentará, los datos de audio y vídeo deben comprimirse aún más, lo que crea la necesidad de MPEG-4.

Lo más importante es recordar a todos que MPEG-4 no sustituye a MPEG-2. Tiene funciones completamente diferentes. Digo "lo más importante" porque muchas personas pueden malinterpretar MPEG-4 como un reemplazo de MPEG-2, y debido a la popularidad de MPEG-2, algunos dirán "estamos satisfechos con lo que es MPEG-2 ahora". MPEG-2 tiene un futuro largo y seguro. MPEG-4 no reemplaza ninguna funcionalidad existente de MPEG-2.

Audio natural

MPEG-4 divide inteligentemente el audio en dos categorías: audio natural y audio estructurado. Lo que conocemos es audio natural, incluido MP3 y otros formatos de compresión de datos. El audio estructurado es algo completamente desconocido para nosotros, incluso aterrador. Hablemos primero del concepto inicial.

La palabra más de moda en los últimos 10 años es "escalabilidad". Si un sistema no se escala, es posible que tenga varios sistemas incompatibles al mismo tiempo. En términos de audio o vídeo, un sistema escalable significa que la señal se puede transmitir a un receptor barato (quizás principalmente un teléfono desechable hecho de cartón), que captará la parte de la señal con poco ancho de banda, o capa base. Sin embargo, la transmisión contiene más capas: capas de mejora, donde se pueden utilizar receptores de mayor nivel para proporcionar una mejor calidad. Comparemos la transmisión simultánea. La transmisión simultánea comenzó cuando no había un sonido estéreo decente en la televisión. En ocasiones las actividades de radiodifusión deben realizarse simultáneamente a través de televisión y radio FM estéreo. Si el ancho de banda tuviera un santo patrón, le alegraría ver que los días en que se despilfarraba el ancho de banda han quedado atrás. Que el ancho de banda se utilice correctamente o se desperdicie depende principalmente del contenido, pero ese es otro tema.

El audio natural se subdivide en audio general y voz. Por ejemplo, el audio general puede ser música, que obviamente requiere un mayor ancho de banda que el habla porque a menudo transmite principalmente su contenido de información. Para señales de la más alta calidad, es decir, desde Beyond AM hasta Transparent (posiblemente más translúcido para profesionales del audio y otros oyentes exigentes), el Advanced Audio Codec (MPEG-2 AAC): ha estado disponible como una mejora del MP3 estándar desde hace algún tiempo.

Esto cubre velocidades de bits desde 16 kb/s hasta más de 64 kb/s por canal. Los sistemas MP3 y MPEG-2 AAC descartan información que es inaudible para el oído humano y retienen sólo información que es audible para el oído humano. Algunos aspectos se comprenden bien y vale la pena mencionarlos aquí, ya que abarca técnicas más complejas.

1. La codificación estéreo conjunta se utiliza cuando las señales estéreo en ambos canales generalmente contienen esencialmente los mismos datos. Por ejemplo, la señal más importante en una imagen estereoscópica se beneficiará de la codificación MS. La señal S aquí transmite muy poca información y se puede describir con muy pocos bits. Un "subproducto" útil es que el ruido de cuantificación en los dos canales está correlacionado de modo que está en el centro de la imagen de sonido y queda enmascarado en su mayor parte por el componente M de la señal.

2. La codificación de la intensidad del sonido depende de la relativa insensibilidad del oído humano a la información de fase por encima de 2 kHz. Por lo tanto, la señal se puede codificar basándose en la suma izquierda-derecha, así como en información direccional. La codificación de la intensidad del sonido tiene pérdidas, por lo que es más adecuada para aplicaciones de baja tasa de bits.

3. La conformación del ruido temporal es una nueva característica de AAC, que afecta a señales como el habla, cambiando así significativamente los niveles en el bloque de información. Además, el ruido de cuantificación es constante en cada bloque de información, por lo que la distorsión es audible. La configuración de ruido temporal moldea el ruido de cuantización a lo largo del tiempo para reducir este efecto.

4. Los partidarios de la tecnología de sustitución del ruido perceptual creen que un tipo de ruido es muy similar a otro para el sistema auditivo humano. Por lo tanto, si se descubre que alguna banda de frecuencia contiene datos similares a ruido (casi dije "información similar a ruido", lo cual es completamente contradictorio), se puede reemplazar por ruido generado localmente. El uso reciente de este método para comprimir datos de la banda sonora de Limp Bizkit a menos de un kilobyte es una completa tontería.

Echemos un vistazo a TwinVQ nuevamente. Es un códec adecuado para señales de audio ordinarias (incluida la música) con una tasa de bits muy baja (menos de 16 kb/s por canal). TwinVQ extrae los factores de escala y los datos espectrales de AAC y aplica la cuantificación vectorial (VQ). Hasta ahora, no hemos encontrado un método eficaz que nos dé una explicación razonable, por lo que solo puedo decir que la eficiencia de codificación es mayor que la de AAC y es muy fácil de usar. La desventaja es que siempre hay una cierta pérdida de calidad de sonido subjetiva.

Los principios de la codificación de voz son fáciles de entender (ahora excluimos la música y eliminamos el audio en general), aunque la practicidad es tan compleja como antes. Podemos comparar el tracto vocal de una persona con una fuente de sonido (garganta) y un filtro (garganta, boca y labios, etc.). En los códecs HVXC (Harmonic Vector Excited Coding) y CELP (Coded Excited Linear Prediction), hay voces. modelos de canales tanto en el codificador como en el decodificador. Primero, se utiliza un codificador para sintetizar una señal similar a la del habla. Luego se compara con la señal original y el conjunto de parámetros generado. Repita este proceso para optimizar el sintetizador y transferir los parámetros cuantificados y comprimidos. El decodificador recupera los parámetros y los utiliza para manipular el modelo de canal, un modelo similar a aquel del que se extrajeron los parámetros. Las velocidades de bits para HVXC y CELP varían según los requisitos de la señal. La velocidad de bits de HVXC es de 2 kb/s o 4 kb/s, lo que definitivamente es demasiado pequeño. CELP varía de 3,85 kb/s a 23,8 kb/s en pasos tan bajos como 200 kb/s. HVXC y CELP son extensibles, por lo que son las capas base en el transporte, mientras que TwinVQ o AAC pueden ser capas de mejora.

Audio Estructurado

Puedes ver que nadie puede oírte en el ciberespacio. Luego continúa usando tu imaginación...

Puedes pensar en el punto de partida del audio estructurado como un archivo MIDI general de una cinta de audio pregrabada de música popular comprada a una empresa profesional. Cargue este archivo en su secuenciador, conecte su módulo GM y su karaoke estará listo en poco tiempo. Es cierto que las cintas pregrabadas no serán exactamente iguales a las originales, e incluso diferentes módulos GM tienen sonidos diferentes, pero todas son música tocada con instrumentos similares (versión de muestra), y al menos la calidad del sonido es bueno. Es fácil pensar en esto, pero no es fácil pensar que dentro de unos años gran parte del procesamiento de audio se podrá realizar de esta manera. El audio estructurado adopta un enfoque completamente diferente al problema del ancho de banda.

Reduce la cantidad de datos necesarios para transmitir audio enviando una descripción del evento de audio en lugar del tipo de datos comprimidos del evento de audio en sí.

Regresemos y veamos preguntas similares. El sonido puede transmitirse mediante un codificador de entropía o comprimirse y almacenarse. Esto significa que la cantidad de código redundante se reduce o elimina, pero los datos significativos permanecen intactos y pueden reorganizarse completamente durante la reproducción. El embalaje Meridian sin pérdidas recomendado por DVD-Audio es un ejemplo de ello. Este es un buen enfoque, pero la mayoría de nosotros vivimos en situaciones del mundo real en las que es difícil obtener suficiente ancho de banda. MPEG AAC es un codificador perceptivo. Los oídos y cerebros humanos de los que depende simplemente no pueden o no necesitan procesar toda la información de audio y simplemente encuentran datos innecesarios y los descartan. HVXC y CELP mencionados anteriormente son códecs basados ​​en modelos que pueden analizar y sintetizar un subconjunto muy pequeño de posibles tipos de sonido, es decir, el habla humana. El objetivo de todos estos sistemas es eliminar información redundante o duplicada. Pero el problema persiste. ¿Cómo podemos determinar con precisión qué información es redundante? El ejemplo de Universal MIDI dado anteriormente es un enfoque sin concesiones, que es el punto de partida para el audio estructurado. En las partes tradicionales que no se ven afectadas por la digitalización, la tecla "G" se puede tocar en el piano. El piano puede ser un Steinway, un Beckstein, un Bosendorfer o un Brousner, o incluso un Yamaha. El pianista podría ser Askenazy, Brendel o Bill Ivens, y la sala de conciertos podría estar en el Royal Festival Hall, Wigmore Hall o Camegie Hall. Se puede usar un micrófono para... Creo que entiendes lo que quiero decir. Pero MIDI puede comprimir esto en tres bytes de datos, que luego se pueden recuperar usando cualquier número de programas acústicos de piano usando el módulo GM. Pero se pierde mucho contenido.

El MIDI general puede contener punteros a información estructurada relacionada con el audio, pero esto está lejos de ser suficiente. Siguiendo con el ejemplo del piano, por ejemplo, el audio estructurado podría transmitir una tecla "G" universal, pero luego codificar varios parámetros que describen diferentes formas de tocar y grabar notas. En realidad, esto es más eficiente y más flexible. Un códec simple sólo puede describir algunos parámetros, como el volumen, si se presiona el pedal sobre otra cuerda para producir * * * vibración. Los códecs más complejos incluyen casi todos los parámetros relacionados con las notas y pueden analizarse. La gama de tonos posibles en el audio estructurado es principalmente responsabilidad del codificador. Con un decodificador con suficiente potencia informática, cualquiera puede disfrutar de una calidad de sonido mejorada.

El audio estructurado existe desde hace bastante tiempo, pero parece que MPEG-4 marcó el comienzo de la era del audio estructurado. Así es como funciona: el flujo codificado MPEG-4 SA tiene un encabezado al principio que contiene una larga sinfonía. Esta larga sinfonía suena como un novedoso cereal para el desayuno. Aparece en forma de varios instrumentos, pero en realidad son datos que describen el instrumento que reproducirá la música contenida en el flujo de código (en realidad, una expresión algorítmica del instrumento). Esta sinfonía a gran escala está escrita como "SAOL" (lenguaje sinfónico de audio estructurado). Por ejemplo, cada instrumento musical contiene un modelo físico del generador de sonido, como las teclas de un piano. Además, los instrumentos pueden contener datos de muestra, así como instrucciones y parámetros que describen cómo reproducir el sonido y cómo cambia el sonido. El flujo de código en sí contiene eventos cronometrados. Lo que a su vez está relacionado con el tema. Por ejemplo, un evento podría explicar el patrón físico de tocar una cuerda (como se describe en la pregunta) y ahora comenzar a tocar la tecla "A" en voz alta y con cierta moderación. O podrías tocar algo para un instrumento de viento. El flujo de código puede requerir que el tono sea cada vez más alto, y en algunos lugares se requiere vibrato. También se puede describir la profundidad y frecuencia del vibrato. Esta es una mejora con respecto al MIDI general. En GM, el sonido exacto no está etiquetado, sólo "piano" o "flauta". Los sonidos exactos están marcados en Audio Estructurado. La flauta SA (cuando se programa en SAOL) puede parecer poco realista, pero al menos es la forma en que la audiencia la percibirá, y es la forma en que los creadores de contenido la quieren, o al menos la forma en que se aprueba.

Este es un concepto importante a considerar. Pero en el pasado, el MIDI general siempre se ha ignorado como decoración relacionada con una pequeña parte del campo del audio, por lo que es difícil medir la importancia del audio estructurado.

Pero sé dos cosas con seguridad. En primer lugar, el ancho de banda no será demasiado bajo para que lo utilice la gente. El audio estructurado puede transmitir contenido en anchos de banda tan bajos como 10 b/s/s, adecuados para contraste ambiental o graves, correspondientes a al menos 10 kb/s donde el audio natural comienza a ser reemplazado (en cualquier caso, por encima de 10 kb/s el flujo de bits SA puede comienza a exceder la potencia de procesamiento requerida por el hardware del decodificador). En segundo lugar, el audio estructurado puede convertirse en una tecnología de producción completamente nueva, completamente diferente de la grabación ordinaria y la secuenciación MIDI. Sería prudente no subestimar este desafío. La posibilidad de obtener audio de alta calidad a velocidades de bits muy bajas y la comprensión del arte (no sólo de la tecnología) de las combinaciones que resultan de esta posibilidad hacen del audio estructurado un nuevo medio por derecho propio.

Nuevos medios de audio

Ahora podemos pensar un poco. Hay mucho que decir sobre la gama ampliada de audio estructurado. Pero ahora algunos hechos son ciertos.

Actualmente, no es posible cambiar las grabaciones existentes a un formato de audio estructurado. Imagínese cómo sería si existiera una herramienta que pudiera extraer el oboe de una grabación sinfónica completa mezclada en estéreo. Quizás se pueda hacer en el futuro, pero está lejos de lograrse en este momento. En otras palabras, la producción de audio estructurado debe empezar desde cero. Tomemos el ejemplo de una orquesta. Es decir, puede cargar la partitura en un codificador SA ideal que ya esté programado para todos los instrumentos orquestales comunes. Tal vez puedas comprar una flauta de nariz tibetana u otro instrumento raro como complemento. Luego, el codificador crea toda la información de sonido que se asemeja al instrumento real y la coloca en el encabezado del flujo de bits SA, colocando las notas y la expresividad de la interpretación en el flujo de bits. El funcionamiento del codificador es técnicamente bastante simple y artísticamente bastante complejo. Durante el proceso esperado de transmitir el flujo de código al decodificador, el sonido que escucha la audiencia y el sonido que escucha el creador son los mismos, pero al final del proceso. cadena de escucha. La fase de simulación ha cambiado. Tenga en cuenta que la orquesta y los músicos "reales" son redundantes por alguna razón, sólo para ahorrar ancho de banda. La producción de música pop, que es crucial para conseguir el sonido o el ritmo vocal adecuado, se verá revolucionada. Ya no basta con conseguir un sonido excelente y grabarlo en una cinta o en un disco duro. Los sonidos deben sintetizarse en instrumentos SA y luego fusionarse en el flujo de bits. No hay duda de que el audio estructurado no eliminará por completo las tecnologías tradicionales, que aún se pueden utilizar. En el futuro previsible, será imposible convertir cualquier audio que no tenga audio estructurado.