Si los humanos solo pueden escuchar un sonido de frecuencia de hasta 20 kHz, ¿por qué se muestrea el audio de la música a 44,1 kHz?


60

Leí en algunos lugares que la música se muestrea principalmente a 44,1 kHz, mientras que solo podemos escuchar hasta 20 kHz. Por que es


1
Las personas más jóvenes pueden escuchar frecuencias más altas. Otras técnicas de grabación utilizan hasta 48 kHz.
Thorbjørn Ravn Andersen

15
Teorema de Nyquist: necesita dos muestras cada oscilación para determinar la frecuencia de una onda.
mathreadler

Debido a que los procesadores son más rápidos, la memoria es barata, pero los buenos filtros analógicos siguen siendo difíciles, incluso velocidades de muestreo más altas pueden tener sentido (96 o 192 kHz)
Nick T

2
@ ThorbjørnRavnAndersen Creo que 48 kHz es común porque es divisible en 24, 25 y 30 fps utilizados en la producción de video. 24 no entra uniformemente en 44100. Eso es lo que Wikipedia menciona.
Nick T

44
@SohamDe Esto se debe a que si muestreas una señal de audio de 20 kHz a exactamente 20 kHz, no escucharías nada en absoluto . Imagínelo, una onda sinusoidal que alcanza su punto máximo cada 1 / 20,000 segundos. Bueno, si muestreas eso exactamente a la misma velocidad, entonces solo muestrearías los picos (o nodos, o cualquier nivel en el que lo muestres). Entonces, cuando recrea la señal de digital, todo lo que obtiene es una línea plana. Este concepto se llama aliasing y lo hace para que deba muestrear al menos el doble de la frecuencia máxima que desea poder escuchar. 44 100 Hz es conveniente porque es divisible por una potencia de 2.
MichaelK

Respuestas:


89
  1. La frecuencia de muestreo de una señal real debe ser mayor que el doble del ancho de banda de la señal. El audio comienza prácticamente a 0 Hz, por lo que la frecuencia más alta presente en el audio grabado a 44.1 kHz es 22.05 kHz (ancho de banda de 22.05 kHz).
  2. Los filtros perfectos de Brickwall son matemáticamente imposibles, por lo que no podemos cortar perfectamente las frecuencias superiores a 20 kHz. Los 2 kHz adicionales son para la caída de los filtros; es "espacio de maniobra" en el que el audio puede alias debido a filtros imperfectos, pero no podemos escucharlo.
  3. El valor específico de 44.1 kHz era compatible con las velocidades de cuadros de video PAL y NTSC utilizadas en ese momento.

Tenga en cuenta que la justificación se publica en muchos lugares: Wikipedia: ¿Por qué 44.1 kHz?


99
Hola, realmente estoy de acuerdo con tu respuesta, pero lo de "... dos veces la frecuencia más alta" muerde a los principiantes muy pronto, porque Nyquist se trata del ancho de banda, no de la frecuencia más alta; Seguí adelante y modifiqué ligeramente tu respuesta. Por favor, compruebe si está bien con usted.
Marcus Müller

2
@Ruslan: Wikipedia es bastante bueno al respecto.
jojek

2
@BrianDrummond ¿Entonces editarlo?
endolito el

3
@ MarcusMüller, el principiante que ha sido mordido por "Nyqvist es la frecuencia más alta permitida" será mordido de todos modos, aliasando artefactos ... Después de eso, también entenderán cómo cualquier rango de frecuencias de ancho de banda se demodula a uno entre y . Δf0Δf=fs/2
Leftaroundabout

1
Es posible que no se pueda notar la diferencia entre un sonido de 19,999.9Hz con diez armónicos o un sonido de 20,000.1Hz con nueve si uno los escucha por separado, pero eso no significa que una transición entre los dos no sea audible. Tener un filtro con un corte más gradual evitaría tales problemas.
supercat

72

Sony eligió 44.100 porque es el producto de los cuadrados de los primeros cuatro números primos. Esto lo hace divisible por muchos otros números enteros , lo cual es una propiedad útil en el muestreo digital.

44100 = 2^2 * 3^2 * 5^2 * 7^2

Como habrás notado, 44100 también está justo por encima del límite de la audición humana duplicado. La parte anterior les da margen a los filtros, por lo que son menos costosos (menos chips rechazados).

Como Russell señala en los comentarios, el aspecto divisible por muchos otros números enteros tuvo un beneficio inmediato en el momento en que se eligió la frecuencia de muestreo. El audio digital temprano se grabó en medios de grabación de video analógico existentes que admitían, según la región, las especificaciones de video NTSC o PAL . NTSC y PAL tenían diferentes tasas de líneas por campo y campos por segundo, cuyo MCM (junto con las muestras por línea) es 44100 .


12
La elección no fue simplemente obtener muchos factores primos, sino específicamente hacer un buen uso de los equipos de grabación de video NTSC y PAL para almacenar maestros digitales. en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
Russell Borogove

3
@RussellBorogove: Gracias. Según el enlace Wiki, 44100 es el MCM de las tasas de muestra de las tasas de características de video NTSC y PAL . Esa es una consecuencia bastante directa de ser un número con tantos factores, y creo que tienes razón en que el caballo lideró el carro en esta especificación.
dotancohen

1
Divisible por muchos números, pero no por 8 :)
Bogdan Alexandru

(Wikipedia dice que una variedad de velocidades de 40.5 a 46.8 kHz habría cumplido con estos criterios, y se eligió 44.1 kHz para proporcionar una banda de transición para el filtro antiliasing)
endolito

2
@BogdanAlexandru También no es divisible por tramas USB de 1 ms: D
endolito

13

La velocidad de Nyquist es superior al doble del límite de banda de una señal de banda base que desea capturar sin ambigüedad (p. Ej., Aliasing).

Muestree a una velocidad inferior a dos veces 20 kHz, y no podrá distinguir la diferencia entre frecuencias muy altas y muy bajas con solo mirar las muestras, debido al aliasing.

Agregado: Tenga en cuenta que cualquier señal de longitud finita tiene soporte infinito en el dominio de frecuencia, por lo tanto, no está estrictamente limitada en banda. Esta es otra razón más por la que se requiere muestrear cualquier fuente de audio no infinita un poco por encima del doble del espectro de frecuencia más alta (en una señal de banda base) para evitar un alias significativo (más allá de las razones de la caída de transición de filtro finito).


Hola, realmente estoy de acuerdo con tu respuesta, pero lo de "... dos veces la frecuencia más alta" muerde a los principiantes muy pronto, porque Nyquist se trata del ancho de banda, no de la frecuencia más alta; Seguí adelante y modifiqué ligeramente tu respuesta. Por favor, compruebe si está bien con usted.
Marcus Müller

66
@ MarcusMüller, porque los "principiantes" para el muestreo comienzan con el muestreo de señales de banda base y no con señales de banda de paso, realmente se trata de la frecuencia más alta (a veces llamada "límite de banda") y no del ancho de banda (que tiene una ambigüedad adicional con respecto a un lado o dos lados) banda ancha).
robert bristow-johnson

@ robertbristow-johnson no ha mirado esa ambigüedad. Hm; ¡Me gusta el enfoque de bandlimit!
Marcus Müller

3
en el artículo de Wikipedia lo llamamos " " y, aunque Shannon dijo que es suficiente, estaba asumiendo energía finita, por lo que no hay sinusoides (que tienen energía infinita y también pueden poner dirac deltas a ) si permite una sinusoide derecha en la frecuencia , entonces es la más frecuente . f s2 B ± B B f s > 2 BBfs2B±BBfs>2B
robert bristow-johnson

10

Básicamente, el doble del ancho de banda es un requisito común para el muestreo de señal, por lo tanto kHz es un mínimo. Entonces, un poco más es útil para hacer frente a la filtración y cuantificación imperfectas . Los detalles siguen.2×20=40

Lo que necesitas en teoría no es lo que se requiere en la práctica. Esto va junto con la cita (atribuida a muchos):

En teoría no hay diferencia entre teoría y práctica. En la práctica hay.

No soy un experto en audio, pero he sido entrenado por personas de alta calidad de muestreo / compresión de audio. Mi conocimiento puede estar oxidado, tómalo con precaución.

Primero, la teoría de muestreo estándar funciona bajo algunos supuestos: sistemas lineales e invariancia temporal. Entonces, se sabe que un fenómeno continuo de límite de banda, en teoría, posiblemente se muestrea aproximadamente al doble del ancho de banda (o el doble de la frecuencia máxima para señales de banda base) sin pérdida. La "tasa de Nyquist" a menudo se define como:

la velocidad mínima a la que se puede muestrear una señal sin introducir errores

Esta es la parte de análisis del "teorema de muestreo". El "puede ser" es importante. Hay una parte de síntesis: la señal continua " se puede reconstruir" de forma análoga utilizando senos cardinales. Esta no es la única técnica, y no tiene en cuenta el prefiltrado de paso bajo, no lineal (como la cuantización, la saturación) y otros factores de variación temporal.

La audición humana no es un tema simple. Se acepta que los humanos escuchen frecuencias desde 20 Hz hasta 20,000 Hz. Pero tales límites precisos en Hertz no son un rasgo de la naturaleza para todos los humanos. Una pérdida gradual de sensibilidad a frecuencias más altas es frecuente con la edad. Por otro lado:

En condiciones ideales de laboratorio, los humanos pueden escuchar sonidos tan bajos como 12 Hz y tan altos como 28 kHz, aunque el umbral aumenta bruscamente a 15 kHz en adultos.

La audición no es lineal: hay umbrales de audición y sufrimiento . No es invariante en el tiempo. Hay efectos de enmascaramiento tanto en tiempo como en frecuencia.

Si la banda de 20 Hz a 20,000 Hz es un rango común, y una teoría de 40,000 Hz debería ser suficiente en teoría, se necesita un poco más para hacer frente a la distorsión adicional. Una regla general dice que 10% más está bien ( el ancho de banda de la señal) y 44.100 Hz simplemente lo hace. Se remonta a finales de la década de 1970. ¿Por qué no se usan 44,000 Hz? Principalmente debido a los estándares, establecidos por la popularidad de los CD, cuya tecnología siempre se basa en una compensación. Además, 44.100 es el producto de cuadrados de los primeros cuatro números primos ( ), por lo tanto, tiene factores pequeños, beneficiosos para los cálculos (como FFT).2 2 × 3 2 × 5 2 × 7 22.2×22×32×52×72

Entonces, de a (y múltiplos), tenemos un equilibrio en seguridad, cuantización, usabilidad, cálculos y estándares.44.12×2044.1

Existen otras opciones: el formato DAT, por ejemplo, se lanzó con muestreo de 48 kHz, con una conversión inicialmente difícil. 96 kHz se discute con respecto a la cuantización (o profundidad de bits) en ¿Qué frecuencia de muestreo y profundidad de bits debo usar? Este es un tema controvertido, ver 24 bit 48kHz versículos 24 bit 96kHz . Puede consultar las tasas de muestreo de Audacity, por ejemplo.


2
1. La respuesta a la pregunta es que el teorema de Nyquist dicta> 40kHz, no> 20kHz. 2. Ni la audición humana ni el formato de CD están limitados a 20Hz en el extremo inferior. Cualquier órgano de tubos lo suficientemente grande puede producir un tono de 16Hz, y el CD puede reproducirlo fácilmente. Algunos órganos bajan a 8Hz, lo que comienza a percibirse como vibraciones individuales, pero que de nuevo CD puede reproducir.
user207421

Estoy de acuerdo con su comentario, excepto por "dicta" (esta es una condición de "si"). ¿Podría señalar dónde me he desviado?
Laurent Duval

1
Solo tengo un suplemento para la respuesta de @LaurentDuval. El habla, la música y el sonido en general son señales no estacionarias. Aunque estos están efectivamente limitados en banda, aún no sabemos cómo el oído humano está transduciendo la señal de tiempo continuo a disparos nerviosos que facilitan nuestra percepción del sonido. A menudo se argumenta que algunas personas tienen "orejas doradas" y pueden distinguir entre 44.1 kHz y grabaciones de 96 kHz. Además, todavía tengo que confirmar lo siguiente, parece que las tasas de muestreo más altas benefician la percepción de señales adicionales, como la localización en grabaciones binaurales.
Neeks

0

Ya se ha respondido por qué es exactamente 44,1 kHz, pero para centrarse en el aspecto de su pregunta relacionado con el límite de la percepción humana, la razón es bastante simple.

La resolución en el tiempo debe ser lo suficientemente fina como para poder generar todas las formas de onda posibles hasta el límite que sea perceptible. Según el teorema de muestreo , la resolución debe ser tal que la frecuencia de muestreo sea al menos el doble de esta frecuencia. Intuitivamente, a la frecuencia más alta, necesita al menos 2 puntos para representar el máximo y el mínimo de su señal, dando esta onda cuadrada Ascii-art:

_   _
 |_| |_

-1

Para reproducir fielmente una señal, cuanto más rápida sea la frecuencia de muestreo, mejor. Se eligió ~ 40 kHz, porque era una frecuencia de muestreo baja para la que la mayoría de las personas no puede notar la diferencia (cuando se reconstruye). Cuando se introdujo el muestreo de audio, la memoria y el almacenamiento eran caros y no era posible obtener tasas de muestreo más altas.

Al duplicar el límite superior de la audición humana, dos muestras por ciclo es una reconstrucción muy pobre, incluso si cumple con los criterios de Nyquist para las señales de muestreo, un gráfico simple que representa una onda sinusoidal con dos muestras por ciclo le mostrará cuán pobres son dos muestras por ciclo en la reproducción de una forma de onda. Literalmente puede convertir una onda sinusoidal en onda cuadrada; Es algo bueno a 20 kHz que nadie puede decir. Apuesto a que un perro podría hacerlo.