Contenido
La digitalización está basada en una tecnología que se ha desarrollado con éxito para la transmisión de voz y video. La telefonía fija y la celular manejan esta tecnología pero cada uno tiene sus propios codificadores. Como sabemos la mejor calidad de audio la tiene todavía la comunicación telefónica, la celular es buena pero como todos hemos notado nuestro cerebro necesita hacer un mayor esfuerzo para entender una conversación por un teléfono celular, de ahí que no se debe conducir y hablar por el celular a la vez.
Las centrales IP utilizan codificadores diferentes para poder transmitir por la web, ya que estos deben de utilizar el menor ancho de banda posible. Como sabemos el primer paso para cada conexión de VoIP es la digitalización, convirtiendo las señales analógicas en paquetes digitales. Esto se puede hacer en varias maneras; La forma más fácil es tomar un muestreo de frecuencias con una proporción fija que sea lo suficientemente alta para captar todas las frecuencias necesarias, luego dividimos la fuerza de la señal en varios niveles. Por ejemplo, 8000 Hz y 256 niveles de muestreo es una configuración fija muy común. De esta manera, la señal es escaneada y digitalizada por medio de un convertidor de analógico a digital o ADC la cual muestrea la data en la frecuencia fija con una profundidad de 8 bits. Los datos son enviados sin comprimir, la otra parte los decodifica con un convertidor de digital a analógico o DAC. La combinación de 8 kilohercios y la profundidad de muestreo de 8 bits es buena para sustituir a las conversaciones normales de telefonía. Las comunicaciones en telefonía se llevan a cabo en frecuencias entre aproximadamente 500 y 3500 Hz a 256 niveles diferentes por lo cual es suficiente para proporcionar una buena calidad.
Pero, la calidad tiene un precio en VoIP. El muestreo de datos sin comprimir a esta proporción genera un flujo continuo de datos de 8 kbytes/seg. Esto no es gran cosa para los anchos de banda de países desarrollados, pero puede ser demasiado para conexiones de Internet más lentas, o peor aún a través de una conexión de internet móvil. Por lo tanto se han hecho varios intentos de reducir el número de kilobytes por segundo necesarios para lograr una calidad de voz aceptable.
Esto puede en principio, lograrse de varias maneras. Usted puede reducir la frecuencia de muestreo un poco, pero esto tiene un efecto negativo debido a que las frecuencias más altas se filtran. De acuerdo con el Teorema de muestreo de Nyquist-Shannon, que se remonta a 1928, mucho antes de que hubiera VoIP o incluso en Internet, no es posible digitalizar las señales en una frecuencia de muestreo inferior a 2 veces la frecuencia más alta en el espectro. La reducción de la tasa de muestreo de 4000 Hz, por ejemplo, reduciría el máximo permitido de frecuencia en la señal analógica a 2000 Hz, que es muy por debajo de las frecuencias que son comunes en el habla, de mujeres y niños. Por lo tanto la reducción de la frecuencia de muestreo puede ayudar un poco en la reducción de la asignación de ancho de banda de la aplicación de VoIP, pero en una pequeña proporción.
Otro enfoque es, por tanto, reducir el número de bits necesarios para almacenar una muestra de datos. Como se mencionó anteriormente, 8 bits de codificación dará una calidad razonablemente alta para una señal en una conversación. La reducción del número a 4 reduciría el ancho de banda utilizado en un 50 %. Lamentablemente, esta reducción también tiene un precio. Con 8 bits, hay 256 niveles de señal posible. La decodificación de la señal nuevamente a analógica origina una leve señal donde el paso de un nivel a otro es menor del 0,5 % del valor de la señal de pico a pico. A pesar de ser una distorsión del 0,5 % puede ser audible, el discurso seguirá siendo comprensible y la mayoría de las personas que no son meticulosas no lo detectaran.
Con una profundidad de 4 bits, la codificación de la señal solo tendrá 16 niveles diferentes disponibles. Esto no es mucho. Cada paso en la conversión de digital a analógica será de un 7 %, que es linealmente dividido entre el máximo pico de intensidad de señal posible. Imaginen que alguien está hablando en voz baja en su teléfono donde su fuerza de señal no será más del 25 % del pico, en este caso la codificación digital es casi binaria, generando un sonido enlatado del lado para el receptor. La reducción de la profundidad de muestreo con un 50 %, de 8-4 bits da una degradación de la calidad de un factor de 16. Esto tampoco es lo que queremos.
Una solución para combatir el problema de la mala calidad de voz con un volumen bajo de señal es no dividir el gráfico de intensidad de la señal en 16 niveles de igualdad, sino tener más niveles en torno a la línea cero y menos cerca de los niveles de volumen máximo. Un enfoque común consiste en utilizar una escala logarítmica en lugar de una escala lineal. Las escalas logarítmicas no son extrañas en esta aplicación, ya que nuestros oídos raramente escuchan diferencias de volumen en una escala logarítmica. Diez veces más volumen en términos de energía se escuchan como cerca de dos veces más alto para el oído humano.
Otra solución es usar algoritmos de adaptación que dividen la señal linealmente, pero no entre los valores máximos posibles de la señal de pico a pico, sino entre los valores reales de la señal. Si alguien está hablando a un volumen bajo, estos algoritmos de forma automática aumentar la señal y el error de cuantificación de la señal nunca es mucho más de 7 % a 4 bits de profundidad de muestreo. A veces se puede escuchar este tipo de acondicionamiento de señales en las líneas con ruido, donde los niveles de ruido aumenta en medio de palabras o frases. Esto es porque el algoritmo de muestreo amplificar las señales de bajo volumen, incluso si no hay presencia de señal real. La amplificación del ruido en la línea se escuchara en el extremo del receptor.
Ahora la mejor manera de reducir las necesidades de ancho de banda para una aplicación de VoIP esta en el uso de un protocolo propietario de baja pérdida de compresión (low-loss). Todos sabemos que es una compresión ya que lo vemos en nuestros PCs. Las aplicaciones como ZIP reducen el tamaño de los archivos mediante el análisis de patrones de bits y el cálculo de patrones de bits alternativos y tablas de conversión que ocupan menos espacio que el archivo original, estas técnicas de compresión que se utiliza en la compresión ZIP se llaman (no-loss) no-pérdida, ya que es posible extraer los archivos originales de la versión comprimida sin pérdida de información. Otras técnicas son de baja pérdida y aceptan algunas pérdidas de información en el aumento de la compresión. La compresión low-loss de baja pérdida se utiliza a menudo en la compresión de imágenes como la del formato JPG. La versión sin comprimir se parece a la original, pero en estrecha observación pueden ver los artefactos causados por el algoritmo de compresión. Este tipo de algoritmo funciona mejor si se desarrolla con conocimiento de los datos a comprimir. Han desarrollado algoritmos de compresión específicos para la compresión de voz que cuentan con baja pérdida combinada con una asignación de ancho de banda muy reducido. La compresión en los teléfonos móviles es un ejemplo de ello.
The CODEC is the workhorse of VoIP compression
With so many different ways that digitized voice can be encoded and then sent over a digital line, VoIP applications must know what encoding method the other party uses in order to make a successful connection. This is achieved by allowing encoding and decoding to be carried out using standard hardware or software, these codecs encode or decode. Codecs are used in many applications, including video, but now we will focus solely on codecs that can be used with VoIP.
Of course, there are several dozen codecs in the industry, the most advanced of which are paid which makes them not very common, but I will limit myself to these four as they are the best known and available in most VoIP applications. The number of new abbreviations is incredible, so first I'm going to give some explanations.
MOST COMMON CODECS IN VoIP
NAME ; G.711,
COMPRESSION ; A-law and u-law,
BITRATE(Kbps) ; 64,
APPLICATION ; Telephony in general.
NAME ; G.726,
COMPRESSION ; ADPCM,
BITRATE(Kbps) ; 16,24,32 and 40,
APPLICATION ; DECT International telephony.
NAME ; GSM 06.10 FR,
COMPRESSION ; ADPCM,
BITRATE(Kbps) ; 13.2,
APPLICATION ; Original GSM codec.
NAME ; G.729,
COMPRESSION ; CS-ACELP,
BITRATE(Kbps) ; 8,
APPLICATION ; VoIP over slow Internet connections.
ITU-T Standards G.711, G.726 and G.729.
Standardization is important for two VoIP applications to communicate with each other. Fortunately, the telecommunications sector has always felt the need to standardize protocols and the exchange of information and the first official organization for this dates back to 1865, the ITU or International Telegraph Union. This organization became an official agency of the United Nations in 1947. The ITU standardization body evolved into the CCITT or International Telephone and Other Telegraph Consultative Committee in 1956 and was finally renamed ITU-T in 1993. The CCITT abbreviation is still used in many places, for example when talking about CRC calculation algorithms.
The ITU-T has defined a series of voice compression algorithms that are used in national and international telephone communications. All of these compression standards are named by the letter G followed by a number. As a general rule, it can be said that the numbering of the standard gives the sequence of the standards, and that higher numbers, in general, define technical compression standards as more complex that require greater computing effort than standards with a lower number, but have better quality in the ratio between voice and bandwidth.
The A-Law and the PCM of the μ-law.
The G.711 compression standard allows two ways to compress incoming voice data. These two compression formats are often called A-law and μ-law. Both compression standards use PCM or pulse-code modulation as the database sampling method. With PCM data is sampled at regular intervals. G.711 uses a PCM frequency of 8 kHz which translates to 8,000 samples per second. Each sample has a depth of 13 bits (A-law) or 14 bits (μ-law), providing high initial quality with only small errors present due to signal quantization. The use of A-law and μ-law compressions is primarily geographically defined. In North America and Japan, μ-law is mainly used, and in the rest of the world A-law is used. There are also slight algorithmic differences that make the A-law an easier law to apply with fewer computing resources than those used in its counterpart the μ-law.