Contenido
La digitalización está basada en una tecnología que se ha desarrollado con éxito para la transmisión de voz y video. La telefonía fija y la celular manejan esta tecnología pero cada uno tiene sus propios codificadores. Como sabemos la mejor calidad de audio la tiene todavía la comunicación telefónica, la celular es buena pero como todos hemos notado nuestro cerebro necesita hacer un mayor esfuerzo para entender una conversación por un teléfono celular, de ahí que no se debe conducir y hablar por el celular a la vez.
Las centrales IP utilizan codificadores diferentes para poder transmitir por la web, ya que estos deben de utilizar el menor ancho de banda posible. Como sabemos el primer paso para cada conexión de VoIP es la digitalización, convirtiendo las señales analógicas en paquetes digitales. Esto se puede hacer en varias maneras; La forma más fácil es tomar un muestreo de frecuencias con una proporción fija que sea lo suficientemente alta para captar todas las frecuencias necesarias, luego dividimos la fuerza de la señal en varios niveles. Por ejemplo, 8000 Hz y 256 niveles de muestreo es una configuración fija muy común. De esta manera, la señal es escaneada y digitalizada por medio de un convertidor de analógico a digital o ADC la cual muestrea la data en la frecuencia fija con una profundidad de 8 bits. Los datos son enviados sin comprimir, la otra parte los decodifica con un convertidor de digital a analógico o DAC. La combinación de 8 kilohercios y la profundidad de muestreo de 8 bits es buena para sustituir a las conversaciones normales de telefonía. Las comunicaciones en telefonía se llevan a cabo en frecuencias entre aproximadamente 500 y 3500 Hz a 256 niveles diferentes por lo cual es suficiente para proporcionar una buena calidad.
Pero, la calidad tiene un precio en VoIP. El muestreo de datos sin comprimir a esta proporción genera un flujo continuo de datos de 8 kbytes/seg. Esto no es gran cosa para los anchos de banda de países desarrollados, pero puede ser demasiado para conexiones de Internet más lentas, o peor aún a través de una conexión de internet móvil. Por lo tanto se han hecho varios intentos de reducir el número de kilobytes por segundo necesarios para lograr una calidad de voz aceptable.
Esto puede en principio, lograrse de varias maneras. Usted puede reducir la frecuencia de muestreo un poco, pero esto tiene un efecto negativo debido a que las frecuencias más altas se filtran. De acuerdo con el Teorema de muestreo de Nyquist-Shannon, que se remonta a 1928, mucho antes de que hubiera VoIP o incluso en Internet, no es posible digitalizar las señales en una frecuencia de muestreo inferior a 2 veces la frecuencia más alta en el espectro. La reducción de la tasa de muestreo de 4000 Hz, por ejemplo, reduciría el máximo permitido de frecuencia en la señal analógica a 2000 Hz, que es muy por debajo de las frecuencias que son comunes en el habla, de mujeres y niños. Por lo tanto la reducción de la frecuencia de muestreo puede ayudar un poco en la reducción de la asignación de ancho de banda de la aplicación de VoIP, pero en una pequeña proporción.
Otro enfoque es, por tanto, reducir el número de bits necesarios para almacenar una muestra de datos. Como se mencionó anteriormente, 8 bits de codificación dará una calidad razonablemente alta para una señal en una conversación. La reducción del número a 4 reduciría el ancho de banda utilizado en un 50 %. Lamentablemente, esta reducción también tiene un precio. Con 8 bits, hay 256 niveles de señal posible. La decodificación de la señal nuevamente a analógica origina una leve señal donde el paso de un nivel a otro es menor del 0,5 % del valor de la señal de pico a pico. A pesar de ser una distorsión del 0,5 % puede ser audible, el discurso seguirá siendo comprensible y la mayoría de las personas que no son meticulosas no lo detectaran.
Con una profundidad de 4 bits, la codificación de la señal solo tendrá 16 niveles diferentes disponibles. Esto no es mucho. Cada paso en la conversión de digital a analógica será de un 7 %, que es linealmente dividido entre el máximo pico de intensidad de señal posible. Imaginen que alguien está hablando en voz baja en su teléfono donde su fuerza de señal no será más del 25 % del pico, en este caso la codificación digital es casi binaria, generando un sonido enlatado del lado para el receptor. La reducción de la profundidad de muestreo con un 50 %, de 8-4 bits da una degradación de la calidad de un factor de 16. Esto tampoco es lo que queremos.
Una solución para combatir el problema de la mala calidad de voz con un volumen bajo de señal es no dividir el gráfico de intensidad de la señal en 16 niveles de igualdad, sino tener más niveles en torno a la línea cero y menos cerca de los niveles de volumen máximo. Un enfoque común consiste en utilizar una escala logarítmica en lugar de una escala lineal. Las escalas logarítmicas no son extrañas en esta aplicación, ya que nuestros oídos raramente escuchan diferencias de volumen en una escala logarítmica. Diez veces más volumen en términos de energía se escuchan como cerca de dos veces más alto para el oído humano.
Otra solución es usar algoritmos de adaptación que dividen la señal linealmente, pero no entre los valores máximos posibles de la señal de pico a pico, sino entre los valores reales de la señal. Si alguien está hablando a un volumen bajo, estos algoritmos de forma automática aumentar la señal y el error de cuantificación de la señal nunca es mucho más de 7 % a 4 bits de profundidad de muestreo. A veces se puede escuchar este tipo de acondicionamiento de señales en las líneas con ruido, donde los niveles de ruido aumenta en medio de palabras o frases. Esto es porque el algoritmo de muestreo amplificar las señales de bajo volumen, incluso si no hay presencia de señal real. La amplificación del ruido en la línea se escuchara en el extremo del receptor.
Ahora la mejor manera de reducir las necesidades de ancho de banda para una aplicación de VoIP esta en el uso de un protocolo propietario de baja pérdida de compresión (low-loss). Todos sabemos que es una compresión ya que lo vemos en nuestros PCs. Las aplicaciones como ZIP reducen el tamaño de los archivos mediante el análisis de patrones de bits y el cálculo de patrones de bits alternativos y tablas de conversión que ocupan menos espacio que el archivo original, estas técnicas de compresión que se utiliza en la compresión ZIP se llaman (no-loss) no-pérdida, ya que es posible extraer los archivos originales de la versión comprimida sin pérdida de información. Otras técnicas son de baja pérdida y aceptan algunas pérdidas de información en el aumento de la compresión. La compresión low-loss de baja pérdida se utiliza a menudo en la compresión de imágenes como la del formato JPG. La versión sin comprimir se parece a la original, pero en estrecha observación pueden ver los artefactos causados por el algoritmo de compresión. Este tipo de algoritmo funciona mejor si se desarrolla con conocimiento de los datos a comprimir. Han desarrollado algoritmos de compresión específicos para la compresión de voz que cuentan con baja pérdida combinada con una asignación de ancho de banda muy reducido. La compresión en los teléfonos móviles es un ejemplo de ello.
O CODEC é o carro-chefe da compressão VoIP
Com tantas maneiras diferentes pelas quais a voz digitalizada pode ser codificada e depois enviada por uma linha digital, os aplicativos VoIP devem saber qual método de codificação a outra parte usa para estabelecer uma conexão bem-sucedida. Isto é conseguido permitindo que a codificação e a decodificação sejam realizadas usando hardware ou software padrão, esses codecs codificam ou decodificam. Os codecs são usados em muitas aplicações, incluindo vídeo, mas agora vamos nos concentrar apenas nos codecs que podem ser usados com VoIP.
Claro que existem várias dezenas de codecs na indústria, dos quais os mais avançados são pagos, o que os torna pouco comuns, mas vou limitar-me a estes quatro porque são os mais conhecidos e disponíveis na maioria das aplicações VoIP. A quantidade de novas abreviações é incrível, então primeiro vou dar algumas explicações.
CODECS MAIS COMUNS EM VoIP
NOME ; G.711,
COMPRESSÃO ; A-law e u-law,
BITRATO(Kbps) ; 64,
APLICAÇÃO; Telefonia em geral.
NOME ; G.726,
COMPRESSÃO ; ADPCM,
BITRATO(Kbps) ; 16,24,32 e 40,
APLICAÇÃO; Telefonia internacional DECT.
NOME ; GSM 06.10 FR,
COMPRESSÃO ; ADPCM,
BITRATO(Kbps) ; 13.2,
APLICAÇÃO; Codec GSM original.
NOME ; G.729,
COMPRESSÃO ; CS-ACELP,
BITRATO(Kbps) ; 8,
APLICAÇÃO; VoIP em conexões lentas de Internet.
Padrões ITU-T G.711, G.726 e G.729.
A padronização é importante para que duas aplicações VoIP se comuniquem. Felizmente, o sector das telecomunicações sempre sentiu a necessidade de normalizar os protocolos e a troca de informações e a primeira organização oficial para isso data de 1865, a UIT ou União Telegráfica Internacional. Esta organização tornou-se uma agência oficial das Nações Unidas em 1947. O órgão de padronização da UIT evoluiu para o CCITT ou Comitê Consultivo Internacional de Telefones e Outros Telégrafos em 1956 e foi finalmente renomeado como ITU-T em 1993. A abreviatura CCITT ainda é usada em muitos lugares, por exemplo, quando se fala sobre algoritmos de cálculo CRC.
O ITU-T definiu uma série de algoritmos de compressão de voz que são utilizados nas comunicações telefônicas nacionais e internacionais. Todos esses padrões de compactação são nomeados pela letra G seguida de um número. Via de regra, pode-se dizer que a numeração do padrão dá a sequência dos padrões, e que números maiores, em geral, definem os padrões técnicos de compressão como mais complexos e que exigem maior esforço computacional do que padrões com número menor, mas possuem melhor qualidade na relação entre voz e largura de banda.
A A-Law e o PCM da μ-law.
O padrão de compactação G.711 permite duas maneiras de compactar dados de voz recebidos. Esses dois formatos de compressão são frequentemente chamados de A-law e μ-law. Ambos os padrões de compressão usam PCM ou modulação por código de pulso como método de amostragem de banco de dados. Com PCM, os dados são amostrados em intervalos regulares. G.711 usa uma frequência PCM de 8 kHz, que se traduz em 8.000 amostras por segundo. Cada amostra tem uma profundidade de 13 bits (lei A) ou 14 bits (lei μ), proporcionando alta qualidade inicial com apenas pequenos erros presentes devido à quantização do sinal. O uso de compressões A-law e μ-law é definido principalmente geograficamente. Na América do Norte e no Japão, a lei μ é usada principalmente, e no resto do mundo a lei A é usada. Existem também pequenas diferenças algorítmicas que tornam a lei A uma lei mais fácil de aplicar, com menos recursos computacionais do que aquelas usadas em sua contraparte, a lei μ.