Edição Digital de Som

Edição de Áudio

1 A evolução para o domínio digital

A edição e composição de som sobre plataformas digitais tal como hoje a conhecemos, foi precedida pela síntese analógica de som através processos eletrônicos, tendo os primeiros desenvolvimentos nesta área surgido a par com as primeiras transmissões de rádio na inicio da década de 50.

O primeiro esforço significativo na criação de uma composição complemente baseada em manipulação de som por processos eletrônicos foi feito por Louis e Bebe Barron coma banda sonora do filme de ficção cientifica “The Forbidden Planet” (1956).

Para a implementação desta banda sonora os irmão Barron desenvolveram circuitos eletrônicos capazes de produzir sons cibernéticos sem recorrerem a fontes de sinal sonoro convencionais e obtiveram como resultado um conjunto de sonoridades consideradas atualmente como percursora na era da música eletrônica.

Um outro fascinante exemplo de manipulação eletrônica de som desta época é o theremin.

Este dispositivo construído a partir de módulos de emissores de rádio não só disponibilizava um som único e inédito, como também introduziu um interface de interação gestual entre o homem e a máquina eletrônica que permite a performance criativa.

O sistema baseava-se na detecção da distancia das mão do utilizador em relação a dois sensores variando a tonalidade e volume de um som gerado eletronicamente em função destas distancias.

A sonoridade do theremin tornou-se uma marca registada de “thrillers” e Dramas de série B desta época da história do cinema.

Apesar de só na década de 50 terem surgido os primeiros exemplos de manipulação eletrônica de som, o conceito de base que deu origem aquilo que hoje conhecemos como sinal digital derivou do trabalho investigação feito na década de 40 por Harold Nyquist do laboratórios Bell Telephones e pelo Matemático Francês Augostin Louis Cauchy relacionado com a conversão de sinais eléctricos contínuos em sinais discretos subdivididos ao longo do tempo (sinais amostrados).

O trabalho de Nyquist e Cauchy culminaram no primeiro dispositivo capaz de converter um sinal analógico continuo, num sinal digital discreto, patenteado em 1953 pelo investigador Britânico A. Reeves e designado por Pulse Code Modulator (PCM).

Os desenvolvimentos teóricos relacionados com as tecnologias de informação, não só contribuíram para a consolidação do processo de gravação de sinal áudio sob um formato digital, mas também permitiram que ainda no fim da década de 50 surgissem os primeiros sons totalmente sintetizados por computador pelas mão de Max Mathews também dos laboratórios Bell Telephone.

Por fim em 1982, a possibilidade de acesso a gravações áudio no formato digital chegou ao publico em geral através do Compact Disc Áudio desenvolvido por uma Joint Venture entre a Sony Corporation e a Philips, resultando numa revolução do mercado discográfico em que foram praticamente erradicados os discos de vinil que até ao momento constituíam o formato standard para comercialização de música.

Atualmente alem da possibilidade de adquirir áudio gravado em diversos formatos digitais (CD, Cdi, Laser Disc, DVD, etc), está também ao alcance do publico em geral a possibilidade de gravação de áudio digital, tanto através de dispositivos concebidos para este efeito (DATs, Mini Discs, etc), como através da utilização de computadores pessoais.

Á semelhança do mercado domestico o domínio da gravação musical profissional também foi totalmente revolucionado pela tecnologia digital especialmente em termos de suportes de gravação.

O ADAT – Alesis Digital Audio Tape

Atualmente estúdios profissionais utilizam gravadores multipista Adats da Alesis ou DA88 da Sony, que apresentam especificações técnicas ao nível da qualidade de gravação e de edição, superiores a generalidade dos equipamentos analógicos, por uma fração do seu preço.

Mais recentemente sistemas de gravação/edição não linear como o Protools da Digidesign, o Paris da Ensoniq ou o Vegas da Sonic Foundry, introduziram os computadores pessoais no mercado profissional de gravação musical e revolucionaram o ultimo estágio do processo de produção permitindo grandes progressos na funcionalidade ao nível de edição e masterização do produto final.

2 O som como um fenômeno Acústico

Apesar da simplicidade de utilização de algumas plataformas de edição de som disponíveis atualmente no mercado, seria uma ingenuidade pensar que podemos manipular o efeito emocional e físico que o som tem sobre o ser humano de uma forma minimamente consciente e profissional, sem antes apreender conceitos elementares sobre análise de som e sobre a forma como este é percepcionado pelo nosso corpo.

Só assim poderemos verdadeiramente tirar proveito de toda esta potencialidade que está ao nosso alcance com as novas tecnologias digitais.

2.1 Representações de fenômenos acústicos

Em grande parte a percepção do mundo que nos rodeia é originada pela interpretação de fenômenos ondulatórios pelo nosso corpo.

Define-se como uma onda um fluxo de energia que aumenta e diminui de intensidade ao longo do tempo e do espaço.

Da mesma forma que a percepção visual não é mais do que a interpretação cerebral da reflexão de ondas de luz em corpos físicos, captada através dos olhos, também a sensação de ouvir som se deve reacção do nosso corpo a ondas derivadas da variações de pressão atmosférica que os objectos provocam ao deslocarem-se no espaço.

Esta variação de pressão propaga-se através da atmosfera desde a origem da perturbação até aos nossos ouvidos.

Os ouvidos traduzem as variações provocadas na membrana auricular para o cérebro através de pequenos choques eléctricos criando a percepção sonora.

Se a variação de pressão que origina o som se repetir consecutivamente e de acordo com um padrão estamos na presença de um fenômeno que se designa por uma forma de onda periódica forma de onda periódica forma de onda periódica.

Para melhor ilustrar este conceito, consideremos o exemplo do som produzido por uma corda de uma guitarra representado na forma de um diagrama na figura 2.1.1.

Imprimindo um impulso inicial à corda despoletamos um movimento oscilatório que provoca a deslocação entre as posições que designamos na figura anterior como Amplitude Máxima e Mínima, passando pela posição de repouso.

As posições de Amplitude máxima e mínima correspondem aos pontos onde a corda atingiu a tensão máxima provocada pela força imprimida, enquanto a posição de repouso corresponde ao ponto onde a tensão na corda é mais baixa.

Este movimento oscilatório provoca variações na pressão atmosférica que se propagam até aos nossos ouvidos provocando a sensação de audição de um som correspondente a uma corda de Guitarra.

A variação da pressão atmosférica consiste numa compressão e rarefacção consecutiva das moléculas de ar localizadas nas zonas perturbadas pelo movimento da corda, sendo estas perturbações propagadas ao longo do espaço em todas as direções.

Se pensarmos numa representação gráfica de um ciclo completo deste movimento oscilatório, em termos da variação de amplitude ao longo tempo, obtemos uma forma de onda que designamos como sinusóide, representada no diagrama da figura 2.1.2.

Fig. 2.1.2 - Representação de um ciclo da forma de onda sinusoidal no domínio dos tempos

Na prática o movimento oscilatório da corda repete-se durante um determinado período de tempo, acabando por se amortecer progressivamente devido ao atrito exercido pelo ar.

Fig. 2.1.3 - Representação de um movimento oscilatório amortecido.

Para efeitos de análise vamos admitir que este efeito de amortecimento não se manifesta tal como aconteceria dentro de um ambiente vazio (em vácuo), e que o movimento oscilatório se repete indefinidamente mantendo constantes as Amplitudes máximas e mínimas ao longo do tempo (figura 2.1.4).

Esta forma de onda será proporcional à variação de pressão que captamos com os nossos ouvidos, pelo que podemos pensar nela como sendo equivalente ao sinal de som produzido pela corda da guitarra.

2.2 Principais grandezas associadas a uma forma de onda

Fig. 2.1.4 - Representação de uma forma de onda sinusoidal no domínio dos tempos.

2.2 Principais grandezas associadas a uma forma de onda

A uma forma de onda com um comportamento oscilatório periódico (que se repete ao longo do tempo segundo um padrão constante) tal como a sinusóide, é possível associar algumas grandezas básicas indispensáveis na análise do comportamento dos fenômenos acústicos.

A -Amplitude

Grandeza que quantifica da intensidade intensidade intensidade com que ouvimos os som, cuja variação proporcional à perturbação de pressão na atmosfera que as ondas sonoras.

A unidade de medida de Amplitude de som é o Decibel Decibel Decibel (dB), sendo que Esta unidade representa a menor variação de som em amplitude perceptível pelo ouvido humano (1dB).

Em média o ouvido Humano consegue processar com clareza variações de amplitude de som entre os 0 dB e os 120 dB (sons superiores a 120 dB provocam dor), designando-se esta gama de valores como gama dinâmica gama dinâmica efetiva da audição humana.

A generalidade dos estudos feitos sobre a sensibilidade auditiva em função da Amplitude alertam para o facto de que a exposição do ouvido Humano a Amplitudes de som superiores a 90 dB pode provocar danos permanentes.

É importante referir o carácter relativo da informação apresentada em tabelas de referência sobre intensidade de som, dado que habitualmente se indexa os valores apresentados a eventos cuja classificação tem alguma subjetividade.

Na figura 2.2.1 são apresentados dois estudos publicados respectivamente pela Georgia State University e pela HearNet sobre a sensibilidade auditiva em função da Amplitude.

f - Frequência

A frequência traduz o numero de ciclos por segundo numa forma de onda periódica e é uma das grandezas mais relevantes na caracterização de som.

A unidade de medida de frequência é o Hertz (Hz).

O valor da frequência de uma forma de onda periódica pode variar desde 0 Hz (forma de onda não oscilatória) até um valor virtualmente infinito.

Na figura 2.2.2 são apresentados dois exemplos de ondas periódicas sinusoidais em que o numero de ciclos que decorrem ao longo de 1 segundo são respectivamente 3 e 10, pelo que as suas frequências serão 3 Hz e 10 Hz.

O espectro possível de frequências contem vários tipos de ondas com características e aplicações práticas a vários níveis (figura 2.2.3), sendo possível para o ouvido humano a percepção de ondas com frequências entre os 20Hz e os 20.000 Hz 20.000 Hz 20.000 Hz para formas de onda periódicas continuas.

Apesar dos valores de frequência audíveis pelo ser humano se situarem na gama dos 20Hz aos 20KHz, está comprovado que tanto frequências abaixo de 20 Hz (infra-sons), como frequências superiores a 20 Khz (ultra-sons), são percepcionadas pelo nosso corpo provocando uma reação do nosso cérebro, que pode ser classificada como no mínimo subliminar.

A banda de frequências perceptível pelo corpo humano como um fenômeno acústico pode ser dividida em diferentes zonas como ilustra a figura 2.2.4.

A figura 2.2.5 ilustra a forma como um sistema genérico de colunas áudio reproduz as diferentes bandas de frequência do espectro auditivo.

T - Período

Grandeza que quantifica a duração de um ciclo num movimento oscilatório periódico.

Sendo o período uma grandeza que mede a duração temporal de um evento a sua unidade de medida será naturalmente o segundo segundo segundo (s).

Por definição podemos calcular matematicamente o valor da frequência de um movimento oscilatório periódico a partir do inverso do seu período, ou seja:

f =1/T

2.3 Fase de uma onda sonora

Um ponto de partida para uma outra abordagem na representação gráfica ondas periódicas baseia-se na analise da relação que é possível estabelecer entre um movimento oscilatório sinusoidal e a definição matemática de uma circunferência.

Ao percorrermos a trajetória definida pela circunferência no sentido contrário aos ponteiros do relógio vamos assumir em cada ciclo valores entre 0º e 360º.

Da quantificação em cada momento do numero de graus percorridos resulta a grandeza designada por Fase.

Assim podemos pensar numa representação gráfica de uma forma de onda idêntica à anterior, mas agora apresentando a sua Amplitude em função da fase, correspondendo a variação entre 0° e 360° á duração de um período do sinal.

A fase tem grande relevância na analise comparativa entre formas de onda.

Consideremos o exemplo representado nos diagramas da figura 2.3.3, que ilustra duas fontes de sinal sinusoidal idênticas, que se iniciam em momentos distintos.

Analisando os gráficos podemos verificar que para o mesmo instante a fase de cada uma das formas de onda tem valores distintos, pelo que estas dizem-se desfasadas.

Neste caso concreto o desfasamento (diferença entre o valor das fases num determinado momento) entre as duas formas corresponde a 90º, pois no caso concreto do instante em que a fase da primeira sinusóide tem o valor de 0º, a segunda sinusóide tem uma fase de 90º.

A fase de um sinal é aparentemente insignificante do ponto de vista de sonoro, pois dois sons exatamente iguais, diferindo apenas na sua fase inicial só muito dificilmente serão distinguidos pelo ouvido Humano, no entanto consideremos por exemplo a audição simultânea de duas sinusóides desfasadas de 180º com amplitudes e frequências idênticas

Neste caso o resultado da soma dos dois sinais será um sinal de amplitude nula, ou seja o silêncio.

Fig. 2.3.4 - Oposição de Fase

A anulação ou redução de componentes de som por adição do próprio sinal em oposição de fase tem grande aplicação prática, já existindo produtos comerciais baseados neste conceito, tais como anuladores de ruído para aviões e carros integrados em sistemas de som.

2.4 Deslocação de fase intra-auricular

Uma das principais aplicações da análise da diferenças de fase entre ondas, está relacionada com o estudo de mecanismos que o cérebro utiliza para percepção espacial de fontes sonoras.

Mesmo com os olhos fechados é possível para um ser humano ao ouvir um som, distinguir em termos do espaço que o rodeia a posição da fonte sonora.

Isto deve-se ao facto de a distancia que a perturbação atmosférica percorre entre a fonte sonora e o ouvido esquerdo ser diferente da distancia percorrida até ao ouvido direito (assumindo que a fonte sonora não se encontra na linha que atravessa o ponto médio entre ouvidos).

Sendo a distância a percorrer diferente também a fase da onda sonora interpretada em cada instante será diferente nos dois ouvidos.

Esta diferença de fase intra-auricular fase intra-auricular fase intra-auricular ao ser descodificada pelo cérebro dá a percepção do posicionamento espacial da fonte sonora.

3 Análise de som no domínio das frequências

Uma forma de onda correspondente a um som real como por exemplo a voz Humana nunca é pura e simples como as ondas sinusoidais que temos analisado até agora.

As formas de onda sonoras são normalmente sinais complexos cuja variação de amplitude e frequência ao longo do tempo não obedece a uma definição matemática simples.

3.1 Timbre e Tonalidade

Da análise feita no capítulo anterior relativamente a Frequência, facilmente nos percebemos que esta é a propriedade que permite distinguir sons como Graves ou Agudos.

Por outro lado no âmbito musical desenvolveu-se uma sintaxe de classificação sonora baseada em notas musicais (Dó, Ré, Mi, Fá, Sol, Lá, Si), que quase intuitivamente sabemos estarem também correlacionadas com a sonoridade mais Grave ou mais Aguda (basta pensarmos nas teclas extremas de um piano).

Assim, sabemos que a frequência que caracteriza um som, corresponde a uma determinada nota musical (por exemplo Lá =440Hz), sendo esta propriedade designada vulgarmente por Tonalidade.

No entanto conseguimos distinguir claramente uma sonoridade diferente ouvindo uma nota Lá entoada por um Violino ou por um Piano, apesar da nota ser a mesma.

Para percebermos melhor este fenômeno, vamos novamente recorrer ao exemplo apresentado no capítulo anterior.

Analisando mais pormenorizadamente o movimento oscilatório de uma corda de guitarra apercebemo-nos que além da oscilação principal, existem vibrações oscilatórias secundárias nas subsecções da corda, que vão necessariamente provocar compressões e rarefacções atmosféricas resultando em elementos sonoros que se vão sobrepor ao movimento oscilatório principal que analisamos anteriormente.

A Frequência relativa à oscilação principal designa-se como Frequência como Frequência Fundamental e sendo a oscilação com maior expressão sobrepõe-se a todas Fundamental as outras. O valor da Frequência Fundamental corresponde à Tonalidade Tonalidade do Som (Nota Musical).

O conjunto dos valores de Frequência relativos a oscilações secundárias na fonte sonora, designa-se por Conteúdo Harmônico . O Conteúdo Harmônico corresponde ao Timbre do Som (característica que permite distinguir o suporte físico da fonte sonora).

3.2 Representação de um sinal de som no Domínio das Frequências

Atendendo à teoria de análise de sinal desenvolvida por Fourier, é sempre possível decompor qualquer sinal genérico na soma de um conjunto infinito de sinais sinusoidais elementares com amplitudes e frequências diferentes, aos quais chamamos harmônicos (figura 3.2.1).

Se pensarmos nos valores de frequência e as respectiva amplitude de cada uma destas sinusóides em termos de uma representação gráfica conjunta, obtemos uma representação no domínio das frequências do sinal genérico, que é um dos mais poderosos instrumentos de análise sonora (figura 3.2.2).

Nesta representação gráfica, cada uma das sinusóides elementares vai corresponder a um valor na gama de frequências a representar, com a amplitude respectiva.

Dentro do conjunto dos Harmônicos que somados resultam na forma de onda que estamos a analisar, o primeiro harmônico (amplitude predominante) é a própria Frequência Fundamental e os harmônicos de ordem subsequente correspondem ao Conteúdo Harmônico do sinal sonoro.

Em termos de análise uma representação no domínio das frequências baseada nas componentes harmônicas do sinal permite-nos uma maior percepção relativamente ao timbre e à tonalidade do som. Atendendo que as altas frequências correspondem a sons mais agudos e as baixas frequências a sons mais graves, torna-se fácil a partir da observação dos diagramas em frequência identificar a tonalidade predominante no sinal.

3.3 Casos particulares da decomposição harmônica

Para o caso concreto de uma sinusóide elementar, se multiplicarmos a sua frequência por 2 obtemos uma forma de onda designada como harmônico de 1ª ordem, multiplicando a frequência do harmônico de 1ª ordem por 2 obtemos o harmônico de 2ª ordem, e assim sucessivamente até infinito, pelo que o harmônico de ordem n tem frequência n2f (multiplicamos a frequência n vezes por 2).

Como caso particular do conceito de decomposição de um sinal em sinusóides elementares, temos os casos da onda quadrada que resulta da soma de todos os harmônicos pares, e da onda dente de serra que resulta da soma de todos os harmônicos impares.

As ondas quadrada e dente de serra e estão respectivamente representadas na figura 3.3.1.

3.4 Representação da Frequência em função do tempo

Uma outra forma possível de representação gráfica de um sinal de som, consiste na função da frequência relativamente ao tempo. Nesta representação temos também informação relativamente à amplitude do sinal pela observação da concentração de pontos no gráfico.

Esta é uma forma de representação muito comum em software de edição e análise de som, por permitir a percepção simultânea das grandezas Amplitude, frequência e tempo, e particularmente útil na análise da síntese granular como veremos mais para a frente.

4 Som Digital

Ao contrário dos equipamentos analógicos que armazenam e reproduzem o som como um sinal continuo ao longo do tempo, em dispositivos digitais o sinal de som é convertido para um formato discreto, pelo que, um sinal digital não é continuo ao longo de tempo ainda que isso seja imperceptível para o ouvido Humano.

Podemos assim pensar de uma forma simplista no processo de digitalização de som como a segmentação do som analógico em secções de tal forma pequenas que não é possível para o ouvido humano percepcionar estas divisões, parecendo desta forma, que o som é ainda continuo.

4.1 Aquisição e Reprodução de Som no Domínio Digital

A menos que o som seja criado já em ambiente digital, temos sempre que utilizar um processo de conversão analógico/digital para que o som fique disponível sobre uma plataforma digital.

Por exemplo, ao gravarmos a nossa voz antes de obtermos o ficheiro de som digital que podemos manipular no computador, o som percorre todo um processo que começa pela transformação através do microfone das variação de pressão atmosférica que provocaram o som, num sinal eléctrico analógico.

Este sinal analógico, é seguidamente convertido para o formato digital compatível com o computador.

O processo inverso será análogo, ou seja, se tivermos um som digital no computador e quisermos ouvi-lo, temos necessariamente uma conversão digital/analógico que transforma o sinal para o formato eléctrico analógico, digital/analógico que por sua vez ao ser amplificado e aplicado as colunas provoca variações na pressão atmosférica que se refletem como som nos nossos ouvidos.

O dispositivo de conversão do sinal analógico para digital designa-se normalmente por DAC (Digital to Analog Converter) e o dispositivo de conversão do sinal digital para analógico designa-se por ADC (Analog to Digital Converter).

No diagrama da figura 4.1.1. temos a representação de todo este processo de aquisição e reprodução de som digital.

4.2 Conversão Analógico/Digital

O conceito de números binários é fundamental para percebermos a forma como é feita a conversão de analógico para digital.

O código de numeração que normalmente utilizamos no nosso dia a dia é o código decimal, baseado em 10 algarismos (0,1,2,3,4,5,6,7,8,9) que se podem combinar de diferentes formas. O código binário baseia-se apenas em dois algarismos (0,1), sendo as combinações que representam, os diversos valores representadas na seguinte sequência (caso particular de 4 dígitos)

0 - 0000

1 - 0001

2 - 0010

3 - 0011

4 - 0100

5 - 0101

6 - 0110

7 - 0111

8 - 1000

9 - 1001

10 - 1010

11 - 1011

12 - 1100

13 - 1101

14 - 1110

15 - 1111

Fig. 4.2.1 - Sistema de numeração binário

Neste caso concreto utilizando 4 bits (1 bit corresponde a uma posição de memória elementar num computador e pode tomar o valor 0 ou 1, representando-se por 1 digito no código binário) conseguimos representa 16 valores (24 =16),, pelo que com n bits representamos 2n valores.

Na prática o código binário é utilizado para fazer a quantificação dos diferentes níveis de amplitude do sinal na conversão de analógico para digital.

O processo de conversão de um sinal de analógico para digital, baseia-se então na quantificação do valor da amplitude do sinal em vários instantes de tempo, sendo estes valores gravados num ficheiro que podemos por exemplo manipular num computador. Esta quantificação pontual designa por amostragem e é feita a uma frequência definida como frequência de amostragem (número de amostras feitas num segundo).

Ao fazer a conversão analógico/digital somos normalmente confrontados com a definição de dois parâmetros:

A frequência de amostragem que é como já vimos o número de amostras do sinal que vamos tirar por segundo e que podemos pensar como sendo a grandeza que traduz a resolução com que vamos adquirir o sinal em termos da sua variação ao longo do tempo. Tipicamente a frequência de amostragem utilizada em gravações para CD é de 44KHz, sendo frequente ver em aplicações multimédia amostragens a 22KHz (numa amostragem ao reduzir a frequência reduzimos também o numero de valores a guardar no ficheiro e consequentemente reduzimos o espaço que ocupa em disco) e em suporte DAT podemos digitalizar um som com uma frequência de amostragem de 48KHz.

- A Quantificação corresponde ao número de níveis de amplitude vamos utilizar para amostrar o sinal, ou seja, podemos pensar na quantificação como sendo a resolução em termos do valor de Amplitude que o sinal pode ter num determinado instante. Tipicamente quantifica-se o sinal utilizando 16 bits em gravações com qualidade de CD (16 bits permitem 216 = 65 536 níveis de quantificação), sendo também comum encontrar quantificações de 8 bits em sinais que não precisam de uma boa qualidade e nos sistemas mais recentes já é possível digitalizar um sinal com 32 bits o que trás vantagens em sinais com uma gama dinâmica muito baixa (com baixas amplitudes).

4.3 Clipping

Quando a amplitude do som excede o valor máximo da gama de quantificação o sinal de som digitalizado vai tomar um valor constante, correspondente ao valor máximo quantificável pelo ADC, designando-se este fenômeno por Clipping. Na prática uma forma de onda com Clipping parece ser cortada nos picos que excedem a gama dinâmica do sinal (gama de valores quantificáveis), resultando em ruído quase sempre perceptível para o ouvido humano.

Um exemplo comum é a gravação de voz com um microfone muito sensível quando este está demasiado perto da boca do locutor. O que pode acontecer neste caso é o sinal de entrada ter uma amplitude demasiado elevada excedendo a gama dinâmica disponível no nosso ADC. A solução passa em geral por reduzir a pré- amplificação do sinal.

Note-se ainda que o Clipping pode ocorrer num estágio anterior à conversão analógico/digital se a amplitude do sinal exceder a gama dinâmica de um outro dispositivo tal como o microfone ou o pré-amplificador.

4.4 Resampling

É frequente na conversão entre formatos de som digital recorrer à alteração dos parâmetros de frequência de amostragem e quantificação, por exemplo, se tivermos um ficheiro gravado num formato com qualidade de CD (44.1 KHz/16 bits) e quisermos converte-lo para um formato adequado para utilização num CD-Rom multimédia (22.05 KHz/8 bits, na maioria dos casos), temos que reduzir o valor da frequência de amostragem e da quantificação, o que corresponde a retirar amostras ao sinal no caso da frequência de amostragem e arredondar a amplitude das amostras no caso da quantificação. No caso inverso, em que queremos aumentar a frequência de amostragem e quantificação, recorre-se normalmente a técnicas de interpolação, de forma a ser possível obter novas amostras e novas amplitudes que anteriormente não existiam.

4.5 Teorema de Amostragem

Por definição derivada do teorema de Nyquist, para que um sinal analógico depois de digitalizado possa ser novamente recuperado para o domínio analógico sem perca de qualidade, a frequência de amostragem que utilizamos na conversão A/D deverá ser, no mínimo, o dobro da frequência do próprio sinal, se a frequência deste for constante, ou o dobro da frequência do harmônico de frequência mais elevada tratando-se de um sinal genérico.

Esta é a razão pela qual a frequência considerada como correspondente a uma qualidade óptima (formato CD) é de 44.1 KHz, o que corresponde ao dobro da frequência limite da audição humana de 22.05 KHz.

Desta forma garantimos que a frequência de amostragem utilizada será sempre pelo menos o dobro de qualquer sinal inferior a 22.05 KHz que corresponde a banda de frequências que nos interessa preservar.

5 Transformação de som - Filtros

Este capítulo introduz os conceitos básicos sobre transformação do sinal de som utilizando filtros. Basicamente um filtro consiste numa “operação” que podemos aplicar a um sinal de som, resultando na transformação de alguns dos seus parâmetros.

Esta transformação parâmetros pode ocorrer no domínio dos tempos e neste caso os parâmetros alterados serão a sua amplitude ou fase, ou no domínio das frequências em que os parâmetros alterados no sinal serão naturalmente a sua frequência ou das suas componentes harmônicas.

5.1 Transformações no Domínio dos Tempos

5.1.1 “Envelope Shaper”

Praticamente todos os sistemas de som permitem regulação de volume, no entanto, para criarmos uma variação temporal da amplitude do sinal com uma determinada evolução sobre a qual queremos ter total controle, é necessário recorrer as filtros designados com envelope shapers, com os quais podemos “desenhar” ao longo do tempo a variação e a amplitude pretendida.

Na prática a operação matemática que transcreve esta filtragem é a multiplicação ponto a ponto (amostra a amostra) no domínio dos tempos.

Casos típicos de envelope shapers são os filtros de fade in e fade out fade out que correspondem respectivamente a um aumento gradual do volume do som a partir do silencio e redução de volume do som até atingir o silencio. Os filtros de fade in e fade out fade out são tipicamente utilizados no início e no fim de musicas.

Fig 5.1.1 - envelope shaper

Um outro caso típico de um envelope shaper muito utilizado é o ADSR (attack, decay, sustain, release).

O ADSR formata a variação da amplitude do som ao longo do tempo, de forma a aproxima-la da variação típica de um instrumento musical de cordas (piano, contrabaixo, guitarra, etc).

Fig. 5.1.2 - ADSR

Também muito utilizados são os filtros de tremulo igualmente baseados num envelope shaper, mas resultando em variações de amplitude periódicas ao longo do tempo sendo o resultado final um som cujo volume oscila de acordo com o envelope shaper definido.

5.1.2 Noise Gate

Os filtros noise gate têm como objectivo eliminar o ruído do sinal, entendendo-se o ruído da forma mais simplista possível ou seja considerando que qualquer parte do sinal cuja amplitude tenha um valor inferior a um limite por nós definido (thresh hold) é ruído.

Assim sempre que o sinal atingir uma amplitude inferior ao nível thresh hold será eliminado, ocorrendo esta situação normalmente nas zonas de silencio onde se pode ouvir algum ruído de fundo.

É também comum em filtros de noise gate podermos definir um parâmetro designado por tempo de ataque do filtro (attack) que corresponde ao tempo que decorre desde o momento em que o filtro detecta que foi atingido o valor de thresh hold e o instante em que o sinal é anulado. Tipicamente o tempo de ataque tem uma ordem de grandeza de ms.

Um noise gate resulta melhor se a razão entre o sinal e o ruído não for muito elevada, pois caso contrario o corte de som feito pelo filtro fica em maior evidencia, especialmente se o tempo de ataque for curto.

5.1.3 Compressor/ Limiters/ Expanders

Estes filtros têm como objectivo modificar o comportamento do sinal nos instantes em que a variação instantânea da amplitude é muito elevada ou muito baixa (picos de sinal).

Um compressor vai atenuar o sinal nos instantes em que a variação instantânea for muito elevada, ou seja vai-se refletir sobre os picos de sinal, atenuado-os. Normalmente atenuação será proporcional à amplitude do pico, significando isto que os picos de maior amplitude serão mais atenuados do que os de amplitudes mais baixas.

A utilização de compressão na produção musical tornou-se muito popular especialmente na gravação vocal. A sensação que temos ao ouvir uma voz comprimida é de que esta se torna mais intima, pois devido à compressão conseguimos ouvir a voz com amplitude mais baixa a níveis aproximados da voz com amplitude mais alta, tal como ouvimos a nossa própria voz ao falar.

Um expander pelo contrário aumenta a variação da amplitude do sinal a cada instante, sendo neste caso a amplificação do sinal proporcional à variação de amplitude instantânea, ou seja picos de grande amplitude são mais amplificados que picos de baixa amplitude (acentua as grandes variações instantâneas).

No caso de um sinal digital em que a gama dinâmica de amplitude é predefinida (devido à quantificação), a utilização de um expander de forma a garantir que os picos máximos do sinal atinjam o limite superior de banda sem haver clipping, resulta numa operação designada como normalização.

Uma normalização do sinal permite uma otimização em termos dos níveis de quantificação, pois permite que este ocupe toda a banda dinâmica disponível. Na maioria dos casos a normalização é preferível a uma simples amplificação, pois é feita à custa de uma expansão que tem a característica de aumentar a razão entre o sinal e o ruído, entendendo-se ruído simplisticamente como as partes do sinal de mais baixa amplitude (menos amplificados na expansão).

Um outro filtro também muito utilizado é o limiter, que na pratica se , baseia na definição de um limite de threshold que corresponderá a um limite máximo definido por nós para a amplitude do sinal. Sempre que a amplitude do sinal exceder o limite do threshold, o limiter faz com que o sinal não chegue a essa amplitude. Naturalmente só faz sentido definir o limite de threshold dentro da banda dinâmica de amplitude.

5.1.4 Atrasos no tempo

Esta classe de filtros transformam o som recriando efeitos aproximados do que vulgarmente se designa por eco.

O que se procura simular são as múltiplas reflexões provocadas por obstáculos que o som encontra ao propagar-se em todos os sentidos. Nestas circunstâncias algumas replicas do som original provocadas pela reflexão nestes obstáculos acabam por atingir os nossos ouvidos com algum atraso, provocando o efeito de eco.

Em termos de implementação destes filtros o que se faz é reproduzir o este conceito, criando através de um circuito eletrônico um atraso no tempo ao sinal, e adicionando este sinal atrasado ao original, sendo desta forma possível em determinado instante ouvir os dois sons em simultâneo (o original e a réplica). Neste caso mais simples de uma única reflexão em que é criada apenas uma réplica o diagrama que traduz o filtro seria:

A nomenclatura atribuída aos diversos filtros integrados contexto difere de acordo com as características das réplicas criadas pela filtragem.

Assim, o caso mais simples em que apenas surge uma única réplica atrasada no tempo é normalmente designado por delay.

O caso em que obtemos uma sequência de réplicas com amplitudes decrescentes (com decaimento) é normalmente designado por echo. Na prática corresponde ao som que ouvimos por exemplo se gritarmos dentro de um túnel.

O caso mais aproximado da situação real corresponde a uma situação em que temos várias sequências de réplicas com amortecimento (resultado de repetidas reflexões em múltiplos objetos), designa-se normalmente por reverberation.

É frequente também a utilização de um filtro designado por multitap delay, que poderemos considerar como o caso genérico em termos deste tipo de filtros, pois permite o controle de amplitude e atraso de um numero de réplicas definido pelo utilizador, permitindo a configuração total do atraso provocado no som.

5.2 Transformações no Domínio das frequências

5.2.1 Limitações no espectro de frequência

Além dos filtros que transformam grandezas relacionadas diretamente com a variação do sinal de som ao longo do tempo, tais como os que estudamos até ao momento, existem também filtros que transformam o som modificando o seu espectro de frequência através da ação direta sobre as suas componentes harmônicas.

De acordo com a analise feita no capítulo 1.4 sobre a representação gráfica de um sinal de som no domínio das frequências, podemos pensar num espectro de frequências (amplitude em função da frequência) como a representação gráfica da amplitude das componentes harmônicas do sinal.

Desta forma cada ponto do gráfico corresponde a uma componente harmônica com determinada frequência e amplitude.

A utilização de um filtro que atua sobre o espectro de frequência do sinal consiste na definição de um envelope no domínio das frequências que vai modificar a forma do espectro do sinal, analogamente aos que os filtros envelope shappers (cap. 3.1.1) fazem no domínio dos tempos.

O exemplo mais comum de filtragem de som no domínio das frequências é o dispositivo designado por equalizador, que atualmente podemos encontrar em qualquer tipo de equipamento de som, mesmo para uso doméstico.

O equalizador surgiu da necessidade de igualar a amplitude das componentes harmônicas do sinal de som, permitindo através de potenciômetros variar os seus valores.

O objetivo consiste em atuar sobre estes potenciômetros igualando as amplitudes das componentes harmônicas de forma a tornar o espectro de frequência do sinal mais uniforme.

Na pratica ao olharmos para o posicionamento dos potenciômetros de um equalizador temos a percepção do gráfico da amplitude em função da frequência correspondente ao envelope que vamos aplicar ao espectro de frequência do próprio sinal. Este envelope designa-se por função de função de transferência do filtro.

Existem quatro funções de transferências clássicas que são utilizadas na prática muito frequentemente, e que correspondem aos filtros básicos de frequências que vem implementados em sistemas de som.

As funções de transferência destes filtros caracterizam-se por permitirem ou não a passagem de determinadas gamas de valores de frequência do sinal original.

Filtro Passa Baixo

Permite a passagem das componentes harmônicas de valor mais baixo que correspondem ás tonalidades mais graves do som.

Um som que passe por um filtro passa baixo fica normalmente mais grave e abafado.

fc (frequência de corte) corresponde neste caso à frequência até à qual é fc permitida a passagem de sinal.

Filtro Passa Alto

Permite a passagem das componentes harmônicas de valor mais elevado que correspondem ás tonalidades mais agudas do som.

Um som que passe por um filtro passa alto fica normalmente mais agudo e estridente.

fc (frequência de corte) corresponde neste caso à frequência a partir da fc qual é permitida a passagem de sinal.

Filtro Passa Banda

Permite a passagem de uma gama de frequências designada como banda passante.

Dependendo da largura da banda passante (Q) e do posicionamento da frequência central (fc) no espectro de frequências, o sinal poderá resultar mais grave ou mais agudo.

Os filtros de Wha-Wha utilizados normalmente em guitarras, baseiam-se na utilização de um filtro passa banda com uma largura de banda fixa, mas cuja frequência central varia de acordo com a posição de um pedal que o utilizador pode manipular fazendo variar assim a tonalidade do sinal.

Assim para valores mais baixos de fc este filtro aproxima-se de um filtro passa baixo, enquanto que para valores mais altos de fc aproxima-se de um filtro passa alto.

Filtro Rejeita Banda

Corresponde ao inverso do filtro passa banda, impedindo a passagem de uma determinada banda de frequências.

Utiliza-se normalmente com queremos eliminar um conjunto bem definido de frequências identificadas no sinal de som.

Neste caso são definidas suas frequências de corte (fc1 e fc2 ) no inicio e no fim da banda rejeitada.

6 Síntese Granular

Define-se um grão de som no domínio dos tempos, como a um sinal de som de duração limitada no tempo que pode ser distinguido de um “click” pelo ouvido humano, e que foi retirado (amostrado) a partir de um sinal de som com maior duração no tempo.

Para ser possível ao ouvido humano percepcionar um grão de som de forma a distingui-lo de um “click” a sua duração terá que ser superior a 1ms.

Por outro lado para que seja possível a percepção de que estamos a ouvir uma partícula de som de duração limitada esta terá que ser inferior a 100ms.

Encarando este conceito como uma abordagem atômica à constituição do som podemos pensar na subdivisão granular do som como uma alternativa à analise de Fourier abordada no capitulo 3, em que o complexo fenômeno da constituição do som se baseia numa soma infinita de sinusóides.

Tipicamente podemos sintetizar um grão a partir de um sinal de som recorrendo a uma operação de envelope shapping em que multiplicamos o sinal em por uma envolvente que tem duração entre 1ms e 100ms.

O envelope mais utilizado e com o qual se obtém resultados mais satisfatórios é a função Gaussiana proposta para este efeito por Gabbor em 1946.

Do ponto de vista de composição Artística de som a teoria de síntese e composição granular de som é da maior relevância se tivermos presente uma abordagem a este fenômeno no domínio das frequências.

Olhando para a representação da frequência do sinal de som em função da sua variação ao longo do tempo, obtemos um gráfico constituído por pontos elementares que atendendo agora à análise granular, podemos interpretar como os grãos que constituem o som.

Assim recorrendo a software que permita a síntese de som por interação direta com um gráfico frequência em função do tempo, ao lhe adicionarmos e retirarmos pontos estamos a introduzir grãos modificando a sua sonoridade.

Uma ferramenta destas pode ser interpretada do ponto de vista de uma metáfora em que é possível pintar som com uma lata de spray sobre um quadro que será o seu espectro de frequências, abrindo-se assim novas perspectivas do ponto de vista da criação artística de som por intermédio desta forma de interação na síntese sonora.

Este processo torna-se ainda mais interessante processando-se em tempo real, ou seja, permitindo ao utilizador ouvir os resultados da sua interação ao mesmo tempo que adiciona ou retira grãos ao gráfico.