KOMPRESI AUDIO

KOMPRESI AUDIO

Kompresi audio adalah salah satu bentuk kompresi data yang bertujuan untuk mengecilkan ukuran file audio dengan metode :

Lossy : format : MP3;

Loseless : format : FLAC; pengguna : audio engineer, audiophiles

Kompresi dilakukan pada saat pembuatan file audio dan pada saat distribusi file audio tersebut!

Kendala kompresi audio:

• Perkembangan sound recording yang cepat dan beranekaragam

• Nilai dari audio sample berubah dengan cepat

Losless audio codec tidak mempunyai masalah dalam kualitas suara, penggunaannya dapat difokuskan pada:

• Kecepatan kompresi dan dekompresi

• Derajat kompresi

• Dukungan hardware dan software

Lossy audio codec penggunaannya difokuskan pada:

• Kualitas audio

• Faktor kompresi

• Kecepatan kompresi dan dekompresi

• Inherent latency of algorithm (penting bagi real-time streaming)

• Dukungan hardware dan software

Metode Kompresi Audio

  • Metode Transformasi

Menggunakan algoritma seperti MDCT (Modified Discreate Cosine Transform) untuk mengkonversikan gelombang bunyi ke dalam sinyal digital agar tetap dapat didengar oleh manusia (20 Hz s/d 20kHz) , yaitu menjadi frekuensi 2 s/d 4kHz dan 96 dB.

  • Metode Waktu

Menggunakan LPC (Linier Predictive Coding) yaitu digunakan untuk speech (pidato), dimana LPC akan menyesuaikan sinyal data pada suara manusia, kemudian mengirimkannya ke pendengar. Jadi seperti layaknya komputer yang berbicara dengan bahasa manusia dengan kecepatan 2,4 kbps

Kompresi Audio MP3

Asal-usul MP3 dimulai dari penelitian IIS-FHG (Institut Integriette Schaltungen-Fraunhofer Gesellschaft), sebuah lembaga penelitian terapan di Munich, Jerman dalam penelitian coding audio perceptual. – Penelitian tersebut menghasilkan suatu algoritma yang menjadi standard sebagai ISO-MPEG Audio Layer-3 (MP3)

Format Header MP3

File MP3 terdiri atas 2 bagian data:

  • Header : berfungsi sebagai tanda pengenal bagi file MP3 agar dapat dibaca oleh MP3 player yang berukuran 4 byte Beberapa karakteristik yang dibaca komputer adalah bit ID, bit layer, bit sampling frequency dan bit mode.

  • Data audio : berisi data file mp3.

Teknik kompresi MP3

Beberapa karakteristik dari MP3 memanfaatkan kelemahan pendengaran manusia.

1. Model psikoakustik

– Model psikoakustik adalah model yang menggambarkan karakteristik pendengaran manusia.

– Salah satu karakteristik pendengaran manusia adalah memiliki batas frekuensi 20 Hz s/d 20 kHz, dimana suara yang memiliki frekuensi yang berada di bawah ambang batas ini tidak dapat didengar oleh manusia, sehingga suara seperti itu tidak perlu dikodekan.

2. Auditory masking

Manusia tidak mampu mendengarkan suara pada frekuensi tertentu dengan amplitudo tertentu jika pada frekuensi di dekatnya terdapat suara dengan amplitudo yang jauh lebih tinggi.

3. Critical band

merupakan daerah frekuensi tertentu dimana pendengaran manusia lebih peka pada frekuensi-frekuensi rendah, sehingga alokasi bit dan alokasi sub-band pada filter critical band lebih banyak dibandingkan frekuensi lebih tinggi.

4. Join Stereo

Terkadang dual channel stereo mengirimkan informasi yang sama. Dengan menggunakan joint stereo, informasi yang sama ini cukup ditempatkan dalam salah satu channel saja dan ditambah dengan informasi tertentu. Dengan teknik ini bitrate dapat diperkecil.

Beberapa persyaratan dari suatu encoder/decoder MP3:

  • Ukuran file terkompresi harus sekecil mungkin

  • Kualitas suara file yang telah terkompresi haruslah sedekat mungkin dengan file asli yang belum dikompresi

  • Tingkat kesulitan rendah, sehingga dapat direalisasikan dengan aplikasi yang mudah dibuat dan perangkat keras yang ‘sederhana’ dengan konsumsi daya yang rendah

Filter Bank merupakan kumpulan filter yangberfungsi memfilter masukan pada frekuensi tertentu, sesuai dengan critical band yang telah didefinisikan. Filter yang dipakai adalah gabungan dari filter bank polyphase dan Modified Discrete Cosine Transform (MDCT)

Perceptual model, dapat menggunakan filter bank terpisah atau penggabungan antara perhitungan nilai energi dan filter bank utama. Keluaran model ini adalah nilai masking treshold. Apabila noise berada dibawah masking treshold, maka hasil kompresi tidak akan dapat dibedakan dari sinyal aslinya.

Quantization/Coding, merupakan proses kuantisasi setelah sinyal disampling. Proses ini dilakukan oleh power-law quantizer, yang memiliki sifat mengkodekan amplitudo besar dengan ketepatan rendah dan dimasukkannya proses noise shaping. Setelah itu nilai yang telah dikuantisasi dikodekan menggunakan Huffman Coding.

Encoding Bitstream, merupakan tahap terakhir dimana bit-bit hasil pengkodean sampling sinyal disusun menjadi sebuah bitstream.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s


%d bloggers like this: