PDA

توجه ! این یک نسخه آرشیو شده میباشد و در این حالت شما عکسی را مشاهده نمیکنید برای مشاهده کامل متن و عکسها بر روی لینک مقابل کلیک کنید : فشرده سازي داده ها در صداي ديجيتال



Amir
Saturday 26 January 2008, 09:15 PM
با وجود كيفيت بسيار خوب صداي حاصل از ديسك هاي فشرده ، حجم داده ( كه بصورت Linear PCM در ديسك ذخيره شده و در حدود 0.7 M bit/S بازاي هر كانال ميباشد ) و پهناي باند مورد نياز براي انتقال آنها، براي برخي از كاربرد ها بيش از حد زياد است در نتيجه ، فشرده سازي داده ها نيازي مبرم براي كاربرد هاي چند رسانه اي و مخابراتي تلفني و راديو و تلويزيوني و اينترنتي و حتي فيلم هاي VCD و DVD به نظر ميرسد.
كاهش داده ها با استفاده از كم كردن فركانس نمونه برداري يا عمق بيت با افت قابل توجه كيفيت همراه است كه در برخي از موارد قابل پذيرش نيست بنابراين ابدا و استفاده از روش هايي كه حداقل افت كيفيت را به دنبال داشته باشد مطلوب خواهد بود. روش هاي فشرده سازي به دو دسته اصلي ، بي تلف ( Lossless ) و تلفاتي ( Lossy ) تقسيم ميشوند. در روش بي تلف، پيام پس از رمز گشايي در گيرنده بهطور كامل و بيت به بيت بازيافت ميشود ولي نسبت فشرده سازي آن كم و در حدود يك به دو است ( حجم داده ها نصف ميشود). در مقابل در روش تلفاتي نسبت فشرده سازي ميتواند به يك به ده يا حتي بيشتر نيز برسد كه به بهاي حذف مقداري از داده ها منجر و در نتيجه افت كيفيت بدست مي آيد...
اين افت كيفيت ممكن است در فشرده سازي با نسبت كم ، نا چيز و قابل اغماض بوده و يا در فشرده سازي با نسبت زياد در مواردي مانند ارتباط تلفني و اينترنتي كه كيفيت صوتي كمتري مورد نياز است مقدار قابل ملاحظه اي باشد.
در روش تلفاتي براي حصول نتيجه بهتر از تاثيرات آكوستيك – رواني استفاده ميشود بدين معني كه داده هايي حذف ميشوند كه در حالت عادي كمتر شنيده شده و تاثير خفيف تري در كيفيت صداي مورد نظر دارند.درحقيقت نوعي رفتار صوتي پوششي ( Masking ) در شنوايي انسان وجود دارد كه باعث ميشود تا برخي اصوات غالب ، برخي ديگر از اصوات كم اهميت تر را پوشانيده و مانع شنيده شدن آنها گردند. بنابراين حذف دقيق و پيشبيني شده اصوات اضافه توسط سيستم فشرده ساز سبب كاهش حجم داده ها شده و در عين حال افت كيفيت ناشي از اين حذف به حداقل ميرسد مهمترين تاثيرات آكوستيك – رواني كه در فشرده سازي بكار ميروند عبارتند از :
پهناي باند بحراني گوش :
شنوايي انسان داراي رفتاري است كه به آن پهناي باند بحراني ميگويند. ( Critical – Band ) .
در داخل حلزوني گوش ، غشايي به نام Basilar وجود دارد مانند يك تحليل گر طيفي عمل ميكند و فركانس هاي مختلف در صدا را تفكيك مينمايد فركانس هاي مختلف باعث ارتعاش نقاط متفاوت اين غشا بدين معني كه فركانس هاي بسيار بم در يك انتها و فركانس هاي بسيار زير در انتهاي مقابل و فركانس هاي ديگر نيز به تناسب در طول غشا درك ميشوند. حال اگر فركانس خاصي با دامنه زياد سبب ارتعاش ناحيه متناظر خود در غشا شود و سيگنال ديگري با فركانس نزديك ولي دامنه كمتر در همان زمان وارد گوش شود نميتواند آن ناحيه از غشا را كه هم اكنون در حال ارتعاش است بخوبي تحريك كند و بنابراين توسط سيگنال قبلي پوشانيده شده و شنيده نميشود مگر آنكه فركانس اين سيگنال ضعيف بقدر كافي ( يعني به اندازه پهناي باند بحراني در آن فركانس مركزي از فركانس قويتر فاصله بگيرد براي مثال پهناي باند بحراني گوش در فركانس مركزي ١٠٠٠ هرتز در حدود ١٦٠ هرتز ميباشد بنابراين در حضور فركانس ١٠٠٠ هرتز قوي ، فركانس ١٠٥٠ هرتز با دامنه ضعيف شنيده نخواهد شد. زيرا در محدوده پهناي باند بحراني گوش در فركانس مركزي ١٠٠٠ هرتز قرار دارد. در حاليكه فركانس ١٢٠٠ هرتز با دامنه ضعيف تشخسص داده ميشود چون در خارج از محدوه پهناي باند بحراني گوش در فركانس مركزي ١٠٠٠ هرتز قرار دارد.
همپوشاني فركانسي :
اين اثر در واقع ملاحظاتي عددي در باره پهناي باند بحراني است كه توسط منحني هاي هم پوشاني تن يا نويز بيان ميشود.
همپوشاني زماني :
اثر همپوشاني به صورت زماني هم عمل ميكند بدين شكل كه هرگاه دو سيگنال تقريبآ همزمان ( ولي نه كاملآ همزمان ) اتفاق بيافتند سيگنال ضعيف تر ( مستقل از رفتار فركانسي ) تحت پوشش سيگنال قوي قرار گرفته و شنيده نميشود.اگر سيگنال قوي قبل از سيگنال ضعيف اتفاق افتاده و پوشيده شود آن را پيش پوشش ( Pre-masking ) و اگر بعد از سيگنال قوي اتفاق بيافتد و پوشيده شود آن را پس پوشش ( Post-Masking ) مينامند اثر همپوشاني در حالت پس پوشش شديدتر و موثرتر از حالت پيش- پوشش است.
اصول فشرده سازي :
تقريبآ در تمامي روش هاي فشرده سازي اصول كار مشابهند در حاليكه جزييات و نتايج نهايي با هم تفاوت دارند.
فرمت هاي فشرده سازي :
مهمترين فرمت، خانواده MPEG ميباشد كه شامل MPEG-1 ( در سه لايه پيچيدگي III, III,I ( و MPEG-2 ( در دو حالت :‌الف – سازگار با قبل Backward Comatible ب- پيشرفته و ناسازگار با قبل ( Advanced Audio Coding “ AAC ) و MPEG-4 و MPEG-7 است.دو فرمت مهم ديگر عبارتند از AC-3 كه به عنوان دالبي ديجيتال شناخته ميشود و فرمت ATRAC كه توسط سوني در سيستم هاي Mini Disk به كار گرفته شده است.
MPEG-1 :‌ اين فرمت كه در سال ١٩٩٢ براي سيگنال هاي مونو و استريو عرضه شده نرخ هاي نمونه برداري ورودي 32 KHz و 44/1 KHz و 48 KHz را قبول كرده و نرخ بيت خروجي بين ٣٢ تا ٣٨٤ كيلوبيت بر ثانيه را ارايه ميدهد و داراي سه لايه مستقل از هم ميباشد كه بتدريج پيچيده تر شده و بازده آنها افزايش ميابد.
لايه I ( حالت اول ) ساده ترين سازوكار را دارد. سيگنال ورودي به بسته هاي ثابت ٣٨٤ نمونه اي ( معادل ٨ ميلي ثانيه در فركانس ٤٨ كيلو هرتز ) تقسيم شده و توسط فيلتر ٣٢ باندي تفكيك ميگردد. پهناي باند اين فيلتر ها ثابت بوده ( بديل سهولت ) و بنابراين در فركانس هاي بم بيش از حد بم از حد پهن و در فركانس هاي زير بيش از حد لزوم باريك هستند واحد تحليل گر و مدل كننده اثارت هم پوشاني از تبدبل سريع فوريه FFT با دقت ٥١٢ نقطه استفاده ميكند. كه دقت متوسطي به شمار ميرود. در هر باند ١٢ نمونه ( 384 / 32 ) وجود دارد كه همه با هم پردازش ميشوند و توسط مقياس كننده ٦ بيتي كوانتيزه ميگردند.
لايه II ( حالت دوم ) كمي پيچيده تر است. برش زماني به ١١٥٢ نمونه معادل ٢٤ ميلي ثانيه در فركانس ٤٨ كيلو هرتز و دقت مبدل FFT به ١٠٢٤ نقطه افزايش ميابد ولي فيلتر ٣٢ باندي تغيير نميكند. واحد تخصيص دهنده بيت نيز بهبود يافته و عمل كوانتيزه را براي فركانس هاي بم و متوسط و زير به تفكيك انجام ميدهد.
لايه III كه به MP3 معروف است رفتار بازهم پيچيده تري دارد. برش زماني براي سيگنال هاي عادي ١١٥٢ نمونه است ولي براي سيگنال هاي گذرا و ضربه اي به ٣٨٤ نمونه كاهش ميابد. واحد تخصيص دهنده بيت بسيار دقيق تر عمل ميكند.
MPEG -2 :‌ حالت BC اين فرمت در سال ١٩٩٤ عرضه شد و صداي سراند را نيز به سيگنال مونو واستريو و هچنين نرخ هاي نمونه برداري ١٦ و ٢٢٠٥ و ٢٤ كيلو هرتز را به استاندارد MPEG-1 اضافه ميكند ولي ساختار آن بسيار مشابه MPEG-1 است. حالت AAC بسيار پيشرفته بوده كه مبنا MPEG-4 نيز قرار گرفت.فيلتر ها پيچيده ترند و برش زماني بين ٢٥٦ و ٢٠٤٨ نمونه متغير است . واحد تحليل گر و مدل كننده اثرات هم پوشاني نيز كاملآ بهبود يافته و از يك الگوريتم پيشبيني كننده استفاده مينمايد . در عمل اين فرمت صدايي با كيفيت بهتر از فرمت هاي ديگر حاصل ميكند نرخ داده هاي خروجي داكثر برابر با ٢٨٨ كيلو بايت بر ثانيه براي هر كانال خواهد بود.
AC-3 : فرمتي است كه در سال ١٩٩٢ توسط شركت دالبي معرفي شد و اولين فرمت فشرده سازي است كه امكان استفاده از صداي سراند را فراهم ساخت. برش زماني در حالت عادي برابر با ٥١٢ نمونه است. ورودي به طور منظم براي بررسي سيگنال ضربه اي كنترل ميشود و در صورت وقوع آن ، برش زماني به نصف كاهش ميابد. واحد تخصيص بيت از روش مميز شناور و حذف موارد متوالي يكسان براي صرفه جويي در حجم داده ها كمك ميگيرد. نرخ داده هاي خروجي حداكثر برابر با ٦٤٠ كيلو بيت بر ثانيه است.
ATRAC :‌ فرمتي است كه توسط شركت سوني در سيستم MD استفاده شده است در اين روش سيگنال ورودي به دو نيمه فركانسي تقسيم شده و نيمه بالايي خود نيز به دو نيمه تقسيم ميشود. محدوده فركانس هاي بم 0-5/5 KHz به ٢٠ باند و دو محدوده فركانس هاي مياني و زير هر يك به ١٦ باند تقسيم ميشود ( مجموعا ٥٢ باند ). برش زماني نيز بر حسب ضربه اي بودن سيگنال بين ١.٥٤ تا ١١.٦ ميلي ثانيه متغير است . سپس واحد تخصيص دهنده بيت عمل فشرده سازي داده ها را انجام ميدهد بطوري كه نرخ خروجي برابر با ٢٩٢ كيلوبيت بر ثانيه معادل تقريبا يك پنجم نرخ داده در ديسك فشرده ميرسد . نسخه هاي جديد تر شامل MDLP ( Long Play ) نيز هستند كه با فشرده سازي بيشتر و البته افت كيفيت ، زمان ضبط و پخش را به دو تا چهار برابر افزايش ميدهد.



منبع : ارتعاش