دانلود پایان نامه صحت گفتار
صفحه اصلی بازاریابی و همکاری در فروش راهنمای خرید پرسش و پاسخ درباره ما پشتیبانی تبلیغات تماس با ما

دانلود پایان نامه صحت گفتار

دانلود پایان نامه صحت گفتار

فصل اول مقدمه:
صحت و گفتار نقش اساسي در ارتباط انسانها ايفا مي‌كنند و يكي از دلايل پيشرفت انسانها است.
براي برقراري ارتباط كامپيوتر با انسان بوسيلة گفتار در كار لازم است انجام شود. يكي سنتزل گفتار است. و ديگري بازشناسي گفتار، سنتز گفتار بيان گفتار بوسيلة كامپيوتر مي‌باشد و بازشناسي يعني فهميدن گفتار در بازشناسي گفتار. هدف بدست آوردن دنبالة آوايي يك گفتار مي‌باشد و اين دنبالة آوايي مي‌تواند بر اساس واج، سيلاب، كلمه، جمله و … باشد. بازشناسي گفتار عكس عمل سنتز است و گفتار را به متن تبديل مي‌كند. اما انجام بازشناسي گفتار به دليل خاصيت صداي انسانها، داراي پيچيدگي‌هاي زيادي است. اما اغلب بازشناسي كامل و درست غير ممكن است. حتي خود انسانها هم نمي‌توانند به طور كامل همه صداها را بفهمند و ميزان، درك گوش انسانها حدود 70% مي‌باشد. شكل 1-1 ارتباط گفتاري بين انسانها و كامپيوتر را نشان مي‌دهد. به دليل نقش مهم و كاربردهاي فراواني كه بازشناسي گفتار دارد، تحقيقات و مقاله‌هاي زيادي در اين زمينه انجام شده و راه حل‌هاي متفاوتي پيشنهاد شده است،‌ ولي بازشناسي گفتار كاملاً درست هنوز امكان‌پذير نمي‌باشد.
بازشناسي گفتار داراي كاربردهاي زيادي است. از جمله كاربردهاي بازشناسي گفتار، حل مشكل تايپ است، با كمك بازشناسي گفتار مي‌توان جمله‌ها را يكي پس از ديگري خواند و كامپيوتر آنها را تايپ كند. يكي ديگر از كاربردهاي بازشناسي گفتار، حل مشكل صحبت دو فرد مختلف همزبان است. يكي از مشكلات انسانها ارتباط با افرادي است كه با زبانهاي متفاوت صحبت مي‌كنند. ارتباط بدون دانستن زبان مشكل است. و يادگيري يك زبان ديگر كار وقت گير و پر زحمتي است ولي به كمك بازشناسي گفتار به يادگيري زبانهاي مختلف احتياجي نخواهد بود و مي‌توان با يك دستگاه كوچك با فردي كه با زبان ديگري صحبت مي‌كند، صحبت نمود. يك كامپيوتر كوچك صداي شما را گرفته و به تعدادي از كلمات تبديل مي‌نمايد. سپس اين كلمات به زبان ديگر ترجمه شده و در نهايت با زبان جديد گفته مي‌شوند. دو مرحلة آخر اين سيستم جزو مسايل انجام شده گفتار هستند و با كامل نمودن مسئله بازشناسي گفتار بدون دانستن زبان‌هاي ديگر به آنها تكلم نمود.
شكل 1-2 نشان دهنده ارتباط دو فرد با زبان‌هاي مختلف است. يكي از كاربردهاي ديگر بازشناسي گفتار، برقراري ارتباط با كامپيوتر است. همان گونه كه به انسانهاي ديگر دسترس مي‌دهيد، به كامپيوتر هم مي‌توان دستور داد و با آن صحبت كرد. يا حتي مي‌توانيد از او بخواهيد كاري برايتان انجام دهد.
حتي با كمك بازشناسي گفتار مي‌توان به انسانهاي نابينا و ناشنوا كمك كرد. به طور مثال نابينايان مي‌توانند با صحبت كردن و دادن دستور به كامپيوتر با آن كار كنند.
از دستاوردهاي جديد بازشناسي گفتار و پردازش مدت كاربرد آن در آموزش‌هاي زبان دوم مي‌باشد. بدين ترتيب كه با ايجاد سيستمي‌كه قابليت آشكارسازي خطاي تلفظ بين لهجه‌هاي زبان اصلي و لهجة يك فردي كه به زبان دوم فرد سخن مي‌گويد، وي را در يادگيري و تصحيح تلفظ و لهجه آن زبان كمك نمي‌كنند.
بازشناسي گفتار مي‌تواند براي شرايط مختلفي انجام گيرد. هر كدام از اين شرايط مي‌توانند باعث مشكل شدن، پيچيدگي بازشناسي شوند. يكي از اين شرايط، وابسته بودن بازشناسي به يك گوينده يا مستقل بودن آن از گوينده است. مستقل بودن از گوينده به معناي آن است كه بتوان كار بازشناسي را براي هر فرد انجام داد. از ديگر شرايط بازشناسي گسسته يا پيوسته بودن گفتار است. راحتي بازشناسي گفتار گسسته، داشتن ابتدا و انتهاي عصر كلمه يا اساساً خود كلمه يا همان واحد آوايي مي‌باشد. همچنين از ديگر شرايطي كه در بازشناسي مطرح است،تعداد واژگان مي‌باشد. يعني بازشناسي گفتار براي چه تعداد كلمه‌اي صورت مي‌پذيرد.
هدف از انجام پروژة فوق در ابتدا بازشناسي كلمات گسسته قراني و در مرحلة دوم ارزيابي نحوة بيان و تلفظ كلمات قرآني مي‌باشد. از آنجائيكه براي مقايسه بين كلمة ادا شده توسط كاربر و صداي استاد بايد يك سيستم بهينه وجود داشته باشد. در مرحلة اول سعي مي‌كنيم، سيستم را به حالت بهينه خود برسانيم و سپس پارامترهاي اين سيستم جهت انجام مرحلة دوم استفاده كنيم.
اما چون در هنگام ارزيابي نحوة‌ بيان كلمه قرآني، كلمه مورد نظر از قبل مشخص است، بناباين در مرحله دوم احتياجي به بازشناسي گفتار نمي‌باشد.
در بخش اول براي بهتر درك كردن مفهوم بازشناسي به بررسي سيستم توليد صوت و شنوايي انسان مي‌پردازيم. سپس وارد مفاهيم بازشناسي گفتار خواهيم شد. در اين مرحله روشهاي جداسازي سيگنال زمينه از روي سيگنال صحبت مورد بررسي قرار مي‌گيرد. سپس نحوة استخراج ماتري ضرائب كپستروم و در نهايت بازشناسي گفتار بوسيلة الگوريتم انحراف زماني پويا (DTU) و مدل مخفي ماركوف مورد بررسي قرار مي‌گيرد.
پس از آشنايي با ابزارهاي بازشناسي گفتار، نحوة پياده سازي الگوريتم‌هاي فوق ذكر خواهد شد. بعد از راه‌اندازي سيستم بازشناسي گفتار كلمات مقطع، بوسيلة الگوريتم DTN مشاهده شد نرخ بازشناسي گفتار پائيني است و حدود %47 مي‌باشد. از اين رو در جهت بهبود پارامترهاي سيستم و بهينه كردن آن در مراحل بازشناسي و پارامترهاي آن تغييراتي داده شد، كه به ذكر آنها پرداخته خواهد شد.
پس از بهينه كردن پارامترهاي سيستم بازشناسي گفتار و رسانيدن نرخ بازشناسي گفتار به 99% براي 20 كلمه قرآني الگوريتم‌هاي ارزيابي نحوة بيان بوسيلة روش DTA بحث خواهد شد.
در بخش انتهايي به بررسي مدل مخفي ماركوف خواهيم پرداخت. سپس مراحل پياده سازي الگوريتم فوق بوسيلة نرم افزار و نكات عملي آن گفته خواهد شد. در نهايت سيستم بازشناسي گفتار كلمات مقطع قرآني و نحوة پياده سازي آن مورد بررسي قرار خواهد گرفت و در مرحلة بعدي الگوريتم ارزيابي نحوة بيان بوسيلة ذكر خواهد شد.
تغيير محيط اكوستيكي روي نتيجه بازشناسي اثر خواهد گذاشت. از آنجائيكه سيستم فوق براي نمونه‌هاي آزمايشگاهي آموزش داده شده با تغيير محيط اكوستيكي مطمئناً نتايج بازشناسي تغيير خواهد كرد و نمونه‌هاي واقعي داراي نوين ميكروفن، محيط و همچنين برگشت صدا خواهند بود.
در انتها به بررسي سيستم‌هاي بهبود گفتار خواهيم پرداخت، هدف از اين بخش حذف هزينه ورودي از طريق ميكروفن و از بين بردن تأثيرهاي محيط بر روي سيگنال صدا مي‌باشد.
در اين بخش به دو روش اشاره خواهيم: ابتدا روش spectral subtraction
كه به ميزان يك روش عمدي براي حذف نويز مي‌رود ذكر خواهد شد.
سپس به معرفي يك الگوريتم جديد در حذف نويز ميكروفن خواهيم پرداخت.

مدل اعضاي صوتي انسان
در شكل (1-2) يك دياگرام شماتيك از مكانيزم توليد صحبت انسان نشان داده شده است. هنگام صحبت معمولي،‌ قفسه سين با فشار وارد كردن به ششها باعث مي‌شود كه هواي فشرده از ششها از طريق حنجره بيرون رانده شود. تارهاي صوتي كه درست در پشت غدة تيروئيد قرار گرفته‌اند،‌ اگر تحت تنش قرار گيرند، با عبور هوا مرتعش مي‌شوند و بدين ترتيب هوا نيز متناسب با فركانس ارتعاش تارهاي صوتي مرتعش شده و در اين حالت حروف صدادار توليد مي‌گردند.
اگر تارهاي صوتي از هم جدا شوند، جريان هوا از درون فاصلة بين تارهاي صوتي عبور مي‌كند و تأثير آن ايجاد نمي‌شود. جريان هوا سپس از فضاي حلق عبور نموده و بسته به موقعيت دريچة تنظيم عبور هوا از دهان يا بيني از فضاي اين دو عبور مي‌نمايد. جريان هوا از طريق دهان و بيني يا هر دو مشتركاً به بيرون داده مي‌شود و هنگام صحبت اين كاملاً قابل حس كردن است.
در حالت توليد حرف بي صدا مانند «س» يا «پ» تارهاي صوتي در هم باز مي‌شوند و يكي از دو حالت زير غالب است. يا يك جريان مغشوش هوا توليد مي‌شود، هنگامي‌كه هوا از درون فضاي نيمه بسته باريك در نقطه‌اي از اعضاي صوتي عبور مي‌كند (مانري) و يا يك تحريك گذري مختصر بدنبال ايجاد فشار پشت يك نقطة كاملاً بسته در اعضاي صوتي انسان اتفاق مي‌افتد (مانند p).
وقتيكه جز جز كننده‌هاي مختلف مانند زبان، لبها، آرواره‌ها و پردة تفكيك بيني و دهان در حين صحبت مدام حالتشان عوض مي‌شود. شكل قسمتهاي مختلف فضاي داخل ناخيه صوتي تغيير مي‌كند. ناحيه صوتي از حنجره تا لبها مانند يك حفرة تشديد كننده عمل مي‌كند كه فركانسهاي معيني را تقويت و بقيه فركانسها را تضعيف مي‌نمايد. اعضاي صوتي انسان مثل يك لولة صوتي غير يكنواخت است كه از تارهاي صوتي تا لبها ادامه دارد و طول آن در افراد مانع حدود cm17 مي‌باشد. بنابراين اولين فركانس تشديد آن در فركانس زير اتفاق مي‌افتد.
سطح مقطع غير يكنواخت اين لوله – مقدار زيادي متكي به وضعيت جز جز كننده‌ها است. و از صفر تا نزديك cm20 متغير است.
عضو صوتي مدهاي تشديد يعني از ارتعاش را داراست كه فرمنت ناميده مي‌شود كه به مقدار زيادي به موقعيت دقيق جزءجزءكننده‌ها بستگي دارد.
شكل (2-2) تصوير شماتيك نيم رخ ناحيه صوتي را براي چند حرف صدادار نشان داده است و مقادير نمونه فركانسها نيز ذيل آن براي سه فرمنت اول بر حسب Hz داده شده است.
شكل 3-2 مشخصه‌هاي فركانسي انتقالي اين حروف را نشان مي‌دهد، وضعيت تشديدها به روشني در اين منحني‌ها ديده مي‌شود. خوبست كه بدانيم بطور قابل ملاحظه‌اي در فهم صحبتها، فقط 3 فرمنت اول در تعيين صدايي كه شنيده مي‌شود مهم هستند. اگرچه براي توليد اصوات با كيفيت قابل قبول و بهتر فرمنت‌هاي بالا نيز مورد نياز مي‌باشد.
شكل موج صداي توليد شده بوسيلة حنجرة در هر حال يك سينوسي معمولي نيست. اگر اينطور بود ناحيه صوتي تشديد كننده، در خروجي فقط يك سيگنال سينوس مي‌داد كه بسته به ميزان دور يا نزديك بودن آن به فركانس تشديد، تقويت يا تضعيف شده بود.
حنجره داراي دو لبه چين خوردة پوستي بنام تارهاي صوتي است كه در هر سيكل از پريود فركانس گام يكبار از هم باز شده و دوباره بهم مي‌آيد. فركانس هيچ در مكالكات انسان مذكر از 50 الي 250 هرتز متغير است كه بطور متوسط حدود Hz100است. براي انسان مؤنث اين فركانس در رنج بالاتر تا حدود Hz500 قرار دارد. در آواز خواندن اين فركانس بالاتر نيز هست. بعضي آوازخوانهاي اپرا، فركانس گام خود را تا Hz1000 مي‌توانند برسانند.
حركت نوساني تارهاي صوتي شكل موجي توليد مي‌كند كه مي‌توان آن را با يك پالس مثلثي تقريب زد. اين شكل موج داراي طيف فركانسي غني است كه با شيب db/ocdao12 مي‌افتد و همة‌‌هارمونيكها نيز تحت تأثير نواحي تشديد اعضاي صوتي قرار مي‌گيرند. (شكل 4-2)
شكل 4-2 بالائي مربوط است به مدل فيلتر منبع كه مشخصات فيلتر و طيف است. شكل سمت راست تحريك دهانة حنجره در گفتار طبيعي است و بالاخره شكل سمت چپ تقويت در تحريك دهانه حنجره است.
ناحيه صوتي وقتي كه به وسيلة يك شكل موج با طيف‌هارمونيكي گسترده قرار مي‌گيرد. نقاط موجي در طيف انرژي شكل موج مكالمات توليد مي‌كند كه همان فرمنت‌ها هستند. پائين ترين فرمنت كه اولين فرمنت ناميده مي‌بود از حدود Hz.200 تا Hz100 در حين صحبت متغير است. و مقدار دقيق آن متكي به ابعاد ناحيه صوتي مي‌باشد.
فرمنت دوم از حدود Hz500 تا Hz9500 متغير است و فرمنت سوم از حدود Hz1500 تا Hz3500. البته گفتار يك پديدة استاتيك و ثابت نيست. مدل لولة صوتي مي‌تواند نمايشگر طيف گفتار در مدتي كه يك حرف صدادار بطور ممتد كشيده مي‌شود و دهان در حالت ثابت باقي مي‌ماند (مانند آآ‌آ) باشد. اما در گفتار واقعي زبان و لبها در تحريك دائم هستند و شكل ناحيه صوتي را مرتباً تغيير مي‌دهند و نتيجتاً موقعيت فركانسهاي تشديد را عوض مي‌كنند. اين مشابه يك لوله صوتي است كه بطور مداوم از قسمتهاي مختلف فشرده و منبسط مي‌شود.
بعنوان مثال در هنگام بيان كلمة «ميز» احساس مي‌كنيم كه چطور زبانتان به سقف دهان نزديك مي‌شود و باعث ايجاد يك حالت عبوري نيمه بسته در نزديك جلوي حفرة صوتي مي‌شود.
در طيف يك حرف صدادار كه بطور مداوم ادامه داده شود، بصورت مداوم ادامه داده شود، بصورت يك طيف انرژي ثابت مي‌آيد. اما بايد توجه داشت كه منظور از حروف صدادار در اينجا با آنچه معمولاً تصور مي‌شود متفاوت است. بگوئيد «I» و ببينيد زبان هنگام بيان به آهستگي تغيير موقعيت مي‌دهد. از نظر تكنيكي اين تها يك حرف صدادار نيست و يك لغزش بين دو موقعيت مربوط به دو حرف صدادار است.
تفاوتهاي شنوايي اصلي بين حروف صدادار مختلف و فركانسهاي دو فرمنت اول آنهاست. ديديم كه صحبت كردن، محدود كردن صوت است بعد از آنكه بوسيلة نوسانات در حنجره توليد شده است. وقتي كه با حالت نجوا و زمزمه صحبت مي‌كنيم، تارهاي صوتي در حنجره كمي‌از هم جدا نگاه داشته شده‌اند و هواي عبوري از آنها بصورت مغشوش در مي‌آيد و باعث تحريك حفرة تشديد كننده (اعضاي صوتي) بوسيلة يك نويز مي‌گردد.
فرمنتها در اينجا نيز حضور دارند و روي نويز سوار شده‌اند. براي حروف صدادار ريشة حروف در تارهاي صوتي است و صدا حاوي فرت‌هاي شبه پريوديك با باند عريض است كه توسط مرتعش شدن تارهاي صوتي ايجاد گرديده‌اند.
براي حروف بي صدا مانند «س» صدا در نقطه نيمه بسته تحت فشار در عضو صوتي قرار دارد و شامل جريان هواي شبه رندوم مغشوش مي‌باشد. براي حروف بي صدا مانند p (مثل pop) ريشة حرف در نقطه مسدود قرار دارد و بوسيلة‌ آزاد شدن هواي فشرديكه پشت نقطة كاملاً مسدود ايجاد گرديده است، توليد مي‌گردد. از نوع اخير كه صداهاي تنفسي ناميده مي‌شود، حرف H مثل كلمه Hello را نيز مي‌توان ذكر نمود. بدين ترتيب حروف مكالمات را به 3 دسته مي‌توان تقسيم نمود:
1- حروف صدادار
2- حروف بي صدا سايشي مثل س ر ش ف
3- حروف بي صداي تنفسي هـ، پ
توليد حروف بي صدا از نوع سايشي نيز ميسر است كه مثلاً حروف ز ژ – و كه آنها را صدادار سايشي مي‌ناميم. نمونة حروف بي صدا سايشي س – ش – ف هستند.

2-2 مدل منبع – فيلتر گفتار
فرض اساسي در تقريباً تمامي‌سيستمهاي پردازش گفتار اين است كه منبع تحريك و سيستم اعضاي صوتي مستقل از هم هستند. اين موضوع به ما اجازه مي‌دهد كه در مورد تابع تبديل عضو صوتي بحث كنيم و اين امكان را مي‌دهد كه اين سيستم را با هر منبع ممكن ديگر تحريك نمائيم.
فرض فوق در مورد اكثر حالات مورد نظر ما به خوبي معتبر مي‌باشد. البته حالاتي نيز وجود دارد كه فرض فوق معتبر نمي‌باشد و مدل اساسي مي‌شكند (مانند حرف p در po). براي بيشتر قسمتها ما معتبر بودن آن را فرض مي‌نمائيم. بر اين اساس يك مدل ديجيتالي ساده توليد گفتار را در شكل (5-2) مشاهده مي‌كنيم.
منابع تحريك عبارتند از يك مولد پالس كه فركانس آن همان فركانس گام مي‌باشد و يك مولد نويز رندوم.
مولد پالس در هر تعداد از نمونه و مرتبط با شروع عبور يك حجم از هوا از تارهاي صوتي، يك پالس توليد مي‌كند كه طول آن متناسب با پريود گام مي‌باشد. خروجي نويز رندوم مشابه اغتشاش شبه رندوم برار حروف بي صدا مي‌باشد. هر كدام يا هر دو اين منابع ممكن است بعنتوان ورودي براي يك فيلتر ديجيتال خطي و متغير با زبان بكار روند. اين فيلتر، عضو صوتي (ناحيه صوتي) را مشابه سازي مي‌نمايد و ندا ضرايب فيلتر تعيين كننده ناحيه صوتي بعنوان يك تابع متغير نسبت به زمان در حين گفتار مي‌باشند.
بطور متوسط در هر 10 ميلي ثانيه يكبار، ضرايب فيلتر عوض مي‌شوند كه نشانگر مشخصات ناحيه صوتي جديد هستند، كنترل بهره

فهرست مطالب
فصل اول مقدمه
مدل اعضاي صوتي انسان
-2 مدل منبع – فيلتر گفتار
فصل دوم
Speech analysist
مقدمه:
فريم بندي سيگنال صحبت
فيلتر پيش تأكيد
جداسازي سيگنال صحبت از روي سيگنال زمينه
پيدا كردن اولين و آخرين فريم واكه‌دار
مرحله 4 پيدا كردن نقطة انتهايي و ابتدايي
پياده سازي الگوريتم‌ها
استخراج ضرائب كپزرم
محاسبة ضرايب دلتاكپترال
پردازش روي فريم‌هاي واكه دار:
روش اول: استفاده از autocorrelation
روش دوم: استفاده از ضرائب كپستروم
پياده سازي الگوريتم‌ها
فركانس فرمنت
استخراج فركانس فرمنت از طريق حل ريشه‌هاي LPC
آناليز پيشگويي خطي (LPC)
مدل توليد صحبت
روش همبستگي
روش كوواريانس
مقايسه روش‌هاي همبستگي و كوواريانس
مرتبه پيشگو
كوانتيزاسيون برداري
الگوريتم LBG
فصل سوم: انحراف پوياي زماني (Dynamic time warpping)
مقدمه:
– هم ترازي‌سازي زماني و نرماليزاسيون
مروري بر Dynamic programing
محدوديتهاي نرماليزاسيون زماني
محدوديتهاي نقطه انتها
شرايط يكنواختي
محدوديت پيوستگي محلي
محدوديت در مسير سراسري
وزن دهي شيب منحني
انحراف زماني پويا (dynamic – lime warping)
فصل چهارم
استفاده از مدلهاي ماركف مخفي
در تشخيص گفتار
2-3- مدل ماركف مخفي (HMM) ]21[
مدل كاسه و گلوله
1-2-3- اجزاي يك HMM
2-2-3- سه مسئله اساسي در HMM
حل مسئله 1
-1-2-2-3- الگوريتم پيشرو – پسرو
2-2-2-3- حل مسئله 2
3-2-2-3- حل مسئله 3
1-4- الگوريتم بام – ولچ ]21[ و ]11[
-4- مسائل مربوط به پياده سازي روش ML
الف – مقياس بندي
ب. دنباله هاي مشاهده چندتايي
پ. تخمين اوليه پارامترهاي HMM
فصل 5: بازشناسي و ارزيابي نحوه بيان كلمات مقطع قرآني
بازشناسي گفتار بوسيله الگوريتم DTW
تاثير طول پنجره در كيفيت گفتار جداشده در زمينه
تطابق چندالگويي
روش اول: استفاده در ميانگين الگوها:
الگوريتم پيدا كردن كلمة مناسب
فلوچارت مربوط به الگوريتم knn
حذف ميانگين ضرايب كپستروم
MEI Scald-MFCC
پياده سازي
طراحي ساختار مدل مخفي ماركوف
مقدار دهي اوليه Hmm
تخمين بيشترين شباهت
بازشناسي گفتار
بخش دوم لرزيابي نحوة بيان گفتار قرآني
ارزيابي نحوه بيان گفتار قرآني بوسيله و تطابق الگو
Log spectral Distance
Weignted cepstral Distance
Cepstral Distance
Distance base on LPC
پيدا كردن منحني فاصله‌ها
امتيازدهي به گوينده
استفاده از هر ارزيابي نحوة بيان
استفاده از Hmm در ارزيابي نحوة بيان

پایان نامه صحت گفتار

قیمت : 7000 تومان

[ بلافاصله بعد از پرداخت لینک دانلود فعال می شود ]





برچسب :




تبلیغات