fbpx
วิกิพีเดีย

การรู้จำคำพูด

บทความนี้มีเนื้อหาที่สั้นมาก ต้องการเพิ่มเติมเนื้อหาหรือพิจารณารวมเข้ากับบทความอื่นแทน

การรู้จำคำพูด ใช้หลักของการออกเสียงเข้ามาเกี่ยวข้อง โดยการรู้จำของระบบคอมพิวเตอร์นั้นจะต้องใช้ศาสตร์ทางด้านปัญญาประดิษฐ์โดยวิธีการเรียนรู้ของระบบคอมพิวเตอร์จะจำเอารูปแบบเสียง ๆ นั้น มาสร้างเป็นฟังก์ชันที่จะใช้ในการคำนวณของระบบคอมพิวเตอร์เมื่อได้รับเสียงเข้ามาก็จะเอาเสียงไปเทียบกับฟังก์ชันที่ได้สร้างขึ้น

เทคโนโลยีรู้จำเสียงพูด (Automatic Speech Recognition: ASR)

เป็นสาขาย่อยของ วิชาภาษาศาสตร์คอมพิวเตอร์ที่พัฒนาวิธีการและเทคโนโลยีที่ช่วยให้การรับรู้และการแปลภาษาพูดเป็นข้อความโดยคอมพิวเตอร์ ซอฟต์แวร์รู้จำเสียงพูดขั้นพื้นฐานมีคำศัพท์ที่จำกัด องคำและวลีและอาจระบุสิ่งที่พูดอย่างชัดเจน ซึ่งประเภทของระบบรู้จำเสียงพูดสามารถแบ่งได้ เป็น 3ประเภท ดังนี้

1.เทคโนโลยีรู้จำเสียงพูดแบบคำโดด (Isolated speech) คือระบบที่รู้จำคำสั้นๆเพียงไม่กี่คำสั่ง เพื่อให้ระบบบสามารถตอบโต้ได้อย่างรวดเร็ว

2.เทคโนโลยีรู้จำเสียงพูดแบบต่อเนื่อง (Continuous speech) คือระบบรู้จำคำจากเสียงอย่างต่อเนื่อง แล้วทำการพิจารณาตัดเสียงพูด

3.เทคโนโลยีรู้จำที่จำเสียงเพียงบ้างส่วน (Spontaneous speech) คือระบบที่จดจำเสียงที่ตรวจหาคำสำคัญเพียงคำเดียวในประโยคเพื่อหาใจความสำคัญ

Speech Recognition คือระบบโปรแกรมคอมพิวเตอร์ที่สามารถแปลงเสียงพูด (Audio File) เป็นข้อความตัวอักษร (Text) โดยสามารถแจกแจงคำพูดต่างๆ ที่มนุษย์สามารถพูดใส่ไมโครโฟน โทรศัพท์หรืออุปกรณ์อื่นๆ และเข้าใจคำศัพท์ทุกคำอย่างถูกต้องเกือบ 100% โดยเป็นอิสระจากขนาดของกลุ่มคำศัพท์ ความดังของเสียงและลักษณะการออกเสียงของผู้พูด โดยระบบจะรับฟังเสียงพูดและตัดสินใจว่าเสียงที่ได้ยินนั้นเป็นคำๆใด เทคโนโลยีที่เป็นส่วนสำคัญในการทำ ASR เรียกว่า Hidden Markov Model (HMM) เทคโนโลยีชนิดนี้สามารถที่จะเข้าใจคำพูด จากการจำแนกความแตกต่างและการประมาณการถึงความเป็นไปได้ของส่วนประกอบของหน่วยที่เป็นพื้นฐานของเสียงที่อยู่ติดๆกัน โดยอาศัยหลักการที่ว่าเสียงแต่ละเสียงจะมีขอบเขตของสัญญาณและลักษณะเฉพาะที่มีความแตกต่างกัน

โดยระบบรู้จำเสียงพูด มีส่วนประกอบหลัก 5 ส่วนคือ

1) ส่วนรับเสียง (Acoustic Front-end) เป็นส่วนที่ทำหน้าที่เกี่ยวกับการประมวลผลสัญญาณ (signal processing) และสกัดคุณลักษณะ (feature extraction)

2) โมเดลเสียง (Acoustic Model) เป็นส่วนที่จัดเก็บความรู้สำหรับระบบรู้จำเสียงพูด

3) โมเดลภาษา (Language Model) เป็นส่วนที่รวบรวมเงื่อนไขของลำดับคำในภาษา

4) ตัวตรวจจับ (Decoder) เป็นส่วนที่ค้นหาความคล้ายของลำดับคำจากเสียงที่ได้รับ

5) คลังศัพท์ (Lexicon) เป็นส่วนที่จัดเก็บคำศัพท์ทั้งหมด

บทบาทของเทคโนโลยีการรู้จำเสียงพูดที่สำคัญในปัจจุบัน คือ เป็นตัวเชื่อมประสานกับผู้ใช้งาน (User Interface) ซึ่งอำนวยความสะดวกในการติดต่อระหว่างมนุษย์กับคอมพิวเตอร์ ขณะที่มือไม่ว่าง ต้องการความคล่องตัว สายตาไม่ว่าง ไม่ต้องการใช้คีย์บอร์ด ทัศนวิสัยไม่ดี มีข้อจำกัดด้านร่างกาย ฯลฯ

ทั้งนี้ความท้าทายและทิศทางการพัฒนาเทคโนโลยีดังกล่าว มีดังต่อไปนี้

1) ความทนทาน (Robustness) เพื่อให้ได้ความถูกต้องของการรู้จำที่ไม่ลดลง เมื่อข้อมูลที่ส่งมาเกิดความผิดเพี้ยนหรือหายไปเนื่องจากสิ่งรบกวนต่างๆ

2) การเรียนรู้และปรับปรุงตัวเองโดยอัตโนมัติ (Automatic Training and Adaptation) เพื่อให้ระบบสามารถเรียนรู้และปรับปรุงตัวเองให้เข้ากับการทำงานในลักษณะต่างๆ ได้อย่างรวดเร็ว ประหยัด และเรียบง่าย

3) การรู้จำเสียงพูดที่เป็นธรรมชาติ (Spontaneous Speech) เพื่อให้ระบบสามารถรู้จำสำเนียงการพูด (Prosody) จังหวะการพูด อารมณ์ และพฤติกรรมการพูดรูปแบบแบบต่างๆ

4) การสนทนา (Dialogue Models) เพื่อให้ระบบสามารถเข้าใจบทสนทนาของผู้ใช้

5) การสร้างภาษาโต้ตอบ (Natural Language Response Generation) เพื่อให้ระบบ สามารถสร้างภาษาโต้ตอบกับผู้ใช้ โดยภาษาที่สร้างขึ้นต้องสอดคล้องและเหมาะสมกับเรื่องที่กำลังสนทนา

6) การสังเคราะห์และสร้างเสียงพูด (Speech Synthesis and Generation) เพื่อให้ระบบสามารถสังเคราะห์เสียงพูดและสนทนาโต้ตอบกับผู้ใช้

7) ร ะบบหลายภาษา (Multilingual Systems) เพื่อการเข้าถึงข้อมูลข้ามภาษาและการแปลภาษาแบบทันกาลจากเสียงพูด

8) ระบบแบบผสมผสาน (Multimodal Systems) เป็นการนำข้อมูลด้านอื่นที่นอกเหนือจากข้อมูลทางภาษาและเสียงพูด เช่น สีหน้า ฝีปาก ท่าทาง และลายมือ เข้ามาใช้เพื่อเพิ่มความถูกต้องของการรู้จำและความเข้าใจในภาษา

ตัวอย่าง รถเข็นคนพิการควบคุมด้วยระบบรู้จำเสียงพูด

ระบบรู้จำเสียงพูด (Speech Recognition) ใช้ในการควบคุมรถเข็นคนพิการให้เคลื่อนที่ไปในทิศทางต่างๆ โดยกำหนดด้วยคำสั่ง 9 คำสั่ง ประกอบด้วยคำว่า เดินหน้า ถอยหลัง เลี้ยวซ้าย เลี้ยวขวา กึ่งซ้าย กึ่งขวา เร็วขึ้น ช้าลง และหยุด ซึ่งจะเป็นคำสั่งที่ใช้เป็นสัญญาณอินพุตเข้าสู่ระบบ และระบบก็จะประมวลผลตัดสินใจและส่งค่าเอาท์พุต ออกไปควบคุมมอเตอร์เพื่อเคลื่อนรถเข็นคนพิการในทิศทางที่สั่ง

องค์ประกอบหลักๆ ของระบบรู้จำเสียงพูดแบ่งได้เป็น 3 ขั้นตอนดังนี้

1.การเตรียมสัญญาณขั้นต้น (Preprocessing)

เป็นขั้นตอนที่จะทำให้สัญญาณเสียงที่จะนำไปใช้ หรือรับเข้ามานั้น มีความสมบูรณ์มากที่สุด โดยจะทำการกำจัดสัญญาณรบกวน (Noise) และตัดส่วนที่ไม่ใช่สัญญาณเสียง (Unvoice) ออกซึ่งจะเหลือแต่เพียง ช่วงที่เป็นข้อมูลเสียง

2. การหาลักษณะสำคัญของเสียง (Feature Extraction)

เป็นขั้นตอนที่ใช้สำหรับหาองค์ประกอบสำคัญต่างๆ ของเสียงแต่ละเสียงที่รับเข้ามา ให้รู้ว่าคำแต่ละคำนั้นมีลักษณะเด่นอย่างไร

3. การรู้จำเสียงพูด (Speech Recognition)

เป็นขั้นตอนที่ให้ระบบทำการเรียนรู้โดยการนำสัญญาณเสียงเข้าสู่ระบบโครงข่ายประสาทเทียม (Neural Network System) เพื่อระบบจะทำการตัดสินใจ และให้ผลลัพธ์ตามสัญญาณเสียงที่แตกต่างกันได้ถูกต้อง

การร, จำคำพ, บทความน, ไม, การอ, างอ, งจากแหล, งท, มาใดกร, ณาช, วยปร, บปร, งบทความน, โดยเพ, มการอ, างอ, งแหล, งท, มาท, าเช, อถ, เน, อความท, ไม, แหล, งท, มาอาจถ, กค, ดค, านหร, อลบออก, เร, ยนร, าจะนำสารแม, แบบน, ออกได, อย, างไรและเม, อไร, บทความน, เน, อหาท, นมาก,. bthkhwamniimmikarxangxingcakaehlngthimaidkrunachwyprbprungbthkhwamni odyephimkarxangxingaehlngthimathinaechuxthux enuxkhwamthiimmiaehlngthimaxacthukkhdkhanhruxlbxxk eriynruwacanasaraemaebbnixxkidxyangiraelaemuxir bthkhwamnimienuxhathisnmak txngkarephimetimenuxhahruxphicarnarwmekhakbbthkhwamxunaethn karrucakhaphud ichhlkkhxngkarxxkesiyngekhamaekiywkhxng odykarrucakhxngrabbkhxmphiwetxrnncatxngichsastrthangdanpyyapradisthodywithikareriynrukhxngrabbkhxmphiwetxrcacaexarupaebbesiyng nn masrangepnfngkchnthicaichinkarkhanwnkhxngrabbkhxmphiwetxremuxidrbesiyngekhamakcaexaesiyngipethiybkbfngkchnthiidsrangkhun bthkhwamekiywkbethkhonolyi hrux singpradisthniyngepnokhrng khunsamarthchwywikiphiediyidodyephimkhxmul ethkhonolyirucaesiyngphud Automatic Speech Recognition ASR epnsakhayxykhxng wichaphasasastrkhxmphiwetxrthiphthnawithikaraelaethkhonolyithichwyihkarrbruaelakaraeplphasaphudepnkhxkhwamodykhxmphiwetxr sxftaewrrucaesiyngphudkhnphunthanmikhasphththicakd xngkhaaelawliaelaxacrabusingthiphudxyangchdecn sungpraephthkhxngrabbrucaesiyngphudsamarthaebngid epn 3praephth dngni1 ethkhonolyirucaesiyngphudaebbkhaodd Isolated speech khuxrabbthirucakhasnephiyngimkikhasng ephuxihrabbbsamarthtxbotidxyangrwderw2 ethkhonolyirucaesiyngphudaebbtxenuxng Continuous speech khuxrabbrucakhacakesiyngxyangtxenuxng aelwthakarphicarnatdesiyngphud3 ethkhonolyirucathicaesiyngephiyngbangswn Spontaneous speech khuxrabbthicdcaesiyngthitrwchakhasakhyephiyngkhaediywinpraoykhephuxhaickhwamsakhySpeech Recognition khuxrabbopraekrmkhxmphiwetxrthisamarthaeplngesiyngphud Audio File epnkhxkhwamtwxksr Text odysamarthaeckaecngkhaphudtang thimnusysamarthphudisimokhrofn othrsphthhruxxupkrnxun aelaekhaickhasphththukkhaxyangthuktxngekuxb 100 odyepnxisracakkhnadkhxngklumkhasphth khwamdngkhxngesiyngaelalksnakarxxkesiyngkhxngphuphud odyrabbcarbfngesiyngphudaelatdsinicwaesiyngthiidyinnnepnkhaid ethkhonolyithiepnswnsakhyinkartha ASR eriykwa Hidden Markov Model HMM ethkhonolyichnidnisamarththicaekhaickhaphud cakkarcaaenkkhwamaetktangaelakarpramankarthungkhwamepnipidkhxngswnprakxbkhxnghnwythiepnphunthankhxngesiyngthixyutidkn odyxasyhlkkarthiwaesiyngaetlaesiyngcamikhxbekhtkhxngsyyanaelalksnaechphaathimikhwamaetktangknodyrabbrucaesiyngphud miswnprakxbhlk 5 swnkhux1 swnrbesiyng Acoustic Front end epnswnthithahnathiekiywkbkarpramwlphlsyyan signal processing aelaskdkhunlksna feature extraction 2 omedlesiyng Acoustic Model epnswnthicdekbkhwamrusahrbrabbrucaesiyngphud3 omedlphasa Language Model epnswnthirwbrwmenguxnikhkhxngladbkhainphasa4 twtrwccb Decoder epnswnthikhnhakhwamkhlaykhxngladbkhacakesiyngthiidrb5 khlngsphth Lexicon epnswnthicdekbkhasphththnghmdbthbathkhxngethkhonolyikarrucaesiyngphudthisakhyinpccubn khux epntwechuxmprasankbphuichngan User Interface sungxanwykhwamsadwkinkartidtxrahwangmnusykbkhxmphiwetxr khnathimuximwang txngkarkhwamkhlxngtw saytaimwang imtxngkarichkhiybxrd thsnwisyimdi mikhxcakddanrangkay lthngnikhwamthathayaelathisthangkarphthnaethkhonolyidngklaw midngtxipni1 khwamthnthan Robustness ephuxihidkhwamthuktxngkhxngkarrucathiimldlng emuxkhxmulthisngmaekidkhwamphidephiynhruxhayipenuxngcaksingrbkwntang2 kareriynruaelaprbprungtwexngodyxtonmti Automatic Training and Adaptation ephuxihrabbsamartheriynruaelaprbprungtwexngihekhakbkarthanganinlksnatang idxyangrwderw prahyd aelaeriybngay3 karrucaesiyngphudthiepnthrrmchati Spontaneous Speech ephuxihrabbsamarthrucasaeniyngkarphud Prosody cnghwakarphud xarmn aelaphvtikrrmkarphudrupaebbaebbtang4 karsnthna Dialogue Models ephuxihrabbsamarthekhaicbthsnthnakhxngphuich5 karsrangphasaottxb Natural Language Response Generation ephuxihrabb samarthsrangphasaottxbkbphuich odyphasathisrangkhuntxngsxdkhlxngaelaehmaasmkberuxngthikalngsnthna6 karsngekhraahaelasrangesiyngphud Speech Synthesis and Generation ephuxihrabbsamarthsngekhraahesiyngphudaelasnthnaottxbkbphuich7 r abbhlayphasa Multilingual Systems ephuxkarekhathungkhxmulkhamphasaaelakaraeplphasaaebbthnkalcakesiyngphud8 rabbaebbphsmphsan Multimodal Systems epnkarnakhxmuldanxunthinxkehnuxcakkhxmulthangphasaaelaesiyngphud echn sihna fipak thathang aelalaymux ekhamaichephuxephimkhwamthuktxngkhxngkarrucaaelakhwamekhaicinphasatwxyang rthekhnkhnphikarkhwbkhumdwyrabbrucaesiyngphudrabbrucaesiyngphud Speech Recognition ichinkarkhwbkhumrthekhnkhnphikarihekhluxnthiipinthisthangtang odykahnddwykhasng 9 khasng prakxbdwykhawa edinhna thxyhlng eliywsay eliywkhwa kungsay kungkhwa erwkhun chalng aelahyud sungcaepnkhasngthiichepnsyyanxinphutekhasurabb aelarabbkcapramwlphltdsinicaelasngkhaexathphut xxkipkhwbkhummxetxrephuxekhluxnrthekhnkhnphikarinthisthangthisngxngkhprakxbhlk khxngrabbrucaesiyngphudaebngidepn 3 khntxndngni1 karetriymsyyankhntn Preprocessing epnkhntxnthicathaihsyyanesiyngthicanaipich hruxrbekhamann mikhwamsmburnmakthisud odycathakarkacdsyyanrbkwn Noise aelatdswnthiimichsyyanesiyng Unvoice xxksungcaehluxaetephiyng chwngthiepnkhxmulesiyng2 karhalksnasakhykhxngesiyng Feature Extraction epnkhntxnthiichsahrbhaxngkhprakxbsakhytang khxngesiyngaetlaesiyngthirbekhama ihruwakhaaetlakhannmilksnaednxyangir3 karrucaesiyngphud Speech Recognition epnkhntxnthiihrabbthakareriynruodykarnasyyanesiyngekhasurabbokhrngkhayprasathethiym Neural Network System ephuxrabbcathakartdsinic aelaihphllphthtamsyyanesiyngthiaetktangknidthuktxngekhathungcak https th wikipedia org w index php title karrucakhaphud amp oldid 8752341, wikipedia, วิกิ หนังสือ, หนังสือ, ห้องสมุด,

บทความ

, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม