fbpx
วิกิพีเดีย

ซาวเดกซ์

ซาวเดกซ์ (อังกฤษ: Soundex) เป็นขั้นตอนวิธีแบบหนึ่งในขั้นตอนวิธีเชิงสัทลักษณ์ เกิดขึ้นเนื่องจากคำบางคำนั้นสามารถสะกดได้หลายแบบ อ่านออกเสียงคล้ายกัน อาจจะแตกต่างกันเพราะสำเนียงหรือวัฒนธรรม ซึ่งจะเป็นปัญหาหลักในการเก็บข้อมูลประวัติของชื่อบุคคล ซาวเดกซ์จึงเป็นเครื่องมือช่วยจัดการปัญหาเหล่านี้ได้ ด้วยการแทนคำหรือชื่อคนนั้นๆ ด้วยรหัสเฉพาะตัวของซาวเดกซ์เอง

รหัสของซาวเดกซ์นั้นจะมีความยาวคงที่ 4 ตัว ซึ่งรหัสเหล่านี้สามารถใช้ในการเปรียบเทียบคำสองคำที่ออกเสียงคล้ายๆกันได้ ซึ่งจะมีประโยชน์ในการค้นหาข้อมูลในฐานข้อมูลใหญ่ๆ เช่น หาชื่อคนในฐานข้อมูล ก็จะปรากฏชื่อและคำที่ใกล้เคียงกับที่เราต้องการค้นหาขึ้นมาให้โดยอัตโนมัติ ซึ่งจะมีประโยชน์มากเวลาสะกดชื่อที่ค้นหาผิดด้วย

ประวัติ

ซาวเดกซ์เกิดขึ้นในปี ค.ศ. 1918 โดย Robert C. Russell และ Margaret K. Odell โดยในตอนแรกใช้ชื่อว่า อินเดกซ์ (Index) ซึ่งเป็นขั้นตอนวิธีในการจัดเก็บข้อมูลแบบธรรมดาทั่วๆไป ขึ้นกับตัวอักษรของคำนั้นเป็นหลัก ซึ่งเขาได้จดสิทธิบัตรเอาไว้ใน 2 ปีต่อมา หลังจากนั้นเขาได้พัฒนาให้ขั้นตอนวิธีเก็บข้อมูลโดยใช้การออกเสียงของมนุษย์เป็นหลัก แบ่งเป็น 6 แบบ คือ ฐานริมฝีปากทั้งสอง, ฐานริมฝีปากกับฟัน, ฐานฟัน, ฐานปุ่มเหงือก, ฐานเพดานอ่อน, ฐานเส้นเสียง ตามการใช้อวัยวะในช่องปากในการออกเสียง

ขั้นตอนการสร้างรหัสของซาวเดกซ์

รหัสของซาวเดกซ์มีความยาว 4 ตัวอักษร ตัวแรกของรหัสจะเป็นตัวอักษร อีก 3 ตัวข้างหลังจะเป็นตัวเลข ซึ่งตัวอักษรใดที่มีเสียงเหมือนหรือคล้ายๆกัน จะใช้ตัวเลขเดียวกัน ซึ่งขั้นตอนการสร้างรหัสนั้นจะมี ดังนี้

  1. ตัวอักษรที่จะนำมาเข้ารหัสจะต้องเป็นอักษรละตินของภาษาอังกฤษเท่านั้น (รุ่นดั้งเดิมใช้กับภาษาอังกฤษแบบอเมริกัน)
  2. ตัวอักษรตัวแรกของรหัสของซาวเดกซ์จะต้องเป็นตัวใหญ่ (uppercase letter) เสมอ โดยจะมาจากตัวอักษรตัวแรกของข้อมูลป้อนเข้าที่นำมาเข้ารหัส
  3. ถ้าตัวอักษรใดเป็นตัวอักษรสระ (A,E,I,O,U) หรือตัว H,W,Y จะไม่นำไปเข้ารหัสต่อไป เพราะอาจจะทำให้รหัสเกิดความผิดพลาดได้
  4. ทำการเข้ารหัสกับตัวอักษรที่เหลือจากข้อ 3 โดยแปลงให้เป็นตัวเลขต่างๆ ตามข้อกำหนด ดังนี้
    • ตัวอักษร B, F, P, V เป็นเลข 1
    • ตัวอักษร C, G, J, K, Q, S, X, Z เป็นเลข 2
    • ตัวอักษร D, T เป็นเลข 3
    • ตัวอักษร L เป็นเลข 4
    • ตัวอักษร M, N เป็นเลข 5
    • ตัวอักษร R เป็นเลข 6
  5. หลังจากทำการแปลงตัวอักษรในข้อมูลป้อนเข้าเป็นตัวเลขแล้ว ตอนนี้ตัวอักษรทั้งหมด (ยกเว้นตัวหน้า) จะถูกแปลงเป็นตัวเลข (ข้อ 4) หรือตัดทิ้ง (ข้อ 3) ไปแล้ว เราจะมาพิจารณาตัวเลขแต่ละคู่ติดกัน ถ้าในแต่ละคู่ติดกันนั้นเป็นเลขเดียวกันจะต้องตัดออกไปหนึ่งตัวให้เหลือเลขตัวเดียว
  6. ทำไปเรื่อยๆจนรหัสที่ได้ตรงตามรูปแบบที่ต้องการ (1 ตัวอักษร + 3 ตัวเลข) ถ้าเกิดกรณีที่เลขยังไม่ครบ 3 ตัว ให้เติมเลข 0 เข้าไปจนมีเลขครบ จะได้รหัสซาวเดกซ์ตามรูปแบบ <อักษรตัวใหญ่> <ตัวเลข> <ตัวเลข> <ตัวเลข>

ตัวอย่าง

พิจารณาคำว่า “Robert” และ “Rupert” มีรหัสซาวเดกซ์อย่างไร

ขั้นตอน “Robert” “Rupert”
1. เป็นอักษรละตินของภาษาอังกฤษ ใช่ ใช่
2. นำอักษรตัวแรกไปใส่ในรหัส R R
3. พิจารณาตัวอักษรถัดไปของคำ ถ้าเป็นสระหรือ H,W,Y ตัดทิ้ง Rbrt Rprt
4. นำตัวอักษรมาแปลงเป็นตัวเลข R163 R163
5. เลขคู่ติดกันมีเลขซ้ำหรือไม่ ถ้าซ้ำตัดออกหนึ่งตัว ไม่ใช่ ไม่ใช่
6. รหัสที่ได้นั้นตรงตามรูปแบบของรหัส <อักษรตัวใหญ่> <ตัวเลข> <ตัวเลข> <ตัวเลข> ใช่ ใช่
ผลลัพธ์สุดท้าย R163 R163

จะพบว่า “Robert” และ “Rupert” มีรหัสซาวเดกซ์เหมือนกัน หมายความว่าออกเสียงคล้ายกัน

แหล่งข้อมูลอื่น

Soundex programming code
ทดลองใช้ Soundex กับ Soundex Converter

ซาวเดกซ, บทความน, ไม, การอ, างอ, งจากแหล, งท, มาใดกร, ณาช, วยปร, บปร, งบทความน, โดยเพ, มการอ, างอ, งแหล, งท, มาท, าเช, อถ, เน, อความท, ไม, แหล, งท, มาอาจถ, กค, ดค, านหร, อลบออก, เร, ยนร, าจะนำสารแม, แบบน, ออกได, อย, างไรและเม, อไร, งก, ามภาษา, ในบทความน, ไว, ใ. bthkhwamniimmikarxangxingcakaehlngthimaidkrunachwyprbprungbthkhwamni odyephimkarxangxingaehlngthimathinaechuxthux enuxkhwamthiimmiaehlngthimaxacthukkhdkhanhruxlbxxk eriynruwacanasaraemaebbnixxkidxyangiraelaemuxir lingkkhamphasa inbthkhwamni miiwihphuxanaelaphurwmaekikhbthkhwamsuksaephimetimodysadwk enuxngcakwikiphiediyphasaithyyngimmibthkhwamdngklaw krann khwrribsrangepnbthkhwamodyerwthisudsawedks xngkvs Soundex epnkhntxnwithiaebbhnunginkhntxnwithiechingsthlksn ekidkhunenuxngcakkhabangkhannsamarthsakdidhlayaebb xanxxkesiyngkhlaykn xaccaaetktangknephraasaeniynghruxwthnthrrm sungcaepnpyhahlkinkarekbkhxmulprawtikhxngchuxbukhkhl sawedkscungepnekhruxngmuxchwycdkarpyhaehlaniid dwykaraethnkhahruxchuxkhnnn dwyrhsechphaatwkhxngsawedksexngrhskhxngsawedksnncamikhwamyawkhngthi 4 tw sungrhsehlanisamarthichinkarepriybethiybkhasxngkhathixxkesiyngkhlayknid sungcamipraoychninkarkhnhakhxmulinthankhxmulihy echn hachuxkhninthankhxmul kcapraktchuxaelakhathiiklekhiyngkbthieratxngkarkhnhakhunmaihodyxtonmti sungcamipraoychnmakewlasakdchuxthikhnhaphiddwy enuxha 1 prawti 2 khntxnkarsrangrhskhxngsawedks 2 1 twxyang 3 aehlngkhxmulxunprawti aekikhsawedksekidkhuninpi kh s 1918 ody Robert C Russell aela Margaret K Odell odyintxnaerkichchuxwa xinedks Index sungepnkhntxnwithiinkarcdekbkhxmulaebbthrrmdathwip khunkbtwxksrkhxngkhannepnhlk sungekhaidcdsiththibtrexaiwin 2 pitxma hlngcaknnekhaidphthnaihkhntxnwithiekbkhxmulodyichkarxxkesiyngkhxngmnusyepnhlk aebngepn 6 aebb khux thanrimfipakthngsxng thanrimfipakkbfn thanfn thanpumehnguxk thanephdanxxn thanesnesiyng tamkarichxwywainchxngpakinkarxxkesiyngkhntxnkarsrangrhskhxngsawedks aekikhrhskhxngsawedksmikhwamyaw 4 twxksr twaerkkhxngrhscaepntwxksr xik 3 twkhanghlngcaepntwelkh sungtwxksridthimiesiyngehmuxnhruxkhlaykn caichtwelkhediywkn sungkhntxnkarsrangrhsnncami dngni twxksrthicanamaekharhscatxngepnxksrlatinkhxngphasaxngkvsethann rundngedimichkbphasaxngkvsaebbxemrikn twxksrtwaerkkhxngrhskhxngsawedkscatxngepntwihy uppercase letter esmx odycamacaktwxksrtwaerkkhxngkhxmulpxnekhathinamaekharhs thatwxksridepntwxksrsra A E I O U hruxtw H W Y caimnaipekharhstxip ephraaxaccathaihrhsekidkhwamphidphladid thakarekharhskbtwxksrthiehluxcakkhx 3 odyaeplngihepntwelkhtang tamkhxkahnd dngni twxksr B F P V epnelkh 1 twxksr C G J K Q S X Z epnelkh 2 twxksr D T epnelkh 3 twxksr L epnelkh 4 twxksr M N epnelkh 5 twxksr R epnelkh 6 hlngcakthakaraeplngtwxksrinkhxmulpxnekhaepntwelkhaelw txnnitwxksrthnghmd ykewntwhna cathukaeplngepntwelkh khx 4 hruxtdthing khx 3 ipaelw eracamaphicarnatwelkhaetlakhutidkn thainaetlakhutidknnnepnelkhediywkncatxngtdxxkiphnungtwihehluxelkhtwediyw thaiperuxycnrhsthiidtrngtamrupaebbthitxngkar 1 twxksr 3 twelkh thaekidkrnithielkhyngimkhrb 3 tw ihetimelkh 0 ekhaipcnmielkhkhrb caidrhssawedkstamrupaebb lt xksrtwihy gt lt twelkh gt lt twelkh gt lt twelkh gt twxyang aekikh phicarnakhawa Robert aela Rupert mirhssawedksxyangir khntxn Robert Rupert 1 epnxksrlatinkhxngphasaxngkvs ich ich2 naxksrtwaerkipisinrhs R R3 phicarnatwxksrthdipkhxngkha thaepnsrahrux H W Y tdthing Rbrt Rprt4 natwxksrmaaeplngepntwelkh R163 R1635 elkhkhutidknmielkhsahruxim thasatdxxkhnungtw imich imich6 rhsthiidnntrngtamrupaebbkhxngrhs lt xksrtwihy gt lt twelkh gt lt twelkh gt lt twelkh gt ich ichphllphthsudthay R163 R163caphbwa Robert aela Rupert mirhssawedksehmuxnkn hmaykhwamwaxxkesiyngkhlayknaehlngkhxmulxun aekikhhttp www blackwasp co uk Soundex aspx http www ics uci edu dan genealogy Miller javascrp soundex htmSoundex programming codehttp creativyst com Doc Articles SoundEx1 SoundEx1 htm http www techrepublic com blog programming and development how do i implement the soundex function in c 656thdlxngich Soundex kb Soundex Converterhttp www webcalc net phoneticalgorithms php http resources rootsweb ancestry com cgi bin soundexconverter http www eogn com soundex ekhathungcak https th wikipedia org w index php title sawedks amp oldid 5227922, wikipedia, วิกิ หนังสือ, หนังสือ, ห้องสมุด,

บทความ

, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม