fbpx
วิกิพีเดีย

ระยะทางจาโร-วิงเคลอร์

ระยะทางจาโร-วิงเคลอร์ (อังกฤษ: Jaro–Winkler distance) คือวิธีการแบบหนึ่งที่ใช้วัดความเหมือนกันระหว่างสองสายอักขระจากจำนวนตัวอักษรร่วม โดย วิลเลียมส วิงเคลอร์ (William Winkler) ได้นำวิธีการเปรียบเทียบสายอักขระแบบระยะทางจาโร ที่ แมททิว จาโร (Matthew Jaro) ได้นำเสนอขึ้น มาปรับปรุงเพิ่มเติม จึงเรียกว่าระยะทางจาโร-วิงเคลอร์ โดยค่าที่ได้จากวิธีวัดแบบระยะทางจาโร-วิงเคลอร์ จะมีค่าตั้งแต่ 0 (สายอักขระทั้งสองไม่มีตัวใดตรงกันเลย) ถึง 1 (สายอักขระทั้งสองตรงกันทุกตัว)

ระยะทางจาโร-วิงเคลอร์ ถูกออกแบบมาเพื่อใช้กับชุดของสายอักขระสั้นๆ เช่นชื่อคน โดยถูกพัฒนาเพื่อใช้เปรียบเทียบชื่อ ในการสำรวจสำมะโนประชากรของประเทศสหรัฐอเมริกา โดยระยะทางจาโรจะใช้หลักการวัดความต่างกัน ของสายอักขระจากจำนวนตัวอักษรที่เหมือนกัน และอยู่ในตำแหน่งใกล้เคียงกัน คือตำแหน่งห่างกันไม่เกินครึ่งหนึ่งของความยาวอักขระสายที่สั้น จากผลวิจัยของวิงเคลอร์พบว่า ความคลาดเคลื่อนโดยบังเอิญ มักเกิดกับตัวอักษรที่อยู่ตอนปลายของสายอักขระหลังจากตัวอักษรที่สี่เป็นต้นไป และพบว่าหากสายอักขระยิ่งยาวขึ้น ความคลาดเคลื่อนจะมากตามไปด้วย ระยะทางจาโร-วิงเคลอร์จึงนำค่าที่ได้จากระยะทางจาโร มาให้น้ำหนักความต่างกันของสายอักขระเพิ่ม โดยพิจารณาจากตำแหน่งของตัวอักษรและความยาวของสายอักขระ

นิยาม

ให้   คือระยะทางจาโร ของสายอักขระสองสาย จะได้

 
  •   คือความยาวของสายอักขระสายแรก
  •   คือความยาวของสายอักขระสายที่สอง
  •   คือจำนวนคู่ของตัวอักษรที่ตรงกัน
  •   คือจำนวนเต็มครึ่งหนึ่ง ของคู่อักษรที่ตรงกันที่ต้องเปลี่ยนลำดับ

หากสายอักขระสองสาย มีตัวอักษรที่เหมือนกันแต่ตำแหน่งไม่ตรงกัน จะถือว่าอักษรนั้นตรงกัน ถ้าระยะห่างระหว่างอักษรที่เหมือนกันของอักขระสองสาย มีค่าไม่เกิน r โดยที่  

ตัวอย่างเช่น การเทียบ CRATE กับ TRACE ระยะห่างระหว่างตัวอักษรสูงสุดที่ยังถือว่าตรงกันคือ (5/2)-1 = 1.5 จะเห็นว่ามีเพียงตัวอักษร ‘R’ ‘A’ ‘E’ เท่านั้นที่อักษรตรงกัน ถึงแม้ว่า ‘C’ และ ‘T’ จะปรากฏที่สายอักขระทั้งสอง แต่ระยะห่างของ ‘C’ ระหว่างสายอักขระสองสายมีค่าเกิน 1 (สายอักขระแรก C อยู่ตำแหน่งที่ 1 สายอักขระที่สอง C อยู่ที่ตำแหน่งที่ 4 ดังนั้นห่างกัน 4 – 1 = 3 ซึ่งเกิน r) จึงไม่ถือว่าตรงกัน สำหรับอักษร ‘T’ ก็เช่นเดียวกัน ดังนั้น c จึงมีค่าเท่ากับ 3 และ t = 0 (จำนวนอักษรที่ตรงกันคือ 3 ซึ่งอักษรที่ตรงกันทั้งสามนี้ ไม่มีการสลับตำแหน่งกัน) กรณี DwAyNE เทียบกับ DuANE จะเห็นว่าคู่ของอักษรที่ตรงกันมีตำแหน่งเรียงกันตามลำดับเหมือนกันทั้งสองสายคือ D-A-N-E ดังนั้นจึงไม่มีตำแหน่งที่ต้องต้องเปลี่ยนลำดับ t จึงเท่ากับ 0

ให้   คือระยะทางจาโร-วิงเคลอร์

 
  •   คือระยะทางจาโร สำหรับสายอักขระสองสาย
  •   คือความยาวของอักขระด้านหน้าที่ตรงกัน เริ่มจากตำแหน่งแรกจนถึงตำแหน่งสุดท้ายที่ตรงกัน โดยค่าที่ได้จะต้องไม่เกิน 4


ตัวอย่าง

ให้   แทนความยาวของสายอักขระ MARTHA และ   แทนความยาวของสายอักขระ MARHTA จะได้

  •  
  •  
  •  
  • คู่ของตัวอักษรที่ตรงกัน (M, A, R, T, H, A) (M, A, R, H, T, A)

อักษรที่ตรงกัน 6 ตัว มีอักษรสองตัวที่ไม่ได้เรียงกันตามลำดับ คืออักษรตำแหน่งที่ 4 และ 5 ดังนั้น  

จะได้ค่าระยะทางจาโร

 

มี 3 อักขระแรกที่เข้ากันคือ (M, A, R) ดังนั้น  

จะได้ค่าระยะทางจาโร-วิงเคลอร์

 


ให้   แทนความยาวของสายอักขระ JONES และ   แทนความยาวของสายอักขระ JOHNSON จะได้

  •  
  •  
  •  
  • คู่ของตัวอักษรที่ตรงกัน (J, O, N, S) (J, O, N, S)

อักษรที่ตรงกันทั้ง 4 ตัว มีตำแหน่งเรียงกันตามลำดับเหมือนกันทั้งสองสายอักขระ ดังนั้น  

จะได้ค่าระยะทางจาโร

 

มี 2 อักขระแรกที่เข้ากันคือ (J, O) ดังนั้น  

จะได้ค่าระยะทางจาโร-วิงเคลอร์

 


ให้   แทนความยาวของสายอักขระ DWAYNE และ   แทนความยาวของสายอักขระ DUANE จะได้

  •  
  •  
  •  
  • คู่ของตัวอักษรที่ตรงกัน (D, A, N, E) (D, A, N, E)

อักษรที่ตรงกันทั้ง 4 ตัว มีตำแหน่งเรียงกันตามลำดับเหมือนกันทั้งสองสายอักขระ ดังนั้น  

จะได้ค่าระยะทางจาโร

 

มีเพียงอักขระแรกที่เข้ากัน คือ (D) ดังนั้น  

จะได้ค่าระยะทางจาโร-วิงเคลอร์

 


ให้   แทนความยาวของสายอักขระ DIXON และ   แทนความยาวของสายอักขระ DICKSONX จะได้

  •  
  •  
  •  
  •  
  • คู่ของตัวอักษรที่ตรงกัน (D, I, O, N) (D, I, O, N)

อักษรที่ตรงกันทั้ง 4 ตัว มีตำแหน่งเรียงกันตามลำดับเหมือนกันทั้งสองสายอักขระ ดังนั้น   สำหรับอักษร X ในสายอักขระไม่นำมาพิจาณา เนื่องจากระยะห่างของ X ระหว่างสายอักขระสองสายมีค่าเกิน r

จะได้ค่าระยะทางจาโร

 

มี 2 อักขระแรกที่เข้ากันคือ (D, I) ดังนั้น  

จะได้ค่าระยะทางจาโร-วิงเคลอร์

 

ดูเพิ่ม

อ้างอิง

  • Jaro, M. A. (1989). "Advances in record linkage methodology as applied to the 1985 census of Tampa Florida". Journal of the American Statistical Society. 84 (406): 414–20.
  • Jaro, M. A. (1995). "Probabilistic linkage of large public health data file". Statistics in Medicine. 14 (5–7): 491–8. doi:10.1002/sim.4780140510. PMID 7792443.
  • Winkler, W. E. (1990). "String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage" (PDF). Proceedings of the Section on Survey Research Methods. American Statistical Association: 354–359.
  • Winkler, W. E. (2006). "Overview of Record Linkage and Current Research Directions" (PDF). Research Report Series, RRS.

แหล่งข้อมูลอื่น

  • Implementation & documentation in Java LingPipe. Features extensive comparison with the original strcmp.c implementation.
  • PHP implementation released under GPLv3.0

ระยะทางจาโร, งเคลอร, งกฤษ, jaro, winkler, distance, อว, การแบบหน, งท, ใช, ดความเหม, อนก, นระหว, างสองสายอ, กขระจากจำนวนต, วอ, กษรร, วม, โดย, ลเล, ยมส, งเคลอร, william, winkler, ได, นำว, การเปร, ยบเท, ยบสายอ, กขระแบบระยะทางจาโร, แมทท, จาโร, matthew, jaro, ได, น. rayathangcaor wingekhlxr xngkvs Jaro Winkler distance khuxwithikaraebbhnungthiichwdkhwamehmuxnknrahwangsxngsayxkkhracakcanwntwxksrrwm ody wileliyms wingekhlxr William Winkler idnawithikarepriybethiybsayxkkhraaebbrayathangcaor thi aemththiw caor Matthew Jaro idnaesnxkhun maprbprungephimetim cungeriykwarayathangcaor wingekhlxr odykhathiidcakwithiwdaebbrayathangcaor wingekhlxr camikhatngaet 0 sayxkkhrathngsxngimmitwidtrngknely thung 1 sayxkkhrathngsxngtrngknthuktw rayathangcaor wingekhlxr thukxxkaebbmaephuxichkbchudkhxngsayxkkhrasn echnchuxkhn odythukphthnaephuxichepriybethiybchux inkarsarwcsamaonprachakrkhxngpraethsshrthxemrika odyrayathangcaorcaichhlkkarwdkhwamtangkn khxngsayxkkhracakcanwntwxksrthiehmuxnkn aelaxyuintaaehnngiklekhiyngkn khuxtaaehnnghangknimekinkhrunghnungkhxngkhwamyawxkkhrasaythisn cakphlwicykhxngwingekhlxrphbwa khwamkhladekhluxnodybngexiy mkekidkbtwxksrthixyutxnplaykhxngsayxkkhrahlngcaktwxksrthisiepntnip aelaphbwahaksayxkkhrayingyawkhun khwamkhladekhluxncamaktamipdwy rayathangcaor wingekhlxrcungnakhathiidcakrayathangcaor maihnahnkkhwamtangknkhxngsayxkkhraephim odyphicarnacaktaaehnngkhxngtwxksraelakhwamyawkhxngsayxkkhra enuxha 1 niyam 2 twxyang 3 duephim 4 xangxing 5 aehlngkhxmulxunniyam aekikhih d j displaystyle d j khuxrayathangcaor khxngsayxkkhrasxngsay caid d j 1 3 c m c n c t m displaystyle d j frac 1 3 left frac c m frac c n frac c t m right m displaystyle m khuxkhwamyawkhxngsayxkkhrasayaerk n displaystyle n khuxkhwamyawkhxngsayxkkhrasaythisxng c displaystyle c khuxcanwnkhukhxngtwxksrthitrngkn t displaystyle t khuxcanwnetmkhrunghnung khxngkhuxksrthitrngknthitxngepliynladbhaksayxkkhrasxngsay mitwxksrthiehmuxnknaettaaehnngimtrngkn cathuxwaxksrnntrngkn tharayahangrahwangxksrthiehmuxnknkhxngxkkhrasxngsay mikhaimekin r odythi r max m n 2 1 displaystyle r left lfloor frac max m n 2 right rfloor 1 twxyangechn karethiyb CRATE kb TRACE rayahangrahwangtwxksrsungsudthiyngthuxwatrngknkhux 5 2 1 1 5 caehnwamiephiyngtwxksr R A E ethannthixksrtrngkn thungaemwa C aela T capraktthisayxkkhrathngsxng aetrayahangkhxng C rahwangsayxkkhrasxngsaymikhaekin 1 sayxkkhraaerk C xyutaaehnngthi 1 sayxkkhrathisxng C xyuthitaaehnngthi 4 dngnnhangkn 4 1 3 sungekin r cungimthuxwatrngkn sahrbxksr T kechnediywkn dngnn c cungmikhaethakb 3 aela t 0 canwnxksrthitrngknkhux 3 sungxksrthitrngknthngsamni immikarslbtaaehnngkn krni DwAyNE ethiybkb DuANE caehnwakhukhxngxksrthitrngknmitaaehnngeriyngkntamladbehmuxnknthngsxngsaykhux D A N E dngnncungimmitaaehnngthitxngtxngepliynladb t cungethakb 0ih d w displaystyle d w khuxrayathangcaor wingekhlxr d w d j ℓ 10 1 d j displaystyle d w d j frac ell 10 1 d j d j displaystyle d j khuxrayathangcaor sahrbsayxkkhrasxngsay ℓ displaystyle ell khuxkhwamyawkhxngxkkhradanhnathitrngkn erimcaktaaehnngaerkcnthungtaaehnngsudthaythitrngkn odykhathiidcatxngimekin 4twxyang aekikhih m displaystyle m aethnkhwamyawkhxngsayxkkhra MARTHA aela n displaystyle n aethnkhwamyawkhxngsayxkkhra MARHTA caid c 6 displaystyle c 6 m 6 displaystyle m 6 n 6 displaystyle n 6 khukhxngtwxksrthitrngkn M A R T H A M A R H T A xksrthitrngkn 6 tw mixksrsxngtwthiimideriyngkntamladb khuxxksrtaaehnngthi 4 aela 5 dngnn t 2 2 1 displaystyle t frac 2 2 1 caidkharayathangcaord j 1 3 6 6 6 6 6 1 6 0 944 displaystyle d j frac 1 3 left frac 6 6 frac 6 6 frac 6 1 6 right 0 944 mi 3 xkkhraaerkthiekhaknkhux M A R dngnn ℓ 3 displaystyle ell 3 caidkharayathangcaor wingekhlxr d w 0 944 3 10 1 0 944 0 961 displaystyle d w 0 944 frac 3 10 1 0 944 0 961 ih m displaystyle m aethnkhwamyawkhxngsayxkkhra JONES aela n displaystyle n aethnkhwamyawkhxngsayxkkhra JOHNSON caid c 4 displaystyle c 4 m 5 displaystyle m 5 n 7 displaystyle n 7 khukhxngtwxksrthitrngkn J O N S J O N S xksrthitrngknthng 4 tw mitaaehnngeriyngkntamladbehmuxnknthngsxngsayxkkhra dngnn t 0 displaystyle t 0 caidkharayathangcaord j 1 3 4 5 4 6 4 0 4 0 790 displaystyle d j frac 1 3 left frac 4 5 frac 4 6 frac 4 0 4 right 0 790 mi 2 xkkhraaerkthiekhaknkhux J O dngnn ℓ 2 displaystyle ell 2 caidkharayathangcaor wingekhlxr d w 0 790 2 10 1 0 790 0 832 displaystyle d w 0 790 frac 2 10 1 0 790 0 832 ih m displaystyle m aethnkhwamyawkhxngsayxkkhra DWAYNE aela n displaystyle n aethnkhwamyawkhxngsayxkkhra DUANE caid c 4 displaystyle c 4 m 6 displaystyle m 6 n 5 displaystyle n 5 khukhxngtwxksrthitrngkn D A N E D A N E xksrthitrngknthng 4 tw mitaaehnngeriyngkntamladbehmuxnknthngsxngsayxkkhra dngnn t 0 displaystyle t 0 caidkharayathangcaord j 1 3 4 6 4 5 4 0 4 0 822 displaystyle d j frac 1 3 left frac 4 6 frac 4 5 frac 4 0 4 right 0 822 miephiyngxkkhraaerkthiekhakn khux D dngnn ℓ 1 displaystyle ell 1 caidkharayathangcaor wingekhlxr d w 0 822 1 10 1 0 822 0 84 displaystyle d w 0 822 frac 1 10 1 0 822 0 84 ih m displaystyle m aethnkhwamyawkhxngsayxkkhra DIXON aela n displaystyle n aethnkhwamyawkhxngsayxkkhra DICKSONX caid r 8 2 1 3 displaystyle r left lfloor frac 8 2 right rfloor 1 3 c 4 displaystyle c 4 m 5 displaystyle m 5 n 8 displaystyle n 8 khukhxngtwxksrthitrngkn D I O N D I O N xksrthitrngknthng 4 tw mitaaehnngeriyngkntamladbehmuxnknthngsxngsayxkkhra dngnn t 0 displaystyle t 0 sahrbxksr X insayxkkhraimnamaphicana enuxngcakrayahangkhxng X rahwangsayxkkhrasxngsaymikhaekin rcaidkharayathangcaord j 1 3 4 5 4 8 4 0 4 0 767 displaystyle d j frac 1 3 left frac 4 5 frac 4 8 frac 4 0 4 right 0 767 mi 2 xkkhraaerkthiekhaknkhux D I dngnn ℓ 2 displaystyle ell 2 caidkharayathangcaor wingekhlxr d w 0 767 2 10 1 0 767 0 813 displaystyle d w 0 767 frac 2 10 1 0 767 0 813 duephim aekikhrayathangaehmming kartrwccbaelaaekikhkhwamphidphlad khntxnwithisayxkkhra en String algorithms xangxing aekikhJaro M A 1989 Advances in record linkage methodology as applied to the 1985 census of Tampa Florida Journal of the American Statistical Society 84 406 414 20 Jaro M A 1995 Probabilistic linkage of large public health data file Statistics in Medicine 14 5 7 491 8 doi 10 1002 sim 4780140510 PMID 7792443 Winkler W E 1990 String Comparator Metrics and Enhanced Decision Rules in the Fellegi Sunter Model of Record Linkage PDF Proceedings of the Section on Survey Research Methods American Statistical Association 354 359 Winkler W E 2006 Overview of Record Linkage and Current Research Directions PDF Research Report Series RRS aehlngkhxmulxun aekikhImplementation amp documentation in Java LingPipe Features extensive comparison with the original strcmp c implementation PHP implementation released under GPLv3 0ekhathungcak https th wikipedia org w index php title rayathangcaor wingekhlxr amp oldid 5604863, wikipedia, วิกิ หนังสือ, หนังสือ, ห้องสมุด,

บทความ

, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม