ยูนิโคด
บทความนี้อาจต้องการตรวจสอบต้นฉบับ ในด้านไวยากรณ์ รูปแบบการเขียน การเรียบเรียง คุณภาพ หรือการสะกด คุณสามารถช่วยพัฒนาบทความได้ |
ยูนิโคด (อังกฤษ: Unicode) คือมาตรฐานอุตสาหกรรมที่ช่วยให้คอมพิวเตอร์แสดงผลและจัดการข้อความธรรมดาที่ใช้ในระบบการเขียนของภาษาส่วนใหญ่ในโลกได้อย่างสอดคล้องกัน ยูนิโคดประกอบด้วยรายการอักขระที่แสดงผลได้มากกว่า 100,000 ตัว พัฒนาต่อยอดมาจากมาตรฐานชุดอักขระสากล (Universal Character Set: UCS) และมีการตีพิมพ์ลงในหนังสือ The Unicode Standard เป็นแผนผังรหัสเพื่อใช้เป็นรายการอ้างอิง นอกจากนั้นยังมีการอธิบายวิธีการที่ใช้เข้ารหัสและการนำเสนอมาตรฐานของการเข้ารหัสอักขระอีกจำนวนหนึ่ง การเรียงลำดับอักษร กฎเกณฑ์ของการรวมและการแยกอักขระ รวมไปถึงลำดับการแสดงผลของอักขระสองทิศทาง (เช่นอักษรอาหรับหรืออักษรฮีบรูที่เขียนจากขวาไปซ้าย)
ยูนิโคดคอนซอร์เทียม (Unicode Consortium) ซึ่งเป็นองค์กรไม่แสวงหาผลกำไร เป็นผู้รับผิดชอบในการพัฒนายูนิโคด องค์กรนี้มีจุดมุ่งหมายเกี่ยวกับการแทนที่การเข้ารหัสอักขระที่มีอยู่ด้วยยูนิโคดและมาตรฐานรูปแบบการแปลงยูนิโคด (Unicode Transformation Format: UTF) แต่ก็เป็นที่ยุ่งยากเนื่องจากแผนการที่มีอยู่ถูกจำกัดไว้ด้วยขนาดและขอบเขต ซึ่งอาจไม่รองรับกับสภาพแวดล้อมหลายภาษาในคอมพิวเตอร์
ความสำเร็จของยูนิโคดคือการรวมรหัสอักขระหลายชนิดให้เป็นหนึ่งเดียว นำไปสู่การใช้งานอย่างกว้างขวางและมีอิทธิพลต่อการแปลภาษาของซอฟต์แวร์คอมพิวเตอร์ นั่นคือโปรแกรมจะสามารถใช้ได้หลายภาษา มาตรฐานนี้มีการนำไปใช้เป็นเทคโนโลยีหลักหลายอย่าง อาทิ เอกซ์เอ็มแอล ภาษาจาวา ดอตเน็ตเฟรมเวิร์ก และระบบปฏิบัติการสมัยใหม่
ยูนิโคดสามารถนำไปใช้งานได้ด้วยชุดอักขระแบบต่าง ๆ ชุดอักขระที่เป็นที่รู้จักมากที่สุดคือ UTF-8 (ใช้ 1 ไบต์สำหรับอักขระทุกตัวในรหัสแอสกีและมีค่ารหัสเหมือนกับมาตรฐานแอสกี หรือมากกว่านั้นจนถึง 4 ไบต์สำหรับอักขระแบบอื่น) UCS-2 ซึ่งปัจจุบันเลิกใช้แล้ว (ใช้ 2 ไบต์สำหรับอักขระทุกตัว แต่ไม่ครอบคลุมอักขระทั้งหมดในยูนิโคด) และ UTF-16 (เป็นส่วนขยายจาก UCS-2 โดยใช้ 4 ไบต์ สำหรับแทนรหัสอักขระที่ขาดไปของ UCS-2)
รุ่นยูนิโคด
รุ่น | วันที่ | หนังสือ | ความสอดคล้องกับ ชุดอักขระสากล (ISO/IEC 10646) | ชุดอักษร | อักขระ | |
---|---|---|---|---|---|---|
จำนวน | การเพิ่มเติมที่สำคัญ | |||||
1.0.0 | ตุลาคม พ.ศ. 2534 | ISBN 0-201-56788-1 (Vol.1) | 24 | 7,161 | เริ่มต้นด้วยอักษรเหล่านี้: อาหรับ, อาร์มีเนีย, เบงกอล, ปอพอมอฟอ, ซีริลลิก, เทวนาครี, จอร์เจีย, กรีกและคอปติก, คุชราต, คุรมุขี, ฮันกึล, ฮีบรู, ฮิระงะนะ, กันนาดา, คะตะคะนะ, ลาว, ละติน, มลยาฬัม, โอริยา, ทมิฬ, เตลูกู, ไทย และทิเบต | |
1.0.1 | มิถุนายน พ.ศ. 2535 | ISBN 0-201-60845-6 (Vol.2) | 25 | 28,359 | เริ่มมีอักษรภาพรวมจีนญี่ปุ่นเกาหลี (CJK Unified Ideographs) 20,902 ตัว | |
1.1 | มิถุนายน พ.ศ. 2536 | ISO/IEC 10646-1:1993 | 24 | 34,233 | เพิ่มพยางค์ฮันกึลลงไปอีก 4,306 ตัว จากชุดเดิม 2,350 ตัว และอักษรทิเบตถูกเอาออก | |
2.0 | กรกฎาคม พ.ศ. 2539 | ISBN 0-201-48345-9 | ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 | 25 | 38,950 | พยางค์ฮันกึลชุดเดิมถูกเอาออก แล้วเพิ่มพยางค์ฮันกึลชุดใหม่ 11,619 ตัวในตำแหน่งใหม่ อักษรทิเบตเพิ่มกลับเข้ามาที่ตำแหน่งใหม่พร้อมกับเปลี่ยนแปลงอักขระบางตัว กลไกอักขระทดแทน (surrogate) ได้ถูกนิยามขึ้น และมีการกำหนดให้เพลน 15 และเพลน 16 เป็นพื้นที่ใช้งานส่วนตัว (Private Use Areas) |
2.1 | พฤษภาคม พ.ศ. 2541 | ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 และอักขระสองตัวจากข้อแก้ไขที่ 18 | 25 | 38,952 | เครื่องหมายยูโรถูกเพิ่มเข้ามา | |
3.0 | กันยายน พ.ศ. 2542 | ISBN 0-201-61633-5 | ISO/IEC 10646-1:2000 | 38 | 49,259 | เชอโรกี, เอธิโอเปีย, เขมร, มองโกเลีย, พม่า, โอคัม, รูนส์, สิงหล, ซีเรียค, ทานา, Unified Canadian Aboriginal Syllabics และอี้ เพิ่มเข้ามา เช่นเดียวกับรูปแบบอักษรเบรลล์ |
3.1 | มีนาคม พ.ศ. 2544 | ISO/IEC 10646-1:2000 ISO/IEC 10646-2:2001 | 41 | 94,205 | เดเซเรท, โกธิก และอิตาลีโบราณ เพิ่มเข้ามา พร้อมกับสัญลักษณ์ทางดนตรีสมัยใหม่และดนตรีไบแซนไทน์ และเพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 42,711 ตัว | |
3.2 | มีนาคม พ.ศ. 2545 | ISO/IEC 10646-1:2000 เพิ่มข้อแก้ไขที่ 1 ISO/IEC 10646-2:2001 | 45 | 95,221 | เพิ่มอักษรที่ใช้ในฟิลิปปินส์: บูฮิด, ฮานูโนโอ, บายบายิน และตักบันวา | |
4.0 | เมษายน พ.ศ. 2546 | ISBN 0-321-18578-1 | ISO/IEC 10646:2003 | 52 | 96,447 | ไซปรัส, ลิมบู, ไลเนียร์บี, ออสมันยา, ชาเวียน, ไทใต้คง และยูการิติก เพิ่มเข้ามาพร้อมกับแผนภูมิหกชั้นของอี้จิง |
4.1 | มีนาคม พ.ศ. 2548 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1 | 59 | 97,720 | ลนตารา, กลาโกลิติก, ขโรษฐี, ไทลื้อใหม่, Old Persian, สิเลฏินาครี และทิฟินาค เพิ่มเข้ามา และคอปติกในรูปแบบที่ต่างจากอักษรกรีก เลขกรีกโบราณและสัญลักษณ์ทางดนตรีเพิ่มเข้ามาด้วย | |
5.0 | กรกฎาคม พ.ศ. 2549 | ISBN 0-321-48091-0 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2 และอักขระสี่ตัวจากข้อแก้ไขที่ 3 | 64 | 99,089 | บาหลี, คูนิฟอร์ม, อึนโก, พักส์-ปา และฟินิเชีย เพิ่มเข้ามา |
5.1 | เมษายน พ.ศ. 2551 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4 | 75 | 100,713 | คาเรีย, จาม, กะยา, เลปชา, ไลเซีย, ไลเดีย, Ol Chiki, เรชัง, ศารทา, ซุนดา และไว เพิ่มเข้ามา เช่นเดียวกับกลุ่มสัญลักษณ์ Phaistos Disc, หน้าไพ่นกกระจอก และหน้าโดมิโน เพิ่มเติมอักษรที่สำคัญสำหรับอักษรพม่า, additions of letters and Scribal abbreviations used in medieval manuscripts, and the addition of capital ß. | |
5.2 | ตุลาคม พ.ศ. 2552 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4, 5, 6 | 90 | 107,361 | อเวสตะ, บามุม, ไฮโรกลิฟฟิก (the Gardiner Set, comprising 1,071 characters), Imperial Aramaic, Inscriptional Pahlavi, Inscriptional Parthian, ชวา, ไกถิ, ลีสู่, ไมไตมาเยก, Old South Arabian, Old Turkic, Samaritan, ไทธรรม และ ไทเวียด. เพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 4,149 ตัว (CJK-C), เช่นเดียวกับจาโมส่วนขยายของอักษรฮันกึลโบราณ และอักขระสำหรับอักษรพระเวท | |
6.0 | ตุลาคม พ.ศ. 2553 | ISO/IEC 10646:2010 เพิ่มเครื่องหมายสกุลเงินรูปีอินเดีย | 93 | 109,449 | บาตัก, พราหมี, มันดาอิก, สัญลักษณ์หน้าไพ่ป๊อก, สัญลักษณ์จราจรและแผนที่, สัญลักษณ์การเล่นแร่แปรธาตุ, อีโมติคอน และอีโมจิ |
ข้อจำกัดและปัญหา
มีการวิจารณ์ยูนิโคดเกี่ยวกับปัญหาทางเทคนิค และข้อจำกัดต่าง ๆ อย่างไรก็ดี ยูนิโคดได้กลายเป็นวิธีการเข้ารหัสที่ใช้กันมากที่สุดในการทำให้ซอฟต์แวร์และระบบปฏิบัติการใช้ได้หลายภาษาพร้อม ๆ กัน
ระบบปฏิบัติการตระกูลวินโดวส์ ได้แก่วินโดวส์เอ็นที, วินโดวส์ 2000 และ วินโดวส์เอกซ์พี ใช้รหัสยูนิโคดแบบ UTF-16 ในการเข้ารหัสข้อความ ระบบปฏิบัติการที่คล้ายกับยูนิกซ์ เช่น GNU/Linux BSD และ Mac OS X ก็ได้นำยูนิโคดแบบ UTF-8 มาใช้ เป็นพื้นฐานของการแทนข้อความที่มีหลายภาษา
การรองรับภาษาไทยในยูนิโคด ได้รับการวิพากษ์วิจารณ์เนื่องจากว่าลำดับเรียงตัวอักษรนั้นไม่ถูกต้องตามที่ควรจะเป็น ซึ่งเป็นเพราะว่ายูนิโคดในส่วนภาษาไทยได้อ้างอิงรูปแบบเดิมจาก Thai Industry Standard 620 (TIS-620) ที่มีปัญหานี้เช่นกัน จึงทำให้การเทียบเรียงลำดับยูนิโคดยุ่งยากขึ้น
อ้างอิง
- http://www.unicode.org/standard/principles.html#What_Characters
- http://www.unicode.org/Public/reconstructed/1.0.0/UnicodeData.txt
- http://www.unicode.org/Public/reconstructed/1.0.1/UnicodeData.txt
- http://www.unicode.org/Public/1.1-Update/UnicodeData-1.1.5.txt
- http://www.unicode.org/Public/2.0-Update/UnicodeData-2.0.14.txt
- http://www.unicode.org/Public/2.1-Update/UnicodeData-2.1.2.txt
- http://www.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.txt
- http://www.unicode.org/Public/3.1-Update/UnicodeData-3.1.0.txt
- http://www.unicode.org/Public/3.2-Update/UnicodeData-3.2.0.txt
- http://www.unicode.org/Public/4.0-Update/UnicodeData-4.0.0.txt
- http://www.unicode.org/Public/4.1.0/ucd/UnicodeData.txt
- http://www.unicode.org/Public/5.0.0/ucd/UnicodeData.txt
- http://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt
- http://www.unicode.org/Public/5.2.0/ucd/UnicodeData.txt
- "Unicode Data 6.0.0". สืบค้นเมื่อ 2010-10-11.
แหล่งข้อมูลอื่น
- DecodeUnicode - Unicode WIKI, 50.000 gifs