ข้อมูลรหัส Acsll และ Unicode
รหัสแอสกี
รหัสแอสกี (ASCII) เป็นมาตรฐานที่นิยมใช้กันมากในระบบคอมพิวเตอร์ส่วนใหญ่ เป็นคำย่อมาจาก American Standard Code Information Interchange เป็นรหัส 8 บิต แทนสัญลักษณ์ต่าง ๆ ได้ 256 ตัว เมื่อใช้แทนตัวอักษรภาษาอังกฤษแล้ว ยังมีเหลืออยู่ สำนักงานมาตรฐานผลิตภัณฑ์อุตสาหกรรม หรือ สมอ. ได้กำหนดรหัสภาษาไทยเพิ่มลงไปเพื่อให้ใช้งานร่วมกันได้
รหัสแอสกีมีใช้ในระบบคอมพิวเตอร์ และเครื่องมือสื่อสารแบบดิจิทัลต่างๆ พัฒนาขึ้นโดยคณะกรรมการX3 ซึ่งอยู่ภายใต้การดูแลของสมาคมมาตรฐานอเมริกา (American Standards Association) ภายหลังกลายเป็น สถาบันมาตรฐานแห่งชาติอเมริกา (American National Standard Institute : ANSI) ในปี ค.ศ. 1969โดยเริ่มต้นใช้ครั้งแรกในปี ค.ศ. 1967 ซึ่งมีอักขระทั้งหมด 128 ตัว (7 บิต) โดยจะมี 33 ตัวที่ไม่แสดงผล (unprintable/control character) ซึ่งใช้สำหรับควบคุมการทำงานของคอมพิวเตอร์บางประการ เช่น การขึ้นย่อหน้าใหม่สำหรับการพิมพ์ (CR & LF - carriage return and line feed) การสิ้นสุดการประมวลผลข้อมูลตัวอักษร (ETX - end of text) เป็นต้น และ อีก 95 ตัวที่แสดงผลได้ (printable character) ดังที่ปรากฏตามผังอักขระ (character map) ด้านล่าง
รหัสแอสกีได้รับการปรับปรุงล่าสุดเมื่อ ค.ศ. 1986 ให้มีอักขระทั้งหมด 256 ตัว (8 บิต) และเรียกใหม่ว่าแอสกีแบบขยาย อักขระที่เพิ่มมา 128 ตัวใช้สำหรับแสดงอักขระเพิ่มเติมในภาษาของแต่ละท้องถิ่นที่ใช้ เช่นภาษาเยอรมัน ภาษารัสเซีย ฯลฯ โดยจะมีผังอักขระที่แตกต่างกันไปในแต่ละภาษาซึ่งเรียกว่า โคดเพจ (codepage) โดยอักขระ 128 ตัวแรกส่วนใหญ่จะยังคงเหมือนกันแทบทุกโคดเพจ มีส่วนน้อยที่เปลี่ยนแค่บางอักขระ
ผังอักขระแอสกี้ที่ไม่แสดงผล
อักขระที่ไม่แสดงผลเหล่านี้ถูกใช้เป็นรหัสควบคุมการพิมพ์บนเครื่องพิมพ์ หรือใช้เป็นตัวแบ่งข้อมูลในสื่อบันทึกข้อมูลบางชนิด (เช่นเทป) อักขระตัวแทนที่ปรากฏในตารางเป็นเพียงการแสดงว่า ณ ตำแหน่งนั้นมีรหัสดังกล่าวอยู่ ไม่ใช่สัญลักษณ์ที่จะนำมาแสดงผลเป็นหลัก
ยูนิโคด
ยูนิโคด (อังกฤษ: Unicode) คือมาตรฐานอุตสาหกรรมที่ช่วยให้คอมพิวเตอร์แสดงผลและจัดการข้อความธรรมดาที่ใช้ในระบบการเขียนของภาษาส่วนใหญ่ในโลกได้อย่างสอดคล้องกัน ยูนิโคดประกอบด้วยรายการอักขระที่แสดงผลได้มากกว่า 100,000 ตัว พัฒนาต่อยอดมาจากมาตรฐานชุดอักขระสากล (Universal Character Set: UCS) และมีการตีพิมพ์ลงในหนังสือ The Unicode Standard เป็นแผนผังรหัสเพื่อใช้เป็นรายการอ้างอิง นอกจากนั้นยังมีการอธิบายวิธีการที่ใช้เข้ารหัสและการนำเสนอมาตรฐานของการเข้ารหัสอักขระอีกจำนวนหนึ่ง การเรียงลำดับอักษร กฎเกณฑ์ของการรวมและการแยกอักขระ รวมไปถึงลำดับการแสดงผลของอักขระสองทิศทาง (เช่นอักษรอาหรับหรืออักษรฮีบรูที่เขียนจากขวาไปซ้าย)
ยูนิโคดคอนซอร์เทียม (Unicode Consortium) ซึ่งเป็นองค์กรไม่แสวงหาผลกำไร เป็นผู้รับผิดชอบในการพัฒนายูนิโคด องค์กรนี้มีจุดมุ่งหมายเกี่ยวกับการแทนที่การเข้ารหัสอักขระที่มีอยู่ด้วยยูนิโคดและมาตรฐานรูปแบบการแปลงยูนิโคด (Unicode Transformation Format: UTF) แต่ก็เป็นที่ยุ่งยากเนื่องจากแผนการที่มีอยู่ถูกจำกัดไว้ด้วยขนาดและขอบเขต ซึ่งอาจไม่รองรับกับสภาพแวดล้อมหลายภาษาในคอมพิวเตอร์
ความสำเร็จของยูนิโคดคือการรวมรหัสอักขระหลายชนิดให้เป็นหนึ่งเดียว นำไปสู่การใช้งานอย่างกว้างขวางและมีอิทธิพลต่อการแปลภาษาของซอฟต์แวร์คอมพิวเตอร์ นั่นคือโปรแกรมจะสามารถใช้ได้หลายภาษา มาตรฐานนี้มีการนำไปใช้เป็นเทคโนโลยีหลักหลายอย่าง อาทิ เอกซ์เอ็มแอล ภาษาจาวา ดอตเน็ตเฟรมเวิร์กและระบบปฏิบัติการสมัยใหม่
ยูนิโคดสามารถนำไปใช้งานได้ด้วยชุดอักขระแบบต่าง ๆ ชุดอักขระที่เป็นที่รู้จักมากที่สุดคือ UTF-8 (ใช้ 1 ไบต์สำหรับอักขระทุกตัวในรหัสแอสกีและมีค่ารหัสเหมือนกับมาตรฐานแอสกี หรือมากกว่านั้นจนถึง 4 ไบต์สำหรับอักขระแบบอื่น) UCS-2 ซึ่งปัจจุบันเลิกใช้แล้ว (ใช้ 2 ไบต์สำหรับอักขระทุกตัว แต่ไม่ครอบคลุมอักขระทั้งหมดในยูนิโคด) และ UTF-16 (เป็นส่วนขยายจาก UCS-2 โดยใช้ 4 ไบต์สำหรับแทนรหัสอักขระที่ขาดไปของ UCS-2)
รุ่นยูนิโคด
รุ่น
|
วันที่
|
หนังสือ
|
ความสอดคล้องกับ
ชุดอักขระสากล (ISO/IEC 10646) |
ชุดอักษร
|
อักขระ
| |
จำนวน
|
การเพิ่มเติมที่สำคัญ
| |||||
1.0.0
|
ตุลาคม พ.ศ. 2534
|
ISBN 0-201-56788-1(Vol.1)
|
24
|
7,161
|
เริ่มต้นด้วยอักษรเหล่านี้: อาหรับ, อาร์เมเนีย, เบงกาลี, ปอพอมอฟอ, ซีริลลิก, เทวนาครี, จอร์เจีย, กรีกและคอปติก, คุชราต, คุรมุขี,ฮันกึล, ฮีบรู, ฮิระงะนะ, กันนาดา, คะตะคะนะ, ลาว, ละติน, มาลายาลัม, โอริยา, ทมิฬ, เตลูกู, ไทย, และทิเบต [2]
| |
1.0.1
|
มิถุนายน พ.ศ. 2535
|
ISBN 0-201-60845-6(Vol.2)
|
25
|
28,359
|
เริ่มมีอักษรภาพรวมจีนญี่ปุ่นเกาหลี (CJK Unified Ideographs) 20,902 ตัว [3]
| |
1.1
|
มิถุนายน พ.ศ. 2536
|
ISO/IEC 10646-1:1993
|
24
|
34,233
|
เพิ่มพยางค์ฮันกึลลงไปอีก 4,306 ตัว จากชุดเดิม 2,350 ตัว และอักษรทิเบตถูกเอาออก [4]
| |
2.0
|
กรกฎาคม พ.ศ. 2539
|
ISBN 0-201-48345-9
|
ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่5, 6, 7
|
25
|
38,950
|
พยางค์ฮันกึลชุดเดิมถูกเอาออก แล้วเพิ่มพยางค์ฮันกึลชุดใหม่ 11,619 ตัวในตำแหน่งใหม่ อักษรทิเบตเพิ่มกลับเข้ามาที่ตำแหน่งใหม่พร้อมกับเปลี่ยนแปลงอักขระบางตัว กลไกอักขระทดแทน (surrogate) ได้ถูกนิยามขึ้น และมีการกำหนดให้เพลน 15 และเพลน 16 เป็นพื้นที่ใช้งานส่วนตัว (Private Use Areas) [5]
|
2.1
|
พฤษภาคม พ.ศ. 2541
|
ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่5, 6, 7 และอักขระสองตัวจากข้อแก้ไขที่ 18
|
25
|
38,952
|
เครื่องหมายยูโรถูกเพิ่มเข้ามา [6]
| |
3.0
|
กันยายน พ.ศ. 2542
|
ISBN 0-201-61633-5
|
ISO/IEC 10646-1:2000
|
38
|
49,259
|
เชอโรกี, เอธิโอเปีย, เขมร, มองโกเลีย, พม่า, โอคัม, รูนส์, สิงหล, ซีเรียค, ทานา, Unified Canadian Aboriginal Syllabics, และอี้ เพิ่มเข้ามา เช่นเดียวกับรูปแบบอักษรเบรลล์ [7]
|
3.1
|
มีนาคม พ.ศ. 2544
|
ISO/IEC 10646-1:2000
ISO/IEC 10646-2:2001
|
41
|
94,205
|
เดเซเรท, โกธิก, และอิตาลีโบราณ เพิ่มเข้ามา พร้อมกับสัญลักษณ์ทางดนตรีสมัยใหม่และดนตรีไบแซนไทน์ และเพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 42,711 ตัว [8]
| |
3.2
|
มีนาคม พ.ศ. 2545
|
ISO/IEC 10646-1:2000 เพิ่มข้อแก้ไขที่1
ISO/IEC 10646-2:2001
|
45
|
95,221
|
เพิ่มอักษรที่ใช้ในฟิลิปปินส์: บูฮิด, ฮานูโนโอ, บายบายิน, และตักบันวา [9]
| |
4.0
|
เมษายน พ.ศ. 2546
|
ISBN 0-321-18578-1
|
ISO/IEC 10646:2003
|
52
|
96,447
|
ไซเปรียท, ลิมบู, ไลเนียร์บี, ออสมันยา, ชาเวียน, ไทไต้คง, และยูการิติก เพิ่มเข้ามาพร้อมกับแผนภูมิหกชั้นของอี้จิง [10]
|
4.1
|
มีนาคม พ.ศ. 2548
|
ISO/IEC 10646:2003เพิ่มข้อแก้ไขที่ 1
|
59
|
97,720
|
ลนตารา, กลาโกลิติก, ขโรษฐี, ไทลื้อใหม่, Old Persian, สิเลฏินาครี, และทิฟินาค เพิ่มเข้ามา,และคอปติกในรูปแบบที่ต่างจากอักษรกรีก เลขกรีกโบราณและสัญลักษณ์ทางดนตรีเพิ่มเข้ามาด้วย [11]
| |
5.0
|
กรกฎาคม พ.ศ. 2549
|
ISBN 0-321-48091-0
|
ISO/IEC 10646:2003เพิ่มข้อแก้ไขที่ 1, 2,และอักขระสี่ตัวจากข้อแก้ไขที่ 3
|
64
|
99,089
|
บาหลี, คูนิฟอร์ม, อึนโก, พักส์-ปา, และฟินิเชีย เพิ่มเข้ามา [12]
|
5.1
|
เมษายน พ.ศ. 2551
|
ISO/IEC 10646:2003เพิ่มข้อแก้ไขที่ 1, 2, 3, 4
|
75
|
100,713
|
คาเรีย, จาม, กะยา, เลปชา, ไลเซีย, ไลเดีย, Ol Chiki, เรชัง, ศารทา, ซุนดา, และไว เพิ่มเข้ามา เช่นเดียวกับกลุ่มสัญลักษณ์ Phaistos Disc, หน้าไพ่นกกระจอก, และหน้าโดมิโน เพิ่มเติมอักษรที่สำคัญสำหรับอักษรพม่า, additions of letters and Scribal abbreviationsused in medieval manuscripts, and the addition of capital ß.[13]
| |
5.2
|
ตุลาคม พ.ศ. 2552
|
ISO/IEC 10646:2003เพิ่มข้อแก้ไขที่ 1, 2, 3, 4, 5, 6
|
90
|
107,361
|
อเวสตะ, บามุม, ไฮโรกลิฟฟิก (the Gardiner Set, comprising 1,071 characters), Imperial Aramaic, Inscriptional Pahlavi,Inscriptional Parthian, ชวา, ไกถิ, ลีสู่, ไมไตมาเยก, Old South Arabian, Old Turkic, Samaritan, ไทธรรม and ไทเวียด added. เพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 4,149 ตัว (CJK-C), เช่นเดียวกับจาโมส่วนขยายของอักษรฮันกึลโบราณ, และอักขระสำหรับอักษรพระเวท [14]
| |
6.0
|
ตุลาคม พ.ศ. 2553
|
ISO/IEC 10646:2010เพิ่มเครื่องหมายสกุลเงินรูปีอินเดีย
|
93
|
109,449
|
บาตัก, พราหมี, มันดาอิก, สัญลักษณ์หน้าไพ่ป๊อก, สัญลักษณ์จราจรและแผนที่, สัญลักษณ์การเล่นแร่แปรธาตุ, อีโมติคอน และอีโมจิ[15]
|
ข้อจำกัดและปัญหา
มีการวิจารณ์ยูนิโคดเกี่ยวกับปัญหาทางเทคนิค และข้อจำกัดต่าง ๆ อย่างไรก็ดี ยูนิโคดได้กลายเป็นวิธีการเข้ารหัสที่ใช้กันมากที่สุดในการทำให้ซอฟต์แวร์และระบบปฏิบัติการใช้ได้หลายภาษาพร้อม ๆ กัน
ระบบปฏิบัติการตระกูลวินโดวส์ ได้แก่วินโดวส์เอ็นที, วินโดวส์ 2000 และ วินโดวส์เอกซ์พี ใช้รหัสยูนิโคดแบบ UTF-16 ในการเข้ารหัสข้อความ ระบบปฏิบัติการที่คล้ายกับยูนิกซ์ เช่น GNU/Linux BSD และ Mac OS X ก็ได้นำยูนิโคดแบบ UTF-8 มาใช้ เป็นพื้นฐานของการแทนข้อความที่มีหลายภาษา
การรองรับภาษาไทยในยูนิโคด ได้รับการวิพากษ์วิจารณ์เนื่องจากว่าลำดับเรียงตัวอักษรนั้นไม่ถูกต้องตามที่ควรจะเป็น ซึ่งเป็นเพราะว่ายูนิโคดในส่วนภาษาไทยได้อ้างอิงรูปแบบเดิมจาก Thai Industry Standard 620 (TIS-620) ที่มีปัญหานี้เช่นกัน จึงทำให้การเทียบเรียงลำดับยูนิโคดยุ่งยากขึ้น
TEERADAT KONGROM
01010100 01000101
01000101 01010010 01000001
0100010001000001 01010100
00100000 01001000 01001111
01001110 01000111 01010010
01001111 01001101
ใช้พื้นที่ 128 บิต 16 ไบต์
ไม่มีความคิดเห็น:
แสดงความคิดเห็น