วันจันทร์ที่ 8 กรกฎาคม พ.ศ. 2556

ข้อมูลรหัส Acsll และ Unicode

                                              ข้อมูลรหัส Acsll และ Unicode

 
รหัสแอสกี
              รหัสแอสกี (ASCII) เป็นมาตรฐานที่นิยมใช้กันมากในระบบคอมพิวเตอร์ส่วนใหญ่ เป็นคำย่อมาจาก American Standard Code Information Interchange เป็นรหัส 8 บิต แทนสัญลักษณ์ต่าง ๆ ได้ 256 ตัว  เมื่อใช้แทนตัวอักษรภาษาอังกฤษแล้ว ยังมีเหลืออยู่ สำนักงานมาตรฐานผลิตภัณฑ์อุตสาหกรรม หรือ สมอ. ได้กำหนดรหัสภาษาไทยเพิ่มลงไปเพื่อให้ใช้งานร่วมกันได้
 
                รหัสแอสกีมีใช้ในระบบคอมพิวเตอร์ และเครื่องมือสื่อสารแบบดิจิทัลต่างๆ พัฒนาขึ้นโดยคณะกรรมการX3 ซึ่งอยู่ภายใต้การดูแลของสมาคมมาตรฐานอเมริกา (American Standards Association) ภายหลังกลายเป็น สถาบันมาตรฐานแห่งชาติอเมริกา (American National Standard Institute : ANSI) ในปี ค.ศ. 1969โดยเริ่มต้นใช้ครั้งแรกในปี ค.ศ. 1967 ซึ่งมีอักขระทั้งหมด 128 ตัว (7 บิต) โดยจะมี 33 ตัวที่ไม่แสดงผล (unprintable/control character) ซึ่งใช้สำหรับควบคุมการทำงานของคอมพิวเตอร์บางประการ เช่น การขึ้นย่อหน้าใหม่สำหรับการพิมพ์ (CR & LF - carriage return and line feed) การสิ้นสุดการประมวลผลข้อมูลตัวอักษร (ETX - end of text) เป็นต้น และ อีก 95 ตัวที่แสดงผลได้ (printable character) ดังที่ปรากฏตามผังอักขระ (character map) ด้านล่าง
                 รหัสแอสกีได้รับการปรับปรุงล่าสุดเมื่อ ค.ศ. 1986 ให้มีอักขระทั้งหมด 256 ตัว (8 บิต) และเรียกใหม่ว่าแอสกีแบบขยาย อักขระที่เพิ่มมา 128 ตัวใช้สำหรับแสดงอักขระเพิ่มเติมในภาษาของแต่ละท้องถิ่นที่ใช้ เช่นภาษาเยอรมัน ภาษารัสเซีย ฯลฯ โดยจะมีผังอักขระที่แตกต่างกันไปในแต่ละภาษาซึ่งเรียกว่า โคดเพจ (codepage) โดยอักขระ 128 ตัวแรกส่วนใหญ่จะยังคงเหมือนกันแทบทุกโคดเพจ มีส่วนน้อยที่เปลี่ยนแค่บางอักขระ
 


                                                     ผังอักขระแอสกี้ที่ไม่แสดงผล
                    อักขระที่ไม่แสดงผลเหล่านี้ถูกใช้เป็นรหัสควบคุมการพิมพ์บนเครื่องพิมพ์ หรือใช้เป็นตัวแบ่งข้อมูลในสื่อบันทึกข้อมูลบางชนิด (เช่นเทป) อักขระตัวแทนที่ปรากฏในตารางเป็นเพียงการแสดงว่า ณ ตำแหน่งนั้นมีรหัสดังกล่าวอยู่ ไม่ใช่สัญลักษณ์ที่จะนำมาแสดงผลเป็นหลัก
 
 ยูนิโคด
 
                    ยูนิโคด (อังกฤษ: Unicode) คือมาตรฐานอุตสาหกรรมที่ช่วยให้คอมพิวเตอร์แสดงผลและจัดการข้อความธรรมดาที่ใช้ในระบบการเขียนของภาษาส่วนใหญ่ในโลกได้อย่างสอดคล้องกัน ยูนิโคดประกอบด้วยรายการอักขระที่แสดงผลได้มากกว่า 100,000 ตัว พัฒนาต่อยอดมาจากมาตรฐานชุดอักขระสากล (Universal Character Set: UCS) และมีการตีพิมพ์ลงในหนังสือ The Unicode Standard เป็นแผนผังรหัสเพื่อใช้เป็นรายการอ้างอิง นอกจากนั้นยังมีการอธิบายวิธีการที่ใช้เข้ารหัสและการนำเสนอมาตรฐานของการเข้ารหัสอักขระอีกจำนวนหนึ่ง การเรียงลำดับอักษร กฎเกณฑ์ของการรวมและการแยกอักขระ รวมไปถึงลำดับการแสดงผลของอักขระสองทิศทาง (เช่นอักษรอาหรับหรืออักษรฮีบรูที่เขียนจากขวาไปซ้าย) 
             ยูนิโคดคอนซอร์เทียม (Unicode Consortium) ซึ่งเป็นองค์กรไม่แสวงหาผลกำไร เป็นผู้รับผิดชอบในการพัฒนายูนิโคด องค์กรนี้มีจุดมุ่งหมายเกี่ยวกับการแทนที่การเข้ารหัสอักขระที่มีอยู่ด้วยยูนิโคดและมาตรฐานรูปแบบการแปลงยูนิโคด (Unicode Transformation Format: UTF) แต่ก็เป็นที่ยุ่งยากเนื่องจากแผนการที่มีอยู่ถูกจำกัดไว้ด้วยขนาดและขอบเขต ซึ่งอาจไม่รองรับกับสภาพแวดล้อมหลายภาษาในคอมพิวเตอร์
ความสำเร็จของยูนิโคดคือการรวมรหัสอักขระหลายชนิดให้เป็นหนึ่งเดียว นำไปสู่การใช้งานอย่างกว้างขวางและมีอิทธิพลต่อการแปลภาษาของซอฟต์แวร์คอมพิวเตอร์ นั่นคือโปรแกรมจะสามารถใช้ได้หลายภาษา มาตรฐานนี้มีการนำไปใช้เป็นเทคโนโลยีหลักหลายอย่าง อาทิ เอกซ์เอ็มแอล ภาษาจาวา ดอตเน็ตเฟรมเวิร์กและระบบปฏิบัติการสมัยใหม่
         ยูนิโคดสามารถนำไปใช้งานได้ด้วยชุดอักขระแบบต่าง ๆ ชุดอักขระที่เป็นที่รู้จักมากที่สุดคือ UTF-8 (ใช้ 1 ไบต์สำหรับอักขระทุกตัวในรหัสแอสกีและมีค่ารหัสเหมือนกับมาตรฐานแอสกี หรือมากกว่านั้นจนถึง 4 ไบต์สำหรับอักขระแบบอื่น) UCS-2 ซึ่งปัจจุบันเลิกใช้แล้ว (ใช้ 2 ไบต์สำหรับอักขระทุกตัว แต่ไม่ครอบคลุมอักขระทั้งหมดในยูนิโคด) และ UTF-16 (เป็นส่วนขยายจาก UCS-2 โดยใช้ 4 ไบต์สำหรับแทนรหัสอักขระที่ขาดไปของ UCS-2)
 
 

รุ่นยูนิโคด

รุ่น
วันที่
หนังสือ
ความสอดคล้องกับ
ชุดอักขระสากล
(ISO/IEC 10646)
ชุดอักษร
อักขระ
จำนวน
การเพิ่มเติมที่สำคัญ
1.0.0
ตุลาคม พ.ศ. 2534
ISBN 0-201-56788-1(Vol.1)
24
7,161
เริ่มต้นด้วยอักษรเหล่านี้: อาหรับ, อาร์เมเนีย, เบงกาลี, ปอพอมอฟอ, ซีริลลิก, เทวนาครี, จอร์เจีย, กรีกและคอปติก, คุชราต, คุรมุขี,ฮันกึล, ฮีบรู, ฮิระงะนะ, กันนาดา, คะตะคะนะ, ลาว, ละติน, มาลายาลัม, โอริยา, ทมิฬ, เตลูกู, ไทย, และทิเบต [2]
1.0.1
มิถุนายน พ.ศ. 2535
ISBN 0-201-60845-6(Vol.2)
25
28,359
เริ่มมีอักษรภาพรวมจีนญี่ปุ่นเกาหลี (CJK Unified Ideographs) 20,902 ตัว [3]
1.1
มิถุนายน พ.ศ. 2536
ISO/IEC 10646-1:1993
24
34,233
เพิ่มพยางค์ฮันกึลลงไปอีก 4,306 ตัว จากชุดเดิม 2,350 ตัว และอักษรทิเบตถูกเอาออก [4]
2.0
กรกฎาคม พ.ศ. 2539
ISBN 0-201-48345-9
ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่5, 6, 7
25
38,950
พยางค์ฮันกึลชุดเดิมถูกเอาออก แล้วเพิ่มพยางค์ฮันกึลชุดใหม่ 11,619 ตัวในตำแหน่งใหม่ อักษรทิเบตเพิ่มกลับเข้ามาที่ตำแหน่งใหม่พร้อมกับเปลี่ยนแปลงอักขระบางตัว กลไกอักขระทดแทน (surrogate) ได้ถูกนิยามขึ้น และมีการกำหนดให้เพลน 15 และเพลน 16 เป็นพื้นที่ใช้งานส่วนตัว (Private Use Areas) [5]
2.1
พฤษภาคม พ.ศ. 2541
ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่5, 6, 7 และอักขระสองตัวจากข้อแก้ไขที่ 18
25
38,952
เครื่องหมายยูโรถูกเพิ่มเข้ามา [6]
3.0
กันยายน พ.ศ. 2542
ISBN 0-201-61633-5
ISO/IEC 10646-1:2000
38
49,259
เชอโรกี, เอธิโอเปีย, เขมร, มองโกเลีย, พม่า, โอคัม, รูนส์, สิงหล, ซีเรียค, ทานา, Unified Canadian Aboriginal Syllabics, และอี้ เพิ่มเข้ามา เช่นเดียวกับรูปแบบอักษรเบรลล์ [7]
3.1
มีนาคม พ.ศ. 2544
ISO/IEC 10646-1:2000
ISO/IEC 10646-2:2001
41
94,205
เดเซเรท, โกธิก, และอิตาลีโบราณ เพิ่มเข้ามา พร้อมกับสัญลักษณ์ทางดนตรีสมัยใหม่และดนตรีไบแซนไทน์ และเพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 42,711 ตัว [8]
3.2
มีนาคม พ.ศ. 2545
ISO/IEC 10646-1:2000 เพิ่มข้อแก้ไขที่1
ISO/IEC 10646-2:2001
45
95,221
เพิ่มอักษรที่ใช้ในฟิลิปปินส์: บูฮิด, ฮานูโนโอ, บายบายิน, และตักบันวา [9]
4.0
เมษายน พ.ศ. 2546
ISBN 0-321-18578-1
ISO/IEC 10646:2003
52
96,447
ไซเปรียท, ลิมบู, ไลเนียร์บี, ออสมันยา, ชาเวียน, ไทไต้คง, และยูการิติก เพิ่มเข้ามาพร้อมกับแผนภูมิหกชั้นของอี้จิง [10]
4.1
มีนาคม พ.ศ. 2548
ISO/IEC 10646:2003เพิ่มข้อแก้ไขที่ 1
59
97,720
ลนตารา, กลาโกลิติก, ขโรษฐี, ไทลื้อใหม่, Old Persian, สิเลฏินาครี, และทิฟินาค เพิ่มเข้ามา,และคอปติกในรูปแบบที่ต่างจากอักษรกรีก เลขกรีกโบราณและสัญลักษณ์ทางดนตรีเพิ่มเข้ามาด้วย [11]
5.0
กรกฎาคม พ.ศ. 2549
ISBN 0-321-48091-0
ISO/IEC 10646:2003เพิ่มข้อแก้ไขที่ 1, 2,และอักขระสี่ตัวจากข้อแก้ไขที่ 3
64
99,089
บาหลี, คูนิฟอร์ม, อึนโก, พักส์-ปา, และฟินิเชีย เพิ่มเข้ามา [12]
5.1
เมษายน พ.ศ. 2551
ISO/IEC 10646:2003เพิ่มข้อแก้ไขที่ 1, 2, 3, 4
75
100,713
คาเรีย, จาม, กะยา, เลปชา, ไลเซีย, ไลเดีย, Ol Chiki, เรชัง, ศารทา, ซุนดา, และไว เพิ่มเข้ามา เช่นเดียวกับกลุ่มสัญลักษณ์ Phaistos Disc, หน้าไพ่นกกระจอก, และหน้าโดมิโน เพิ่มเติมอักษรที่สำคัญสำหรับอักษรพม่า, additions of letters and Scribal abbreviationsused in medieval manuscripts, and the addition of capital ß.[13]
5.2
ตุลาคม พ.ศ. 2552
ISO/IEC 10646:2003เพิ่มข้อแก้ไขที่ 1, 2, 3, 4, 5, 6
90
107,361
อเวสตะ, บามุม, ไฮโรกลิฟฟิก (the Gardiner Set, comprising 1,071 characters), Imperial Aramaic, Inscriptional Pahlavi,Inscriptional Parthian, ชวา, ไกถิ, ลีสู่, ไมไตมาเยก, Old South Arabian, Old Turkic, Samaritan, ไทธรรม and ไทเวียด added. เพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 4,149 ตัว (CJK-C), เช่นเดียวกับจาโมส่วนขยายของอักษรฮันกึลโบราณ, และอักขระสำหรับอักษรพระเวท [14]
6.0
ตุลาคม พ.ศ. 2553
ISO/IEC 10646:2010เพิ่มเครื่องหมายสกุลเงินรูปีอินเดีย
93
109,449
บาตัก, พราหมี, มันดาอิก, สัญลักษณ์หน้าไพ่ป๊อก, สัญลักษณ์จราจรและแผนที่, สัญลักษณ์การเล่นแร่แปรธาตุ, อีโมติคอน และอีโมจิ[15]



ข้อจำกัดและปัญหา
 
               มีการวิจารณ์ยูนิโคดเกี่ยวกับปัญหาทางเทคนิค และข้อจำกัดต่าง ๆ อย่างไรก็ดี ยูนิโคดได้กลายเป็นวิธีการเข้ารหัสที่ใช้กันมากที่สุดในการทำให้ซอฟต์แวร์และระบบปฏิบัติการใช้ได้หลายภาษาพร้อม ๆ กัน
ระบบปฏิบัติการตระกูลวินโดวส์ ได้แก่วินโดวส์เอ็นทีวินโดวส์ 2000 และ วินโดวส์เอกซ์พี ใช้รหัสยูนิโคดแบบ UTF-16 ในการเข้ารหัสข้อความ ระบบปฏิบัติการที่คล้ายกับยูนิกซ์ เช่น GNU/Linux BSD และ Mac OS X ก็ได้นำยูนิโคดแบบ UTF-8 มาใช้ เป็นพื้นฐานของการแทนข้อความที่มีหลายภาษา
การรองรับภาษาไทยในยูนิโคด ได้รับการวิพากษ์วิจารณ์เนื่องจากว่าลำดับเรียงตัวอักษรนั้นไม่ถูกต้องตามที่ควรจะเป็น ซึ่งเป็นเพราะว่ายูนิโคดในส่วนภาษาไทยได้อ้างอิงรูปแบบเดิมจาก Thai Industry Standard 620 (TIS-620) ที่มีปัญหานี้เช่นกัน จึงทำให้การเทียบเรียงลำดับยูนิโคดยุ่งยากขึ้น 
 
 
 
 
 
 
TEERADAT  KONGROM
01010100  01000101  01000101  01010010   01000001  0100010001000001  01010100  00100000  01001000  01001111  01001110  01000111  01010010  01001111  01001101
ใช้พื้นที่  128 บิต 16 ไบต์

ไม่มีความคิดเห็น:

แสดงความคิดเห็น