พิเศษ (บล็อก Unicode)

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา
พิเศษ
พิสัยU+FFF0..U+FFFF
(รหัส 16 แต้ม)
เครื่องบินBMP
สคริปต์ทั่วไป
ที่ได้รับมอบหมาย5 โค้ดพอยท์
ไม่ได้ใช้รหัสสำรอง 9 จุด
2 ไม่ใช่อักขระ
ประวัติเวอร์ชัน Unicode
1.0.0 (1991)1 (+1)
2.1 (1998)2 (+1)
3.0 (1999)5 (+3)
หมายเหตุ : [1] [2]

รายการพิเศษคือบล็อกUnicodeสั้นๆ ที่จัดสรรไว้ที่ส่วนท้ายสุดของBasic Multilingual Planeที่ U+FFF0–FFFF จาก 16 จุดรหัสเหล่านี้ มีห้าจุดที่ได้รับมอบหมายตั้งแต่ Unicode 3.0:

  • U+FFF9 INTERLINEAR ANNOTATION ANCHORทำเครื่องหมายจุดเริ่มต้นของข้อความที่มีคำอธิบายประกอบ
  • U+FFFA INTERLINEAR ANNOTATION SPARATORทำเครื่องหมายจุดเริ่มต้นของอักขระที่มีคำอธิบายประกอบ
  • U+FFFB INTERLINEAR ANNOTATION TERMINATORทำเครื่องหมายจุดสิ้นสุดของบล็อกคำอธิบายประกอบ
  • U + FFFC CHARACTER วัตถุแทนตัวยึดในข้อความสำหรับวัตถุที่ไม่ระบุอื่นตัวอย่างเช่นในเอกสารประกอบ
  • U+FFFD REPLACEMENT CHARACTERใช้เพื่อแทนที่อักขระที่ไม่รู้จัก ไม่รู้จัก หรือไม่เป็นตัวแทน
  • U+FFFE <noncharacter-FFFE>ไม่ใช่อักขระ
  • U+FFFF <noncharacter-FFFF>ไม่ใช่อักขระ

FFFE และ FFFF ไม่ได้ถูกกำหนดในความหมายปกติ แต่รับประกันว่าจะไม่ใช่อักขระ Unicodeเลย สามารถใช้เพื่อคาดเดารูปแบบการเข้ารหัสของข้อความได้ เนื่องจากข้อความใดๆ ที่มีสิ่งเหล่านี้จะถือว่าไม่ใช่ข้อความ Unicode ที่เข้ารหัสอย่างถูกต้อง อักขระU+FEFF BYTE ORDER MARKของ Unicode สามารถแทรกได้ที่จุดเริ่มต้นของข้อความ Unicode เพื่อส่งสัญญาณถึงความสิ้นสุดของมัน: โปรแกรมที่อ่านข้อความดังกล่าวและพบ 0xFFFE จะรู้ว่าควรเปลี่ยนลำดับไบต์สำหรับอักขระต่อไปนี้ทั้งหมด

ชื่อบล็อกใน Unicode 1.0 เป็นพิเศษ [3]

อักขระแทน

อักขระทดแทน

ตัวอักษรทดแทน (มักจะแสดงเป็นสีดำรูปสี่เหลี่ยมขนมเปียกปูนมีเครื่องหมายคำถามสีขาว) เป็นสัญลักษณ์ที่พบในUnicodeมาตรฐานที่จุดรหัส U + FFFD ในราคาพิเศษตาราง ใช้เพื่อระบุปัญหาเมื่อระบบไม่สามารถแสดงกระแสข้อมูลเป็นสัญลักษณ์ที่ถูกต้องได้[4]โดยปกติจะเห็นเมื่อข้อมูลไม่ถูกต้องและไม่ตรงกับอักขระใดๆ:

พิจารณาไฟล์ข้อความที่มีคำภาษาเยอรมันfür (หมายถึง 'สำหรับ') ในการเข้ารหัสISO-8859-1 ( 0x66 0xFC 0x72) ไฟล์นี้จะเปิดตอนนี้มีโปรแกรมแก้ไขข้อความที่ถือว่าเข้าเป็นUTF-8ไบต์แรกและไบต์สุดท้ายเป็นการเข้ารหัส UTF-8 ที่ถูกต้องของ ASCII แต่ไบต์กลาง ( ) ไม่ใช่ไบต์ที่ถูกต้องใน UTF-8 ดังนั้นการแก้ไขข้อความที่สามารถใช้ทดแทนไบต์นี้ที่มีสัญลักษณ์ตัวอักษรทดแทนในการผลิตที่ถูกต้องของสตริง Unicode จุดรหัสสตริงทั้งหมดจะแสดงดังนี้: "f r" 0xFC

โปรแกรมแก้ไขข้อความที่ใช้งานไม่ดีอาจบันทึกการแทนที่ในรูปแบบ UTF-8 ข้อมูลไฟล์ข้อความจะมีลักษณะดังนี้: 0x66 0xEF 0xBF 0xBD 0x72ซึ่งจะแสดงใน ISO-8859-1 เป็น "f�r" (เรียกว่าmojibake ) เนื่องจากการแทนที่จะเหมือนกันสำหรับข้อผิดพลาดทั้งหมด จึงทำให้ไม่สามารถกู้คืนตัวละครดั้งเดิมได้ การออกแบบที่ดีกว่า (แต่ใช้งานยากกว่า) คือการรักษาไบต์ดั้งเดิมไว้ รวมถึงข้อผิดพลาด และแปลงเป็นการแทนที่เมื่อแสดงข้อความเท่านั้น ซึ่งจะช่วยให้โปรแกรมแก้ไขข้อความสามารถบันทึกลำดับไบต์เดิมได้ ในขณะที่ยังคงแสดงตัวบ่งชี้ข้อผิดพลาดให้ผู้ใช้เห็น

ครั้งหนึ่งมักใช้อักขระแทนที่เมื่อไม่มีสัญลักษณ์ในแบบอักษรสำหรับอักขระนั้น อย่างไรก็ตาม ระบบการเรนเดอร์ข้อความที่ทันสมัยส่วนใหญ่ใช้อักขระ . notdefของฟอนต์แทนซึ่งในกรณีส่วนใหญ่เป็นช่องว่าง (หรือ "?" หรือ "X" ในกล่อง[5] ) บางครั้งเรียกว่า " เต้าหู้ " (เบราว์เซอร์นี้แสดง ? ???) ไม่มีจุดโค้ด Unicode สำหรับสัญลักษณ์นี้

ดังนั้นตอนนี้จะเห็นอักขระแทนที่สำหรับข้อผิดพลาดในการเข้ารหัสเท่านั้น เช่น UTF-8 ที่ไม่ถูกต้อง ซอฟต์แวร์บางตัวพยายามซ่อนสิ่งนี้โดยแปลไบต์ของ UTF-8 ที่ไม่ถูกต้องเป็นอักขระที่ตรงกันในWindows-1252 (เนื่องจากเป็นสาเหตุของข้อผิดพลาดที่น่าจะเป็นไปได้มากที่สุด) เพื่อไม่ให้เห็นอักขระแทนที่

แผนภูมิ Unicode

พิเศษ[1] [2] [3]
แผนผังรหัส Unicode Consortium อย่างเป็นทางการ (PDF)
  0 1 2 3 4 5 6 7 8 9 NS NS NS อี NS
U+FFx  IA 
 IA 
S
 IA 
T
หมายเหตุ
1. ^ณ เวอร์ชัน Unicode 13.0
2. ^พื้นที่สีเทาหมายถึงจุดรหัสที่ไม่ได้กำหนด
3. ^พื้นที่สีดำบ่งชี้ว่าไม่มีอักขระ (จุดรหัสที่รับประกันว่าจะไม่ถูกกำหนดให้เป็นอักขระที่เข้ารหัสในมาตรฐาน Unicode)

ประวัติ

เอกสารที่เกี่ยวข้องกับ Unicode ต่อไปนี้จะบันทึกวัตถุประสงค์และกระบวนการกำหนดอักขระเฉพาะในบล็อกพิเศษ:

เวอร์ชั่น จุดรหัสสุดท้าย[a] นับ  รหัสUTC L2  ID WG2  ID เอกสาร
1.0.0 U+FFFD 1 (จะกำหนด)
U+FFFE..FFFF 2 (จะกำหนด)
L2/01-295R Moore, Lisa (2001-11-06), "Motion 88-M2", รายงานการประชุม UTC/L2 #88
L2/01-355 N2369 (html , เอกสาร ) Davis, Mark (2001-09-26), Request to allow FFFF, FFFE in UTF-8 ในข้อความของ ISO/IEC 10646
L2/02-154 N2403 Umamaheswaran, VS (2002-04-22), "9.3 Allowing FFFF and FFFE in UTF-8", Draft minutes of WG 2 meeting 41, Hotel Phoenix, Singapore, 2001-10-15/19
2.1 U+FFFC 1 UTC/1995-056 ซาร์เจนท์, เมอร์เรย์ (1995-12-06), คำแนะนำในการเข้ารหัสอักขระ WCH_EMBEDDING
UTC/1996-002 อาลีปรานด์, โจน; ฮาร์ต, เอ็ดวิน; Greenfield, Steve (1996-03-05), "Embedded Objects", UTC #67 Minutes
N1365 ซาร์เจนท์, เมอร์เรย์ (1996-03-18), สรุปข้อเสนอ – ตัวละครแทนที่วัตถุ
N1353 Umamaheswaran, VS; Ksar, Mike (1996-06-25), "8.14", ร่างรายงานการประชุม WG2 Copenhagen # 30
L2/97-288 N1603 Umamaheswaran, VS (1997-10-24), "7.3", Unconfirmed Meeting Minutes, WG 2 Meeting # 33, Heraklion, Crete, กรีซ, 20 มิถุนายน – 4 กรกฎาคม 1997
L2/98-004R N1681 ข้อความ ISO 10646 – AMD 18 สำหรับการลงทะเบียน PDAM และบัตรลงคะแนน FPDAM , 1997-12-22
L2/98-070 อาลีปรานด์, โจน; Winkler, Arnold, "ความเห็นเพิ่มเติมเกี่ยวกับ 2.1", รายงานการประชุมร่วม UTC และ L2 จากการประชุมที่ Cupertino, 25-27 กุมภาพันธ์ 2541
L2/98-318 N1894 แก้ไขข้อความของ 10646-1/FPDAM 18 แก้ไข 18: สัญลักษณ์และอื่นๆ , 1998-10-22
3.0 U+FFF9..FFFB 3 L2/97-255R Aliprand, Joan (1997-12-03), "3.D Proposal for In-Line Notation (ruby)", Approved Minutes – UTC #73 & L2 #170 joint meeting, Palo Alto, CA – 4-5 สิงหาคม 1997
L2/98-055 Freytag, Asmus (1998-02-22), รองรับการใช้คำอธิบายประกอบแบบอินไลน์และแบบอินไลน์
L2/98-070 อาลีปรานด์, โจน; Winkler, Arnold, "3.C.5. สนับสนุนการนำคำอธิบายประกอบแบบอินไลน์และอินไลน์ไปใช้", รายงานการประชุมร่วม UTC และ L2 จากการประชุมใน Cupertino, 25-27 กุมภาพันธ์ 1998
L2/98-099 N1727 Freytag, Asmus (1998-03-18), รองรับการใช้คำอธิบายประกอบแบบอินเทอร์ลิเนียร์ที่ใช้ในอักษรเอเชียตะวันออก
L2/98-158 อาลีปรานด์, โจน; Winkler, Arnold (1998-05-26), "Inline and Interlinear Annotations", Draft Minutes – UTC #76 & NCITS Subgroup L2 #173 joint meeting, Tredyffrin, Pennsylvania, 20-22 เมษายน 1998
L2/98-286 N1703 Umamaheswaran, VS; Ksar, Mike (1998-07-02), "8.14", รายงานการประชุมที่ไม่ได้รับการยืนยัน , การประชุม WG 2 #34, Redmond, WA, USA; 1998-03-16--20
L2/98-270 ฮิอุระ, ฮิเดกิ; Kobayashi, Tatsuo (1998-07-29), ข้อเสนอแนะเกี่ยวกับข้อเสนอคำอธิบายประกอบแบบอินไลน์และอินเทอร์ลิเนียร์
L2/98-281R (pdf , html ) Aliprand, Joan (1998-07-31), "In-Line and Interlinear Annotation (III.C.1.c)", Unconfirmed Minutes – UTC #77 & NCITS Subgroup L2 # 174 JOINT MEETING, Redmond, WA -- กรกฎาคม 29-31, 1998
L2/98-363 N1861 Sato, TK (1998-09-01), Ruby markers
L2/98-372 N1884R2 (pdf , doc ) วิสต์เลอร์, เคน; และคณะ (1998-09-22), ตัวละครเพิ่มเติมสำหรับ UCS
L2/98-416 N1882.zip การสนับสนุนสำหรับการใช้คำอธิบายประกอบ Interlinear , 1998-09-23
L2/98-329 N1920 รวมการลงทะเบียน PDAM และการลงคะแนนเพื่อพิจารณาใน WD สำหรับ ISO/IEC 10646-1/Amd 30 แก้ไข 30: ภาษาละตินเพิ่มเติมและอักขระอื่นๆ , 1998-10-28
L2/98-421R ซุยนาร์ด, มิเชล; ฮิอุระ, ฮิเดกิ (1998-12-04), หมายเหตุเกี่ยวกับอักขระคำอธิบายประกอบแบบอินเทอร์ลิเนียร์ PDAM 30 ตัว
L2/99-010 N1903 (pdf , html , doc ) Umamaheswaran, VS (1998-12-30), "8.2.15", Minutes of WG 2 meeting 35, London, UK; 1998-09-21--25
L2/98-419 (pdf , doc ) Aliprand, Joan (1999-02-05), "Interlinear Annotation Characters", Approved Minutes -- UTC #78 & NCITS Subgroup L2 # 175 Joint Meeting, ซานโฮเซ, แคลิฟอร์เนีย -- 1-4 ธันวาคม 2541
UTC/1999-021 Duerst, มาร์ติน; Bosak, Jon (1999-06-08), คำสั่ง W3C XML CG บนอักขระคำอธิบายประกอบ
L2/99-176R Moore, Lisa (1999-11-04), "W3C Liaison Statement on Annotation Characters", รายงานการประชุม UTC/L2 ร่วมกันในซีแอตเทิล, 8-10 มิถุนายน 2542
L2/01-301 Whistler, Ken (2001-08-01), "E. ระบุว่า "ท้อแท้อย่างยิ่ง" สำหรับการแลกเปลี่ยนข้อความธรรมดา", การวิเคราะห์การเลิกใช้อักขระในมาตรฐาน Unicode
  1. ^ รหัสจุดและชื่อตัวอักษรที่เสนออาจแตกต่างจากจุดและชื่อรหัสสุดท้าย

ดูเพิ่มเติม

อ้างอิง

  1. ^ "ฐานข้อมูลอักขระ Unicode" . มาตรฐาน Unicode สืบค้นเมื่อ2016-07-09 .
  2. ^ "รุ่นนับจำนวนของมาตรฐาน Unicode" มาตรฐาน Unicode สืบค้นเมื่อ2016-07-09 .
  3. ^ "3.8: ชาร์ตที่ถูกบล็อกโดยบล็อก" (PDF) มาตรฐาน Unicode เวอร์ชัน 1.0. Unicode Consortium
  4. ^ วิชารี, มาร์ซิน. "เมื่อแบบอักษรตก" . Figma สืบค้นเมื่อ6 มิถุนายนพ.ศ. 2564 .
  5. ^ "คำแนะนำสำหรับแบบอักษร OpenType (OpenType 1.7) - วิชาการพิมพ์" . docs.microsoft.com . สืบค้นเมื่อ18 ตุลาคม 2020 .