ตัวละครที่พรีคอมโพสิท

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

อักขระล่วงหน้า (อักขระผสมหรืออักขระที่ย่อยสลายได้ ) เป็น เอนทิตี Unicodeที่สามารถกำหนดเป็นลำดับของอักขระอื่นๆ ได้ตั้งแต่หนึ่งตัวขึ้นไป อักขระล่วงหน้ามักจะแสดงตัวอักษรที่มีเครื่องหมายกำกับเสียงเช่นé (อักษรตัวเล็กละตินeที่มีการเน้นเสียงเฉียบพลัน ) ในทางเทคนิคé (U+00E9) เป็นอักขระที่สามารถแบ่งออกเป็น สตริงที่ เทียบเท่ากับตัวอักษรหลักe (U+0065) และรวมการเน้นเสียงแหลม (U+0301) เข้าด้วยกัน ในทำนองเดียวกันลิเกเจอร์เป็นคำบุพบทของตัวอักษรหรือกราฟที่ เป็นส่วนประกอบ

อักขระล่วงหน้าเป็นวิธีการแก้ปัญหาแบบเดิมสำหรับการแสดงตัวอักษรพิเศษจำนวนมากในชุดอักขระต่างๆ ใน Unicode จะรวมไว้เพื่อช่วยระบบคอมพิวเตอร์ที่มีการสนับสนุน Unicode ที่ไม่สมบูรณ์เป็นหลัก ซึ่งอักขระที่สลายตัวที่เทียบเท่ากันอาจแสดงผลอย่างไม่ถูกต้อง

เปรียบเทียบอักขระพรีคอมและสลายตัว

ในตัวอย่างต่อไปนี้ มี นามสกุล สวีเดน ทั่วไป Åström เขียนในสองวิธีอื่น วิธีแรกมีÅ ล่วงหน้า (U+00C5) และö (U+00F6) และนามสกุลที่สองใช้อักษรฐานที่สลายตัวA ( U+0041) ที่มีวงแหวนรวมด้านบน (U+030A) และo (U+006F) ที่มีไดอะเรซิสรวม(U+0308 )

  1. Å str ö m (U+00C5U+0073 U+0074 U+0072U+00F6U+006D)
  2. อ สตรอม (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

ยกเว้นสีที่ต่างกัน โซลูชันทั้งสองมีค่าเท่ากันและควรแสดงผลเหมือนกัน อย่างไรก็ตาม ในทางปฏิบัติ การใช้งาน Unicode บางตัวยังคงมีปัญหากับอักขระที่สลายตัว ในกรณีที่เลวร้ายที่สุด การรวมเครื่องหมายกำกับเสียงอาจถูกละเว้นหรือแสดงเป็นอักขระที่ไม่รู้จักหลังจากตัวอักษรพื้นฐาน เนื่องจากไม่ได้รวมอยู่ในแบบอักษรทั้งหมด เพื่อแก้ปัญหานี้ แอปพลิเคชั่นบางตัวอาจพยายามแทนที่อักขระที่สลายตัวด้วยอักขระ precomposed ที่เทียบเท่ากัน

อย่างไรก็ตาม ด้วยฟอนต์ที่ไม่สมบูรณ์ อักขระที่ใช้ล่วงหน้าอาจเป็นปัญหาได้เช่นกัน โดยเฉพาะอย่างยิ่งหากพวกมันแปลกใหม่กว่า ดังในตัวอย่างต่อไปนี้ (แสดงคำโปรโต-อินโด-ยูโรเปียน ที่สร้างขึ้นใหม่ สำหรับ "dog"):

  1. ḱṷṓ n (U+1E31 U+1E77 U+1E53U+006E)
  2. ḱṷṓn (U+006B U+0301 U+0075 U+032D U +006F U +0304 U+0301 U+006E)

ในบางสถานการณ์k , uและo สีเขียวที่แต่งไว้ล่วงหน้า พร้อมเครื่องหมายกำกับเสียงอาจแสดงเป็น อักขระที่ ไม่รู้จักหรือ ลักษณะทางการ พิมพ์อาจแตกต่างอย่างมากจากตัวอักษรสุดท้ายnที่ไม่มีเครื่องหมายกำกับเสียง ในบรรทัดที่สอง อย่างน้อยตัวอักษรพื้นฐานควรแสดงอย่างถูกต้อง แม้ว่าจะไม่รู้จักเครื่องหมายกำกับเสียงแบบผสมก็ตาม

OpenTypeมี"แท็กคุณลักษณะ" ccmp เพื่อกำหนดร่ายมนตร์ที่เป็นองค์ประกอบหรือการสลายตัวที่เกี่ยวข้องกับการรวมอักขระ

อักษรจีน

ตามทฤษฎีแล้วอักขระจีน ส่วนใหญ่ ที่เข้ารหัสโดยการรวมฮันและรูปแบบที่คล้ายกันสามารถถือเป็นอักขระล่วงหน้าได้ เนื่องจากสามารถย่อ (สลาย) เป็นจังหวะ ที่เป็นส่วนประกอบ และคำอธิบายเชิงอุดมคติด้วยภาษาคำอธิบายอักขระภาษาจีน วิธีการดังกล่าวสามารถลดจำนวนอักขระในชุดอักขระจากหมื่นตัวเหลือเพียงไม่กี่ร้อยตัว ในทางกลับกัน ชุดอักขระที่สลายตัวสูงดังกล่าวจะทำให้เกิดความท้าทายในการค้นหาและแก้ไขซอฟต์แวร์ และต้องใช้การเข้ารหัสไบต์ต่อเอกสารมากขึ้น

ดูเพิ่มเติม

ที่มา

  • มาตรฐาน Unicode เวอร์ชัน 5.2: ความสอดคล้อง (ดูหัวข้อ 3.7 สำหรับการสลายตัว) The Unicode Consortium ธันวาคม 2552
  • MSDN: การ กำหนดชุดอักขระ 8 เมษายน 2553
  • แบบฟอร์มการทำให้เป็นมาตรฐานของ Unicode (ภาคผนวกมาตรฐาน Unicode® #15): http://unicode.org/reports/tr15/

ลิงค์ภายนอก

  • Free Idg Serifซึ่งเป็นอนุพันธ์ของ ฟอนต์ FreeSerif ที่ มีการประกาศเพิ่มเติมของอักขระที่ precomposed