รวมตัวละคร

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา
Cyrillic Yรวมกับbreveให้ў .

ในการพิมพ์ดิจิทัลการรวมอักขระคืออักขระที่มีจุดประสงค์เพื่อแก้ไขอักขระอื่น อักขระผสมที่พบบ่อยที่สุดในสคริปต์ละตินคือการรวมเครื่องหมายกำกับเสียง (รวมถึงการเน้นเสียงรวมกัน )

Unicodeยังมีอักขระพรีคอมโพเน็นต์จำนวนมาก ดังนั้นในหลายกรณีจึงเป็นไปได้ที่จะใช้ทั้งการกำกับเสียงประกอบและอักขระพรีคอมโพเน็น ที่ตัวเลือกของผู้ใช้หรือแอปพลิเคชัน สิ่งนี้นำไปสู่ความต้องการในการทำUnicode ให้เป็นมาตรฐานก่อนที่จะเปรียบเทียบสตริง Unicode สองสตริงและออกแบบตัวแปลงการเข้ารหัสอย่างระมัดระวังเพื่อแมปวิธีการที่ถูกต้องทั้งหมดอย่างถูกต้องในการแสดงอักขระใน Unicode กับการเข้ารหัสดั้งเดิมเพื่อหลีกเลี่ยงการสูญหายของข้อมูล [1]

ใน Unicode กลุ่มหลักของการรวมตัวกำกับเสียงสำหรับภาษายุโรปและสัทอักษรสากลคือ U+0300–U+036F การรวมเครื่องหมายกำกับเสียงยังมีอยู่ในกลุ่มอื่นๆ ของอักขระ Unicode ใน Unicode จะมีการใส่เครื่องหมายกำกับเสียงตามหลังอักขระหลักเสมอ (ตรงกันข้ามกับชุดอักขระแบบผสมที่เก่ากว่าบางชุด เช่นANSEL ) และเป็นไปได้ที่จะเพิ่มตัวกำกับเสียงหลายตัวในอักขระเดียวกัน ซึ่งรวมถึงตัวกำกับเสียงที่เรียงซ้อนกันด้านบนและด้านล่าง แม้ว่าบางระบบอาจไม่ ทำให้สิ่งเหล่านี้ได้ดี

ช่วง Unicode

บล็อกต่อไปนี้มีไว้สำหรับการรวมตัวละครโดยเฉพาะ:

  • การรวมเครื่องหมายกำกับเสียง (0300–036F) ตั้งแต่เวอร์ชัน 1.0 โดยมีการแก้ไขในเวอร์ชันต่อมาเหลือ 4.1
  • การรวม Diacritical Marks Extended (1AB0–1AFF) เวอร์ชัน 7.0
  • การรวมส่วนเสริมเครื่องหมายกำกับเสียง (1DC0–1DFF) เวอร์ชัน 4.1 ถึง 5.2
  • การรวม Diacritical Marks for Symbols (20D0–20FF) ตั้งแต่เวอร์ชัน 1.0 โดยมีการแก้ไขในเวอร์ชันต่อมาเหลือ 5.1
  • การรวม Half Marks (FE20–FE2F) เวอร์ชัน 1.0 โดยมีการแก้ไขในเวอร์ชันต่อๆ มาเหลือ 8.0

การรวมอักขระไม่ จำกัด เฉพาะบล็อกเหล่านี้ ตัวอย่างเช่น การรวมdakuten (U+3099) และการรวมhandakuten (U+309A) อยู่ในบล็อกฮิระงะนะ บล็อกเทวนาครี ประกอบด้วย เครื่องหมายสระและเครื่องหมายอื่น ๆ สำหรับใช้กับสคริปต์นั้นเป็นต้น การรวมอักขระได้รับการกำหนดหมวดหมู่หลัก Unicode "M" ("Mark")

การรวมเครื่องหมายกำกับเสียง [1]
แผนภูมิรหัส Unicode Consortium อย่างเป็นทางการ (PDF)
  0 1 2 3 4 5 6 7 8 9 อา บี ดี อี F
U+030x ◌̀ ◌́ ◌̂ ◌̃ หืม ◌̅ ◌̆ ◌̇ บัญชีผู้ใช้นี้เป็นส่วนตัว ◌̉ ◌̊ ◌̋ ◌̌ ◌̍ ◌̎ ◌̏
U+031x ◌̐ ◌̑ ◌̒ ◌̓ ◌̔ ◌̕ ◌̖ ◌̗ ◌̘ ◌̙ ◌̚ ◌̛ ◌̜ ◌̝ ◌̞ ◌̟
U+032x ◌̠ ◌̡ ◌̢ ◌̣ ◌̤ ◌̥ ◌̦ ◌̧ ◌̨ ◌̩ ◌̪ ◌̫ ◌̬ ◌̭ ◌̮ ◌̯
U+033x ◌̰ ◌̱ ◌̲ ◌̳ ◌̴ ◌̵ ̶ ◌̷ ◌̸ ◌̹ ◌̺ ◌̻ ◌̼ ◌̽ ◌̾ ◌̿
U+034x ◌̀ ◌́ ◌͂ ◌̓ บัญชีผู้ใช้นี้เป็นส่วนตัว ◌ͅ ◌͆ ◌͇ ◌͈ ◌͉ ◌͊ ◌͋ ◌͌ ◌͍ ◌͎  CGJ 
U+035x ◌͐ ◌͑ ◌͒ ◌͓ ◌͔ ◌͕ ◌͖ ◌͗ ◌͘ ◌͙ ◌͚ ◌͛ ◌͜◌ ◌͝◌ ◌͞◌ ◌͟◌
U+036x ◌͠◌ ◌͡◌ ◌͢◌ ◌ͣ ◌ͤ ◌ͥ ◌ͦ ◌ͧ ◌ͨ ◌ͩ ◌ͪ ◌ͫ ◌ͬ ◌ͭ ◌ͮ ◌ͯ
หมายเหตุ
1. ^ณ เวอร์ชัน Unicode 14.0

Codepoints U+032A และ U+0346–034A เป็น สัญลักษณ์ IPA :

Codepoints U+034B–034E เป็นเครื่องหมายกำกับเสียงของ IPA สำหรับคำพูดที่ไม่เป็นระเบียบ :

  • U+034B  ◌͋ : โพรงจมูก
  • U+034C  ◌͌ : แรงเสียดทานของหลอดเลือด
  • U+034D  ◌͍ : แคมลาม
  • U+034E  ◌͎ : เสียงผิวปากที่เปล่งออกมา

U+034F คือ " การรวมตัว เชื่อมกราฟ " (CGJ) และไม่มีสัญลักษณ์ที่มองเห็นได้

Codepoints U+035C–0362 เป็นเครื่องหมายกำกับเสียงคู่ เครื่องหมายกำกับเสียงที่วางไว้บนตัวอักษรสองตัว

Codepoints U+0363–036F เป็นตัวอักษรตัวยกในยุคกลาง ตัวอักษรที่เขียนเหนือตัวอักษรอื่นๆ ที่ปรากฏในต้นฉบับดั้งเดิมของภาษาเจอร์แมนิกในยุคกลางโดยตรง แต่ในบางกรณีมีการใช้งานจนถึงช่วงปลายศตวรรษที่ 19 ตัวอย่างเช่น U+0364 เป็นeที่เขียนเหนือตัวอักษรก่อนหน้า ใช้สำหรับ ( Early ) New High German umlaut notation เช่นสำหรับภาษาเยอรมันสมัยใหม่ ü

การรวมเครื่องหมายกำกับเสียงขยาย[1] [2]
แผนภูมิรหัส Unicode Consortium อย่างเป็นทางการ (PDF)
  0 1 2 3 4 5 6 7 8 9 อา บี ดี อี F
U+1ABx ◌᪰ ◌᪱ ◌᪲ ◌᪳ ◌᪴ ◌᪵ ◌᪶ ◌᪷ ◌᪸ ◌᪹ ◌᪺ ◌᪻ ◌᪼ ◌᪽ ◌᪾ ◌ᪿ
U+1ACx ◌ᫀ ◌᫁ ◌᫂ ◌᫃ ◌᫄ ◌᫅ ◌᫆ ◌᫇ ◌᫈ ◌᫉ ◌᫊ ◌᫋ ◌ᫌ ◌ᫍ ◌ᫎ
U+1ADx
U+1AEx
U+1AFx
หมายเหตุ
1. ^ณ เวอร์ชัน Unicode 14.0
2. ^พื้นที่สีเทาหมายถึงจุดรหัสที่ไม่ได้กำหนด
การรวมส่วนเสริมเครื่องหมายกำกับเสียง [1]
แผนภูมิรหัส Unicode Consortium อย่างเป็นทางการ (PDF)
  0 1 2 3 4 5 6 7 8 9 อา บี ดี อี F
U+1DCx ◌᷀ ◌᷁ ◌᷂ ◌᷃ ◌᷄ ◌᷅ ◌᷆ ◌᷇ ◌᷈ ◌᷉ ◌᷊ ◌᷋ ◌᷌ ◌᷍ ◌᷎ ◌᷏
U+1DDx ◌᷐ ◌᷑ ◌᷒ ◌ᷓ ◌ᷔ ◌ᷕ ◌ᷖ ◌ᷗ ◌ᷘ ◌ᷙ ◌ᷚ ◌ᷛ ◌ᷜ ◌ᷝ ◌ᷞ ◌ᷟ
U+1DEx ◌ᷠ ◌ᷡ ◌ᷢ ◌ᷣ ◌ᷤ ◌ᷥ ◌ᷦ ◌ᷧ ◌ᷨ ◌ᷩ ◌ᷪ ◌ᷫ ◌ᷬ ◌ᷭ ◌ᷮ ◌ᷯ
U+1DFx ◌ᷰ ◌ᷱ ◌ᷲ ◌ᷳ ◌ᷴ ◌᷵ ◌᷶ ◌᷷ ◌᷸ ◌᷹ ◌᷺ ◌᷻ ◌᷼ ◌᷽ ◌᷾ ◌᷿
หมายเหตุ
1. ^ณ เวอร์ชัน Unicode 14.0
การรวมเครื่องหมายกำกับเสียงสำหรับสัญลักษณ์[1] [2]
แผนภูมิรหัส Unicode Consortium อย่างเป็นทางการ (PDF)
  0 1 2 3 4 5 6 7 8 9 อา บี ดี อี F
U+20Dx ◌⃐ ◌⃑ ◌⃒ ◌⃓ ◌⃔ ◌⃕ ◌⃖ ◌⃗ ◌⃘ ◌⃙ ◌⃚ ◌⃛ ◌⃜ ◌⃝ ◌⃞ ◌⃟
U+20Ex ◌⃠ ◌⃡ ◌⃢ ◌️ ◌⃤ ◌⃥ ◌⃦ ◌⃧ ◌⃨ ◌⃩ ◌⃪ ◌⃫ ◌⃬ ◌⃭ ◌⃮ ◌⃯
U+20Fx ◌⃰
หมายเหตุ
1. ^ณ เวอร์ชัน Unicode 14.0
2. ^พื้นที่สีเทาหมายถึงจุดรหัสที่ไม่ได้กำหนด
การรวมครึ่งเครื่องหมาย[1]
แผนภูมิรหัส Unicode Consortium อย่างเป็นทางการ (PDF)
  0 1 2 3 4 5 6 7 8 9 อา บี ดี อี F
U+FE2x ◌︠ ◌︡ ◌︢ ◌︣ ◌︤ ◌︥ ◌︦ ◌︧ ◌︨ ◌︩ ◌︪ ◌︫ ◌︬ ◌︭ ◌︮ ◌︯
หมายเหตุ
1. ^ณ เวอร์ชัน Unicode 14.0

OpenType

OpenTypeมี"แท็กคุณลักษณะ" ccmp เพื่อกำหนดร่ายมนตร์ที่เป็นองค์ประกอบหรือการสลายตัวที่เกี่ยวข้องกับการรวมอักขระ แท็ก เครื่องหมายเพื่อกำหนดตำแหน่งของการรวมอักขระบนสัญลักษณ์ฐาน และmkmkสำหรับการวางตำแหน่งของอักขระที่รวมเข้าด้วยกัน

ข้อความ Zalgo

ประโยคของข้อความ Zalgo

มีการใช้อักขระผสมเพื่อสร้างข้อความ Zalgoซึ่งเป็นข้อความที่ "เสียหาย" หรือ "น่าขนลุก" เนื่องจากมีการใช้เครื่องหมายกำกับเสียงมากเกินไป ซึ่งจะทำให้ข้อความขยายในแนวตั้ง โดยทับซ้อนกับข้อความอื่น [2]

ดูเพิ่มเติม

  • วงกลมประ
  • กุญแจตาย
  • Spacing Modifier Lettersที่ไม่ควรรวมกัน (แม้ว่าพวกเขาจะทำผิดพลาดในการใช้งานบางอย่างที่ผู้พัฒนาสับสน "การรวม" กับ "ตัวดัดแปลง")

หมายเหตุ

  1. ^ ตัวอย่างเช่น เมื่อทำการแปลงระหว่าง windows-1258และ VISCIIอดีตใช้การรวมเครื่องหมายกำกับเสียงในขณะที่ตัวหลังมีอักขระ precomposed ให้เลือกมากมาย ดังนั้นตัวแปลงที่ใช้การแมปอย่างง่ายระหว่างค่าโค้ดและจุดโค้ด Unicode จะทำให้ข้อความเสียหายเมื่อทำการแปลงระหว่างกัน
  2. ^ Korpela, Jukka K. "ข้อความ Zalgo ทำงานอย่างไร" . กองล้น สืบค้นเมื่อ11 เมษายน 2019 .

ลิงค์ภายนอก