平面(ユニコード)

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ

Unicode標準では、平面65,536(2 16コードポイントの連続グループです。番号0から16で識別される17の平面があります。これは、6桁の16進形式(U + hh hhhh)の最初の2つの位置の可能な値00から1016対応ます平面0は、最も一般的に使用される文字を含む基本多言語平面(BMP)です。より高い平面1から16は、「補助平面」と呼ばれます。[1] Unicodeの最後のコードポイントは、プレーン16、U + 10FFFFの最後のコードポイントです。Unicodeバージョン13.0の時点で、7つのプレーンにコードポイント(文字)が割り当てられ、5つのプレーンに名前が付けられています。

17プレーンの制限は、UTF-16によるものです。UTF-16は、2つの20コードポイント(16プレーン)をワードのペアとしてエンコードし、さらにBMPを1つのワードとしてエンコードできます。[2] UTF-8は、2 31 (2,147,483,648)コードポイント(32,768プレーン)というはるかに大きな制限で設計されており、現在の制限である2 21(2,097,152)コードポイント(32プレーン)でもエンコードできます。 4バイト[3]

17のプレーンは、1,114,112のコードポイントに対応できます。これらのうち、2,048はサロゲート(UTF-16でペアを作成するために使用)、66は非文字、137,468は私的使用のために予約されており、974,530は公的割り当てのために残されています。

平面はさらにUnicodeブロックに分割されます。これは、平面とは異なり、固定サイズではありません。Unicode 14.0で定義された320ブロックは、可能なコードポイントスペースの26%をカバーし、サイズの範囲は、最小16コードポイント(17ブロック)から最大65,536コードポイント(補足私用領域-Aおよび-B、平面15と16の全体を構成します)。将来の使用のために、文字の範囲は、最も知られている現在および古代の書記体系のために暫定的にマッピングされています。[4]

概要

割り当てられた文字

飛行機 割り当てられたコードポイント[注1] バージョン14.0 割り当てられた文字
0 BMP 65,520 55,632
1 SMP 25,696 22,982
2 SIP 60,912 60,872
3ヒント 4,944 4,939
14 SSP 368 337
15 SPUA-A 65,536 なし (定義による)
16 SPUA-B 65,536 なし (定義による)
合計 288,512 144,762
  1. ^ Unicodeブロックに割り当てられたコードポイント

基本多言語面

基本多言語面の地図。番号が付けられた各ボックスは、256個のコードポイントを表します。

最初の平面である平面0基本多言語平面BMP)には、ほとんどすべての現代言語の文字と、多数の記号が含まれています。BMPの主な目的は、以前の文字セットと書き込み用の文字の統合をサポートすることです。BMPで割り当てられたコードポイントのほとんどは、中国語、日本語、および韓国語(CJK)の文字をエンコードするために使用されます。

High Surrogate(U + D800–U + DBFF)およびLow Surrogate(U + DC00–U + DFFF)コードは、16ビットコードのペアを使用してUTF-16で非BMP文字をエンコードするために予約されています。1つのHigh Surrogateおよび1つの低サロゲート。単一の代理コードポイントに文字が割り当てられることはありません。

このプレーンの65,536個のコードポイントのうち65,520個がUnicodeブロックに割り当てられており、1つの未割り当て範囲(2FE0..2FEF)に16個のコードポイントが残っています。

Unicode 14.0の時点で、BMPは次の164ブロックで構成されています。

補足多言語面

補足多言語面の地図。番号が付けられた各ボックスは、256個のコードポイントを表します。

平面1補足多言語面SMP)には、歴史的なスクリプト(CJK表意文字を除く)、および特定のフィールド内で使用される記号と表記法が含まれています。スクリプトには、線文字Bエジプトの象形文字楔形文字が含まれます。また、ShavianDeseretなどの英国宗教改革の正書法や、 OsageWarang CitiAdlamWanchoTotoなどの最新のスクリプトも含まれています。記号と記譜法には、歴史的および現代的な記譜法が含まれます。数学用英数字; 速記; 絵文字とその他の絵文字セット。トランプ麻雀ドミノのゲームシンボル

Unicode 14.0の時点で、SMPは次の14​​5ブロックで構成されています。

補足漢字面

補足漢字面の地図。番号が付けられた各ボックスは、256個のコードポイントを表します。

補足表意文字平面SIP )である平面2は、以前の文字エンコード標準に含まれていなかった CJK表意文字(主にCJK統合漢字)に使用されます。

Unicode 14.0の時点で、SIPは次の6つのブロックで構成されています。

第三漢字面

第三漢字面の地図。番号が付けられた各ボックスは、256個のコードポイントを表します。

平面3は、第三漢字面(TIP)です。CJK統合漢字拡張Gは、2020年3月にリリースされたUnicode 13.0のTIPに追加されました。[5]これは、 OracleBoneスクリプトSmallSealスクリプトにも暫定的に割り当てられています[6]

Unicode 14.0以降、TIPは次のブロックで構成されています。

割り当てられていない飛行機

プレーン4〜1316進数のプレーン4〜D ):プレーン4〜13は、まだキャラクターが割り当てられていないか、割り当てが提案されていません。

補助特殊目的面

補足特殊目的面の地図。番号が付けられた各ボックスは、256個のコードポイントを表します。

平面1416進数のE )は、補助特殊目的面SSP)として指定されます。Unicode 14.0以降、次の2つのブロックで構成されています

私用面

2つの平面15と1616進数の平面F10 )には、それぞれ「私用領域」が含まれています。それらには、 Supplementary Private Use Area-APUA-A)および-BPUA-B )という名前のブロックが含まれています私用面は、ISOおよびUnicode(私用文字エンコード)以外の関係者が使用できます。

参考文献

  1. ^ 「用語集」www.unicode.org 2021-09-27を取得
  2. ^ Unicode標準https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdfの表3.5「UTF-16ビット分布」を参照して
  3. ^ Unicode標準https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdfの表3.6「UTF-8ビット分布」を参照して
  4. ^ 「Unicodeへのロードマップ」www.unicode.org 2021-09-27を取得
  5. ^ Unicode、Inc。「Unicode標準バージョン13.0の発表」
  6. ^ 「提案された新しいキャラクター:パイプライン」www.unicode.org