テキストファイル

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ
テキストファイル
Text-txt.svg
ファイル名拡張子
。txt
インターネットメディアタイプ
テキスト/プレーン
タイプコード文章
ユニフォームタイプ識別子(UTI)public.plain-text
UTIコンフォメーションpublic.text
フォーマットの種類ドキュメントファイル形式汎用コンテナ形式

テキストファイル(時々綴らテキストファイル、古い代替名があるフラットファイルが)の一種であるコンピュータファイルのシーケンスとして構成されている電子テキストコンピュータファイルシステム内にデータとして保存されているテキストファイルが存在します。などのオペレーティングシステムでCP / MMS-DOSオペレーティングシステムがバイト単位でファイルサイズを追跡しない、テキストファイルの終わりのように知られている1つまたは複数の特殊文字を配置することによって示される末端の-ファイルマーカー。テキストファイルの最後の行の後のパディングとして。次のような最新のオペレーティングシステムについてMicrosoft WindowsおよびUnixライクなシステムでは、これらのオペレーティングシステムのファイルシステムはファイルサイズをバイト単位で追跡するため、テキストファイルには特別なEOF文字は含まれていません。ほとんどのテキストファイルには行末 区切り文字が必要です。これは、オペレーティングシステムに応じていくつかの異なる方法で実行されます。レコード指向のファイルシステムを備えた一部のオペレーティングシステムは、改行区切り文字を使用しない場合があり、主に、固定長または可変長のレコードとして行が区切られたテキストファイルを格納します。

「テキストファイル」はコンテナの種類を指しプレーンテキストはコンテンツの種類を指します。

一般的な説明レベルでは、テキストファイルとバイナリファイルの2種類のコンピュータファイルがあります[1]

データストレージ

CSV形式のテキストファイルの定型化された象徴的な描写

単純なため、テキストファイルは一般的に情報の保存に使用されます。エンディアン、パディングバイト、マシンワードのバイト数の違いなど、他のファイル形式で発生する問題の一部を回避します。さらに、テキストファイルでデータの破損が発生した場合、残りのコンテンツを回復して処理を続行する方が簡単な場合がよくあります。テキストファイルの欠点は、通常、エントロピーが低いことです。つまり、情報が厳密に必要な量よりも多くのストレージを占有することを意味します。

単純なテキストファイルでは、読者の解釈を支援するために、追加のメタデータ文字セットの知識以外)は必要ない場合がありますテキストファイルにはデータがまったく含まれていない可能性がありますこれは、ゼロバイトファイルの場合です

エンコーディング

ASCII文字セットは、英語のテキストファイルの文字セットの最も一般的な互換性のサブセットであり、そして一般的に多くの状況でデフォルトのファイル形式を想定しています。アメリカ英語を対象としていますが、英国ポンド記号ユーロ記号、または英語以外で使用される文字については、より豊富な文字セットを使用する必要があります。多くのシステムでは、これは、読み取られるコンピューターのデフォルトのロケール設定に基づいて選択されます。 UTF-8より前は、これは従来、ヨーロッパ言語ではシングルバイトエンコーディング(ISO-8859-1からISO-8859-16など)であり、アジア言語ではワイド文字エンコーディングでした。

エンコーディングには必然的に文字の限られたレパートリーしかなく、多くの場合非常に小さいため、多くは人間の言語の限られたサブセットでテキストを表すためにのみ使用できます。Unicodeは、すべての既知の言語を表すための共通の標準を作成する試みであり、ほとんどの既知の文字セットは、非常に大きなUnicode文字セットのサブセットです。 Unicodeで使用できる文字エンコードは複数ありますが、最も一般的なのはUTF-8です。これには、ASCIIとの下位互換性があるという利点があります。つまり、すべてのASCIIテキストファイルも同じ意味のUTF-8テキストファイルです。 UTF-8には、簡単に自動検出できるという利点もあります。したがって、UTF-8対応ソフトウェアの一般的な動作モードは、不明なエンコーディングのファイルを開くときに、最初にUTF-8を試し、UTF-8でない場合はロケール依存のレガシーエンコーディングにフォールバックすることです。

フォーマット

ほとんどのオペレーティングシステムでは、名前テキストファイルは、フォーマットがほとんどない(たとえば、太字斜体のタイプがない)プレーンテキストコンテンツのみを許可するファイル形式を指しますこのようなファイルは、テキスト端末または単純なテキストエディタで表示および編集できますテキストファイルは通常MIMEタイプであり、通常はエンコーディングを示す追加情報が含まれています。 text/plain

MicrosoftWindowsテキストファイル

MS-DOSとMicrosoftWindowsは、共通のテキストファイル形式を使用しており、テキストの各行は、キャリッジリターン(CR)とラインフィード(LF)の2文字の組み合わせで区切られていますテキストの最後の行がCR-LFマーカーで終了しないのが一般的であり、多くのテキストエディター(メモ帳を含む)は最後の行に自動的に挿入しません。

のMicrosoft Windowsオペレーティングシステムのファイル名の接尾辞(「場合、ファイルはテキストファイルとしてみなされているファイル名の拡張子は」)です.txt。ただし、特定の目的のテキストファイルには、他の多くのサフィックスが使用されます。たとえば、コンピュータプログラムのソースコードは通常、ソースが記述されているプログラミング言語示すファイル名のサフィックスが付いたテキストファイルに保存されます

ほとんどのMicrosoftWindowsテキストファイルは、「ANSI」、「OEM」、「Unicode」、または「UTF-8」エンコーディングを使用します。 Microsoft Windowsの用語で「ANSIエンコーディング」と呼ばれるものは、中国語などのロケールを除いて、通常はシングルバイトのISO / IEC 8859エンコーディングです(つまり、Microsoftメモ帳メニューのANSIは実際には「システムコードページ」、非Unicode、レガシーエンコーディングです)。 、2バイト文字セットを必要とする日本語と韓国語。 ANSIエンコーディングは、Unicodeに移行する前は、従来、MicrosoftWindows内のデフォルトのシステムロケールとして使用されていました。対照的に、DOSコードページとも呼ばれるOEMエンコーディングは、元のIBMPCテキストモード表示システムで使用するためにIBMによって定義されました。これらには通常、DOSアプリケーションで一般的なグラフィック文字と線画文字が含まれています。「Unicode」でエンコードされたMicrosoftWindowsテキストファイルには、UTF- 16Unicode変換形式のテキストが含まれていますこのようなファイルは通常、ファイルコンテンツのエンディアンを伝えるバイト順マークBOM)で始まります。UTF-8はエンディアンの問題に悩まされていませんが、多くのMicrosoft Windowsプログラム(メモ帳)は、UTF-8エンコーディングを他の8ビットエンコーディングと区別するために、UTF-8でエンコードされたファイルの内容にBOMを付加します[2][3]

Unixテキストファイル

上のUNIXのようなオペレーティングシステムのテキストは、フォーマットが正確に記載されているファイル:POSIXは、ゼロ以上の行に編成文字を含むファイルとテキストファイルを定義する[4]ラインがゼロ以上の非改行文字のシーケンスであるプラスA終端改行文字、[5]通常はLF。

さらに、POSIXは 地域の規則に従って文字が印刷可能またはスペースまたはバックスペースであるテキストファイルとしての印刷可能ファイルこれにより、印刷できないほとんどの制御文字が除外されます。[6]

AppleMacintoshテキストファイル

macOSが登場する前は、従来のMac OSシステムは、リソースフォークがファイルのタイプが「TEXT」であると示したときに、ファイルのコンテンツ(データフォーク)をテキストファイルと見なしていました[7] Macintoshテキストファイルの行はCR文字で終了します[8]

Unix認定を受けているmacOSは、テキストファイルにPOSIX形式を使用します。[8] macOSのテキストファイルに使用されるUniformType Identifier(UTI)は「public.plain-text」です。追加のより具体的なUTIは、utf-8でエンコードされたテキストの場合は「public.utf8-plain-text」、utf-16-の場合は「public.utf16-external-plain-text」および「public.utf16-plain-text」です。エンコードされたテキストと、従来のMacOSテキストファイルの「com.apple.traditional-mac-plain-text」。[7]

レンダリング

テキストエディタで開くと、人間が読めるコンテンツがユーザーに表示されます。これは多くの場合、ユーザーに表示されるファイルのプレーンテキストで構成されます。アプリケーションに応じて、制御コードは、エディターが実行するリテラル命令として、またはプレーンテキストとして編集できる表示可能なエスケープ文字としてレンダリングされる場合があります。テキストファイルにプレーンテキストが含まれている場合でも、ファイル内の制御文字(特にファイルの終わり文字)によって、特定の方法でプレーンテキストが見えなくなる可能性があります。

も参照してください

注意事項と参考文献

  1. ^ ルイス、ジョン(2006)。照らされたコンピュータサイエンスジョーンズとバートレット。ISBN 0-7637-4149-3
  2. ^ 「バイト順マークの使用」Windowsアプリケーションの国際化Microsoft 2015年12月15取得
  3. ^ Freytag、Asmus(2015-12-18)。「FAQ– UTF-8、UTF-16、UTF-32、BOM」。ユニコードコンソーシアム。取得した2016年5月30日をはい、UTF-8にはBOMを含めることができます。ただし、バイトストリームのエンディアン性に関しては違いはありません。 UTF-8のバイト順序は常に同じです。最初のBOMは署名としてのみ使用されます。これは、マークされていないテキストファイルがUTF-8にあることを示します。 UTF-8でエンコードされたデータの一部の受信者はBOMを期待しないことに注意してください。 UTF-8が8ビット環境で透過的使用される場合、BOMの使用は、「#!」の使用など、最初に特定のASCII文字を期待するプロトコルまたはファイル形式に干渉します。 Unixシェルスクリプトの冒頭にあります。
  4. ^ 「3.403テキストファイル」IEEE Std 1003.1、2017EditionIEEE ComputerSociety 2019年3月1取得
  5. ^ 「3.206行」IEEE Std 1003.1、2013EditionIEEE ComputerSociety 2015年12月15取得
  6. ^ 「3.284印刷可能なファイル」IEEE Std 1003.1、2013EditionIEEE ComputerSociety 2015年12月15取得
  7. ^ a b "システム宣言されたUniformTypeIdentifiers"ガイドとサンプルコードApple Inc.2009-11-17 2016年912日取得
  8. ^ B 「クロスプラットフォーム展開の設計スクリプト」Mac開発者ライブラリApple Inc.2014-03-10 2016年912日取得

外部リンク