テキストコーパス

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ

言語学ではコーパス(複数形コーパス)またはテキストコーパス、大きくて構造化された一連のテキスト(現在は通常電子的に保存および処理されます)で構成される言語リソースです。コーパス言語学では、統計分析と仮説検定を行ったり、特定の言語領域内で発生をチェックしたり、言語規則を検証したりするために使用されます。

概要

コーパスには、単一言語のテキスト(単一言語コーパス)または複数言語のテキストデータ(多言語コーパス)が含まれる場合があります。

コーパスを言語学的研究を行うためにより有用にするために、それらはしばしば注釈として知られるプロセスにかけられます。コーパスに注釈を付ける例としては、品詞タグ付けまたはPOSタグ付けがあります。このタグ付けでは、各単語の品詞(動詞、名詞、形容詞など)に関する情報がタグの形式でコーパスに追加されます。別の例は、各単語の見出語(基本)形式を示すことですコーパスの言語がそれを使用する研究者の作業言語ではない場合、インターリニアグロスを使用して注釈をバイリンガルにします。

一部のコーパスには、さらに構造化されたレベルの分析が適用されています。特に、小さいコーパスは完全に解析される場合があります。このようなコーパスは通常、TreebanksまたはParsedCorporaと呼ばれます。コーパス全体に完全かつ一貫して注釈を付けることの難しさは、これらのコーパスが通常小さく、約100万から300万語を含むことを意味します。形態論、意味論語用論の注釈など、他のレベルの言語構造化分析も可能です。

アプリケーション

コーパスは、コーパス言語学の主要な知識ベースです。その他の注目すべきアプリケーション分野は次のとおりです。

  • 機械翻訳
    • 並べて比較するために特別にフォーマットされた多言語コーパスは、整列された対訳コーパスと呼ばれます。2つの言語のテキストを含む対訳コーパスには主に2つのタイプがあります。翻訳コーパスでは、ある言語のテキストは他の言語のテキストの翻訳です。同等のコーパスでは、テキストは同じ種類で同じ内容をカバーしていますが、相互の翻訳ではありません。[2]対訳テキストを活用するには、同等のテキストセグメント(フレーズまたは文)を識別するある種のテキスト配置が分析の前提条件です。機械翻訳2つの言語間で翻訳するためのアルゴリズムは、多くの場合、第1言語コーパスと第1言語コーパスの要素ごとの翻訳である第2言語コーパスを含む並列フラグメントを使用してトレーニングされます。[3]
  • 言語学
    • テキストコーパスは、歴史的文書の研究、たとえば古代の台本を解読する試みや聖書学でも使用されます。一部の考古学的コーパスは、時間のスナップショットを提供するほど短時間である可能性があります。時間内で最も短いコーパスの1つは、15〜30年のアマルナ文書テキスト(紀元前1350年)である可能性があります。古代都市のコーパス(たとえば、トルコの「KültepeTexts」)は、検索サイトの日付によって決定される一連のコーパスを通過する場合があります。

いくつかの注目すべきテキストコーパス

も参照してください

参考文献

  1. ^ Yoon、H。、およびHirvela、A。(2004)。L2ライティングでのコーパスの使用に対するESL学生の態度Journal of Second Language Writing、13(4)、257–283。2012年3月21日取得。
  2. ^ Wołk、K。; Marasek、K。(2014年4月7日)。「対訳テキストコーパス準備のための文意味ベースの整列方法」。インテリジェントシステムとコンピューティングの進歩スプリンガー。275:107–114。arXiv1509.09090土井10.1007 / 978-3-319-05951-8_11ISBN 978-3-319-05950-1ISSN2194-5357 _ S2CID15361632 _
  3. ^ Wołk、K。; マラセク、K。(2015)。「同等のコーパスからの調整されたGPUアクセラレーションによる並列データマイニング」。人工知能の講義ノートスプリンガー:32–40。arXiv1509.08639ISBN 978-3-319-24032-9

外部リンク