コーパス言語学

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ

コーパス言語学は、その言語が「実世界」のテキストの本体であるテキストコーパス(複数形コーパス)で表現される言語の研究です。コーパス言語学は、実験的な干渉を最小限に抑えながら、フィールドで収集されたコーパス(その言語の自然なコンテキスト(「リアリア」))を使用すると、言語の信頼性の高い分析がより実現可能になると提案しています。

text-corpusメソッドは、自然言語で書かれたテキストの本文を使用して、その言語を管理する一連の抽象的なルールを導き出します。これらの結果は、その主題言語と同様の分析を受けた他の言語との関係を調査するために使用できます。最初のそのようなコーパスは原文から手動で派生しましたが、今ではその作業は自動化されています。

コーパスは、言語学の研究に使用されているだけでなく、辞書(1969年のアメリカヘリテッジ英語辞典から始まる)や、1985年に発行され たA Comprehensive Grammar of theEnglishLanguageなどの文法ガイドの編集にも使用されています。

この分野の専門家は、コーパスの注釈についてさまざまな見解を持っています。これらの見解は、テキストが自分自身で語るように最小限の注釈を提唱するJohn McHardy Sinclair [1]から、厳密な記録を通じてより深い言語理解を可能にするものとして注釈を提唱するSurvey of English Usageチーム(University College、ロンドン)にまで及びます。[2]

歴史

文法的記述における初期の取り組みのいくつかは、少なくとも部分的には特定の宗教的または文化的重要性のあるコーパスに基づいていました。たとえば、Prātiśākhyaの文献では、ヴェーダ見られるサンスクリット語の音のパターンが説明されており、パーニニの古典的なサンスクリット語の文法は、少なくとも部分的には同じコーパスの分析に基づいていました。同様に、初期のアラビア語の文法学者は、コーランの言語に特に注意を払いました西ヨーロッパの伝統では、学者は聖書の言語や他の標準的なテキストの詳細な研究を可能にするために コンコーダンスを準備しました。

英語コーパス

現代のコーパス言語学のランドマークは、1967年の現在のアメリカ英語の計算分析の出版でした。ヘンリー・クチェラW.ネルソン・フランシスによって書かれたこの作品は、ブラウン・コーパスの分析に基づいていました。さまざまな情報源から慎重に選択された100万のアメリカ英語の単語。[3]クチェラとフランシスは、ブラウンコーパスにさまざまな計算分析を施し、言語学、外国語教育、心理学、統計学、社会学の要素を組み合わせて、豊かで多彩な作品を作成しました。さらに重要な出版物はランドルフ・カークでした彼が英語の使用法の調査を紹介した1960年の「英語の使用法の説明に向けて」[4]

その後まもなく、ボストンの出版社であるホートンミフリンは、コーパス言語学を使用して編集された最初の辞書である新しいAmerican Heritage Dictionaryに、100万語の3行の引用ベースを提供するようKučeraにアプローチしました。AHDは、規範な要素(言語の使用方法)と説明的な情報(実際使用方法)を組み合わせるという革新的なステップを踏み出しました

他の出版社もそれに続いた。英国の出版社であるコリンズのCOBUILD 単一言語学習者辞書は、外国語として英語を学ぶユーザー向けに設計されており、 Bank ofEnglishを使用して編集されました英語使用コーパスの調査は、Quirk etalによって書かれた最も重要なコーパスベースの文法の1つの開発に使用されました。1985年に英語の包括的な文法として公開されました。[5]

ブラウンコーパスは、同様に構造化されたコーパスの数も生み出しました:LOBコーパス(1960年代の英国英語)、コラプール(インド英語)、ウェリントン(ニュージーランド英語)、オーストラリア英語コーパス(オーストラリア英語)、Frownコーパス(1990年代初頭)アメリカ英語)、およびFLOBコーパス(1990年代のイギリス英語)。他のコーパスは、多くの言語、種類、モードを表しており、International Corpus of English、1990年代に出版社、大学のコンソーシアムによって作成された、さまざまな話し言葉と書き言葉のテキストの1億語のコレクションであるBritish National Corpus (オックスフォードランカスター)と大英図書館現代アメリカ英語の場合、アメリカ国立コーパスの作業は停滞していますが、4億語を超える現代アメリカ英語のコーパス(1990年から現在)がWebインターフェイスから利用できるようになりました。

転写された話し言葉の最初のコンピューター化されたコーパスは、1971年にモントリオールフランス語プロジェクトによって構築され[6]、100万語が含まれ、オタワハル地域のシャナポップラックのはるかに大きな話し言葉のコーパスに影響を与えました。[7]

多言語コーパス

1990年代、自然言語プログラミング(NLP)の統計手法に関する注目すべき初期の成功の多くは、特にIBM Researchでの作業により、機械翻訳の分野で発生しました。これらのシステムは、すべての政府手続きを対応する政府システムのすべての公用語に翻訳することを求める法律の結果として、 カナダ議会および欧州連合によって作成された既存の多言語テキストコーパスを利用することができました。

ヨーロッパ以外の言語のコーパスもあります。たとえば、国立国語研究所は、日本語の話し言葉と書き言葉のコーパスを数多く作成しています。

古代言語コーパス

これらの生きている言語のコーパスに加えて、コンピューター化されたコーパスも古代言語のテキストのコレクションで作られています。例として、1970年代以降に開発されたヘブライ語聖書のAndersen -Forbesデータベースがあります。このデータベースでは、最大7レベルの構文を表すグラフを使用してすべての句が解析され、すべてのセグメントに7つの情報フィールドがタグ付けされています。[8] [9]コーランアラビア語コーパスは、コーランの古典アラビア語の注釈付きコーパスですこれは、形態学的セグメンテーション、品詞タグ付け、依存文法を使用した構文解析など、複数の注釈レイヤーを備えた最近のプロジェクトです。[10]

特定の分野のコーパス

純粋な言語学的調査に加えて、研究者はコーパス言語学を他の学問的および専門的分野に適用し始めていました

メソッド

コーパス言語学は、データから理論への道をたどろうとする多くの研究方法を生み出してきました。Wallis and Nelson(2001)[11]は、最初に3Aパースペクティブと呼ばれるもの、つまり注釈、抽象化、分析を紹介しました。

  • 注釈は、テキストへのスキームの適用で構成されます。注釈には、構造的マークアップ、品詞のタグ付け、構文解析、およびその他の多数の表現が含まれる場合があります。
  • 抽象化は、スキーム内の用語を理論的に動機付けられたモデルまたはデータセット内の用語に変換(マッピング)することで構成されます。抽象化には通常、言語学者主導の検索が含まれますが、パーサーのルール学習などが含まれる場合もあります。
  • 分析は、データセットからの統計的な調査、操作、および一般化で構成されます。分析には、統計的評価、ルールベースの最適化、または知識発見方法が含まれる場合があります。

今日のほとんどの語彙コーパスは品詞タグ付き(POSタグ付き)です。ただし、「注釈のないプレーンテキスト」を使用するコーパス言語学者でさえ、顕著な用語を分離するために必然的に何らかの方法を適用します。このような状況では、注釈と抽象化が字句検索で組み合わされます。

注釈付きコーパスを公開する利点は、他のユーザーが(コーパスマネージャーを介して)コーパスで実験を実行できることです。オリジネーターとは異なる興味や視点を持つ言語学者は、この作品を利用することができます。データを共有することにより、コーパス言語学者はコーパスを言語学的な議論とさらなる研究の場として扱うことができます。[12]

も参照してください

脚注と参考文献

  1. ^ Sinclair、J。 'コーパスの自動分析'、Svartvik、J。(ed。)コーパス言語学の方向性(ノーベルシンポジウム82の議事録)ベルリン:ムートン・ド・グリュイター。1992年。
  2. ^ Wallis、S。 '注釈、検索、実験'、Meurman-Solin、A。&Nurmi、AA(ed。)注釈の変化と変化。ヘルシンキ:Varieng、[ヘルシンキ大学]。2007.e -Published
  3. ^ フランシス、W。ネルソン; クチェラ、ヘンリー(1967年6月1日)。現在のアメリカ英語の計算分析プロビデンス:ブラウン大学プレス。ISBN 978-0870571053
  4. ^ ランドルフ・カーク(1960年11月)。「英語の用法の説明に向けて」。言語学協会の取引59(1):40–61。土井10.1111 /j.1467-968X.1960.tb00308.x
  5. ^ 癖、ランドルフ; グリーンボーム、シドニー; リーチ、ジェフリー; Svartvik、1月(1985)。英語の包括的な文法ロンドン:ロングマン。ISBN 978-0582517349
  6. ^ Sankoff、David; サンコフ、ジリアン(1973)。ダーネル、R。(編)。「文法的変化の研究におけるサンプル調査方法とコンピューター支援分析」。社会的文脈におけるカナダの言語エドモントン:Linguistic Research Incorporated:7–63。
  7. ^ シャナ・ポップラック(1989)。Fasold、R。; シフリン、D。(編)。「メガコーパスの手入れと取り扱い」。言語の変化と変化言語理論の現在の問題。アムステルダム:ベンジャミン。52:411–451。土井10.1075 /cilt.52.25popISBN 978-90-272-3546-6
  8. ^ アンデルセン、フランソワ1世; Forbes、A。Dean(2003)、 "Hebrew Grammar Visualized:I。Syntax"、Ancient Near Eastern Studies、vol。40、pp。43–61 [45]
  9. ^ Eyland、E。Ann(1987)、 "Revelations from Word Counts"、in Newing、Edward G。; コンラッド、エドガーW.(編)、言語とテキストの展望:フランシスI.アンデルセンの60歳の誕生日を称えるエッセイと詩、1985年7月28日、ウィノナレイク、インディアナ州:アイゼンブラウンズ、p。51、ISBN 0-931464-26-9
  10. ^ Dukes、K.、Atwell、E。およびHabash、N。「コーランアラビア語の構文注釈のための監督されたコラボレーション」。言語リソースと評価ジャーナル2011年。
  11. ^ Wallis、S。およびNelsonG。文法的に分析されたコーパスにおける知識の発見データマイニングと知識発見 5:307–340。2001年。
  12. ^ ベイカー、ポール; エグバート、ジェシー、編 (2016)。コーパス言語学研究における方法論的アプローチの三角測量ニューヨーク:ラウトレッジ。

さらに読む

書籍

  • Biber、D.、Conrad、S.、Reppen R. Corpus Linguistics、Investigating Language Structure and Use、Cambridge:Cambridge UP、1998。ISBN 0-521-49957-7 
  • マッカーシー、D。、およびサンプソンG.コーパス言語学:拡大する分野の読み、連続体、2005年。ISBN0-8264-8803 -X 
  • Facchinetti、R 。言語コーパスの理論的説明と実用化ヴェローナ:QuiEdit、2007 ISBN 978-88-89480-37-3 
  • Facchinetti、R。(ed。)Corpus Linguistics 25 Yearson 。ニューヨーク/アムステルダム:ロドピ、2007 ISBN 978-90-420-2195-2 
  • Facchinetti、R。and Rissanen M.(eds。)コーパスベースの通時的英語研究ベルン:Peter Lang、2006 ISBN 3-03910-851-4 
  • 貸し手、W。計算辞書編集およびコーパス言語学。1970/1980、in: Gouws、RH、Heid、U.、Schweickard、W.、Wiegand、HE(eds。)Dictionaries – International Encyclopedia ofLexicography。補足巻:電子および計算辞書編集に焦点を当てた最近の開発ベルリン:De Gruyter Mouton、2013 ISBN 978-3112146651 
  • Fuß、Eric etal。(編):Grammar and Corpora 2016、Heidelberg:Heidelberg University Publishing、2018。doi10.17885 / heiup.361.509デジタルオープンアクセス)。
  • Stefanowitsch A. 2020.コーパス言語学:方法論のガイドベルリン:ランゲージサイエンスプレス。ISBN 978-3-96110-225-9doi10.5281 /zenodo.3735822 オープンアクセスhttps://langsci-press.org/catalog/book/148 

書籍シリーズ

この分野の本シリーズは次のとおりです。

ジャーナル

たとえば、コーパス言語学を専門とする国際的な査読付きジャーナルがいくつかあります。

外部リンク