単純な線形回帰

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ
マクロ経済学におけるオークンの法則は、単純な線形回帰の例です。ここで、従属変数(GDP成長率)は失業率の変化と線形関係にあると推定されます。

統計では単純線形回帰、単一の説明変数を持つ線形回帰モデルです。[1] [2] [3] [4] [5]つまり、1つの独立変数と1つの従属変数(通常、デカルト座標系のx座標とy座標)を持つ2次元のサンプル点に関係し、可能な限り正確に、独立変数の関数として従属変数値を予測する線形関数(非垂直直線)。形容詞シンプル結果変数が単一の予測変数に関連しているという事実を指します。

通常の最小二乗(OLS)法を使用するという追加の規定を作成するのが一般的です。各予測値の精度は、その二乗残差(データセットのポイントと近似線の間の垂直距離)によって測定されます。目標は、これらの二乗偏差の合計を可能な限り小さくすることです。通常の最小二乗法の代わりに使用できる他の回帰法には、最小絶対偏差(残差の絶対の合計を最小化する)とTheil –Sen推定器勾配サンプルポイント)。 デミング回帰(最小二乗法の合計)は、2次元サンプル点のセットに適合する線も見つけますが、(通常の最小二乗法、最小絶対偏差、および中央勾配回帰とは異なり)実際には単純な線形回帰のインスタンスではありません。座標を1つの従属変数と1つの独立変数に分離せず、近似として垂直線を返す可能性があります。

この記事の残りの部分では、通常の最小二乗回帰を想定しています。この場合、近似直線の傾きは、これらの変数の標準偏差の比率で補正されたyxの間の相関に等しくなります。当てはめられた線の切片は、線がデータポイント の重心xy)を通過するようなものです。

回帰直線のフィッティング

モデル関数 を考えてみましょう

これは、傾きがβy切片がαの直線を表します。一般に、このような関係は、独立変数と従属変数の値のほとんど観察されていない母集団には正確に当てはまらない可能性があります。上記の方程式からの観測されていない偏差をエラーと呼びます。n個のデータペアを観察し、それらを{(x iy i)、i = 1、...、n }と呼ぶとします。この誤差項εiを含むyixi 根本な関係を次のように説明できます。

真の(しかし観測されていない)基礎となるパラメーターαおよびβとデータポイントの間のこの関係は、線形回帰モデルと呼ばれます。

目標は推定値を見つけることですある意味でデータポイントに「最適な」適合を提供するパラメータαおよびβの場合。冒頭で述べたように、この記事では、「最良の」適合は最小二乗アプローチのように理解されます。つまり、残差平方和を最小化する線です(誤差と残差も参照) 。(従属変数yの実際の値と予測値の差)。それぞれは、任意の候補パラメーター値に対して、によって与えられます。

言い換えると、次の最小化問題を解きます。

で二次式を取得するために展開することによっての値を導き出すことができます目的関数Qを最小化する(これらの最小化値は):[6]

ここで紹介しました

  • それぞれxiyi平均として
  • xyのサンプル相関係数としてのrxy
  • sxおよびsyは、xおよびyの修正サンプル標準偏差です
  • それぞれサンプル分散サンプル共分散として

上記の式をの中へ

収量

これは、r xyが標準化されたデータポイントの回帰直線の傾きであることを示しています(そしてこの直線は原点を通過しています)。以来次に、xが何らかの測定値であり、yが同じ項目からのフォローアップ測定値である場合、y(平均)はxの元の値よりも平均測定値に近いと予想されます。この現象は、平均への回帰として知られています。

一般化表記法では、式の上に水平バーを記述して、サンプルのセット全体でのその式の平均値を示すことができます。例えば:

この表記により、rxyの簡潔な式が可能になります

決定係数(「Rの2乗」)は次のようになります。モデルが単一の独立変数で線形である場合。詳細については、サンプルの相関係数を参照してください。

傾斜についての直感

分子内の合計のすべてのメンバーに次の値を掛けることによって:(それによってそれを変更しない):

回帰直線の傾き(角度の接線)は、これは、i番目のポイントをすべてのポイントの平均に接続する線の傾き(角度の接線)であり、ポイントが遠いほど「重要」であるため、その位置の小さなエラーは、ポイントを中心ポイントに接続する勾配にさらに影響を与えるためです。

傍受についての直感

与えられた線が正のx軸となす角度、

相関関係についての直感

上記の定式化では、それぞれがは一定の(「事前に知られている」)値ですが、の線形関数に依存する確率変数ですとランダムな用語この仮定は、勾配の標準誤差を導き出し、それが不偏であることを示すときに使用されます。

このフレーミングでは、は実際には確率変数ではなく、どのタイプのパラメーターが経験的相関を行うか見積もり?問題は、値ごとに次のようになることです。の可能な解釈それを想像することですサンプルのx値の経験分布から抽出された確率変数を定義します。たとえば、xが自然数[1,2,3 ...、10]から10個の値を持っている場合、xは離散一様分布であると想像できます。この解釈の下ですべて同じ期待値といくつかの正の分散があります。この解釈で私たちは考えることができます確率変数yと確率変数xの間のピアソンの相関の推定量として(先ほど定義したように)。

切片項のない単純な線形回帰(単一回帰)

xyは比例していると見なされるため、回帰直線を強制的に原点を通過させることが適切な場合があります。切片項のないモデル、y = βxの場合、 βのOLS推定器は次のように簡略化され ます。

xyの代わりにxhykを代入すると、 hkを介した回帰が得られます

ここで、CovとVarは、サンプルデータの共分散と分散を示します(バイアスは補正されていません)。

上記の最後の形式は、データポイントの重心から線を遠ざけることが勾配にどのように影響するかを示しています。

数値プロパティ

  1. 回帰直線は重心点を通り、、モデルに切片項が含まれている場合(つまり、原点を強制的に通過しない場合)。
  2. モデルに切片項が含まれている場合、残差の合計はゼロです。
  3. 残差とx値は無相関です(モデルに切片項があるかどうかに関係なく)。つまり、次のようになります。
  4. との関係母集団の相関係数)との母分散(()およびの誤差項(()は:[7] :401 
    の極値の場合これは自明です。いつからそれからそしていつそれから

モデルベースのプロパティ

単純な線形回帰推定からの推定量の統計的特性の記述には、統計モデルの使用が必要です。以下は、推定が最適であるモデルの妥当性を仮定することに基づいています。不均一性などの他の仮定の下で特性を評価することも可能ですが、これについては別の場所で説明します。[説明が必要]

偏りのない

推定量偏りがない

このアサーションを形式化するには、これらの推定量が確率変数であるフレームワークを定義する必要があります。残差εiは、平均がゼロの分布から独立して抽出された確率変数と見なされます。言い換えると、xの値ごとに、対応するyの値は、平均応答 α + βxに、平均でゼロに等しい誤差項と呼ばれる追加の確率変数εを加えたものとして生成されます。そのような解釈の下で、最小二乗推定量それ自体が確率変数であり、その平均は「真の値」αおよびβに等しくなります。これは、不偏推定量の定義です。

信頼区間

前のセクションで示した式を使用すると、αβの点推定値、つまり、特定のデータセットの回帰直線の係数を計算できます。ただし、これらの式では、推定値がどれほど正確であるか、つまり推定量がどれだけ正確であるかはわかりません。指定されたサンプルサイズのサンプルごとに異なります。信頼区間は、実験を非常に多くの回数繰り返した場合に得られる可能性のある推定値にもっともらしい値のセットを与えるために考案されました。

線形回帰係数の信頼区間を構築する標準的な方法は、正規性の仮定に依存しています。これは、次のいずれかの場合に正当化されます。

  1. 回帰のエラーは正規分布(いわゆる古典的な回帰の仮定)、または
  2. 観測数nは十分に大きいため、推定量はほぼ正規分布しています。

後者の場合は、中心極限定理によって正当化されます。

正規性の仮定

上記の最初の仮定では、誤差項の正規性の仮定の下で、勾配係数の推定量自体は、平均βと分散で正規分布します。ここで、σ2は誤差項の分散です(通常の最小二乗を含む証明を参照)。同時に、残差平方和Qは、n − 2自由度でχ2に比例して分布し、これにより、t値 を作成できます

どこ

推定量標準誤差です

このt値には、n −2自由度のスチューデントのt分布があります。これを使用して、 βの信頼区間を作成できます

信頼水準(1 −γで、ここでそれはt n -2分布の分位数。たとえば、γ = 0.05の場合、信頼水準は95%です。

同様に、切片係数αの信頼区間は次の式で与えられ ます。

信頼水準(1 −γ)で、ここで

米国の「失業率の変化– GDP成長率」は、95%の信頼帯で回帰しています。

αβの信頼区間は、これらの回帰係数が最もありそうな場所の一般的な考え方を示しています。たとえば、ここに示されているオークンの法則の回帰では、点推定は次のようになります。

これらの推定値の95%信頼区間は次のとおりです。

この情報を回帰直線の周りの信頼区間の形でグラフィカルに表すには、慎重に進めて、推定量の同時分布を考慮する必要があります。信頼水準(1  −γ)では、信頼区間は次の式で与えられる双曲線形式 であることが示されます[8]。

モデルが切片が固定されて0に等しいと仮定した場合()、勾配の標準誤差は次のようになります。

と:

漸近仮定

代替の2番目の仮定は、データセット内のポイントの数が「十分に大きい」場合、大数の法則中心極限定理が適用可能になり、推定量の分布はほぼ正常になることを示しています。この仮定の下で、スチューデントのt分布の分位数t * n -2が標準正規分布の分位数q *に置き換えられることを除いて、前のセクションで導出されたすべての式は有効なままです時折、分数1/n −2に置き換えられます1/nnが大きい場合、このような変更によって結果が大きく変わることはありません。

数値例

このデータセットは、30〜39歳のアメリカ人女性のサンプルにおける身長の関数としての女性の平均質量を示しています。OLSの記事では、このデータに対して2次回帰を実行する方が適切であると主張していますが、代わりに単純な線形回帰モデルがここで適用されます。

高さ(m)、x i 1.47 1.50 1.52 1.55 1.57 1.60 1.63 1.65 1.68 1.70 1.73 1.75 1.78 1.80 1.83
質量(kg)、y i 52.21 53.12 54.48 55.84 57.20 58.57 59.93 61.29 63.11 64.47 66.28 68.10 69.92 72.19 74.46
1 1.47 52.21 2.1609 76.7487 2725.8841
2 1.50 53.12 2.2500 79.6800 2821.7344
3 1.52 54.48 2.3104 82.8096 2968.0704
4 1.55 55.84 2.4025 86.5520 3118.1056
5 1.57 57.20 2.4649 89.8040 3271.8400
6 1.60 58.57 2.5600 93.7120 3430.4449
7 1.63 59.93 2.6569 97.6859 3591.6049
8 1.65 61.29 2.7225 101.1285 3756.4641
9 1.68 63.11 2.8224 106.0248 3982.8721
10 1.70 64.47 2.8900 109.5990 4156.3809
11 1.73 66.28 2.9929 114.6644 4393.0384
12 1.75 68.10 3.0625 119.1750 4637.6100
13 1.78 69.92 3.1684 124.4576 4888.8064
14 1.80 72.19 3.2400 129.9420 5211.3961
15 1.83 74.46 3.3489 136.2618 5544.2916
24.76 931.17 41.0532 1548.2453 58498.5439

このデータセットにはn = 15ポイントがあります。手計算は、次の5つの合計を見つけることから始まります。

これらの量は、回帰係数の推定値とそれらの標準誤差を計算するために使用されます。

単純な線形回帰の数値例における点と線形最小二乗線のグラフ

13自由度のスチューデントのt分布の0.975分位数はt * 13 = 2.1604であるため、αβの95%信頼区間は次のようになります 。

積率相関係数も計算される場合があります

この例は、高度な計算では、準備が不十分なデータの使用を克服できないことも示しています。高さは元々インチで指定されていましたが、最も近いセンチメートルに変換されています。変換により丸め誤差が発生したため、これは正確な変換ではありません。元のインチはRound(x / 0.0254)で復元でき、丸めずにメートル法に再変換できます。これを行うと、結果は次のようになります。

したがって、一見小さなデータの変動が実際の影響を及ぼします。

も参照してください

参考文献

  1. ^ セルトマン、ハワードJ.(2008-09-08)。実験計画と分析 (PDF)p。227。
  2. ^ 「統計的サンプリングと回帰:単純な線形回帰」コロンビア大学2016年10月17日取得1つの独立変数が回帰で使用される場合、それは単純回帰と呼ばれます;(...)
  3. ^ Lane、David M.統計入門(PDF)p。462。
  4. ^ ゾウKH; Tuncali K; シルバーマンSG(2003)。「相関と単純な線形回帰」。放射線科227(3):617–22。土井10.1148 /radiol.2273011499ISSN0033-8419_ OCLC110941167_ PMID12773666_   
  5. ^ アルトマン、ナオミ; Krzywinski、Martin(2015)。「単純な線形回帰」。ネイチャーメソッズ12(11):999–1000。土井10.1038 /nmeth.3627ISSN1548-7091_ OCLC5912005539_ PMID26824102_   
  6. ^ Kenney、JF and Keeping、ES(1962)「線形回帰と相関」。Ch。数理統計学の15、Pt。1、第3版 プリンストン、ニュージャージー州:ヴァンノストランド、pp。252–285
  7. ^ Valliant、Richard、Jill A. Dever、およびFraukeKreuter。調査サンプルを設計および重み付けするための実用的なツール。ニューヨーク:Springer、2013年。
  8. ^ Casella、G。and Berger、RL(2002)、 "Statistical Inference"(2nd Edition)、Cengage、 ISBN 978-0-534-24312-8、pp。558–559。 

外部リンク