統計学やデータ分析を学んでいると、「共分散」という言葉に出会いますよね。数式を見ただけで難しそうに感じるかもしれませんが、実は2つの変数がどのように一緒に動くかを数値で表したものなんです。
この記事では、共分散の基本的な考え方から、実際の計算方法、ExcelやPythonを使った実践的な求め方まで、初心者の方にもわかりやすく解説していきますね。
📌 この記事でわかること
- 共分散の基本的な意味と、相関係数との違い
- 共分散を手計算で求める5つのステップ
- ExcelとPythonを使った実践的な計算方法
- 共分散を使う際の注意点とよくある間違い
- ビジネスや研究での具体的な活用例
- 共分散から相関係数への変換方法
共分散とは?まず押さえるべき基本概念
共分散の定義をわかりやすく説明
共分散というのは、2つの変数が一緒にどのように変化するかを数値で表したものなんです。例えば、勉強時間とテストの点数を考えてみましょう。勉強時間が増えると点数も上がる傾向があれば、この2つには「正の関係」があると言えますよね。
もう少し具体的にお話しすると、共分散は以下のような性質を持っています。
共分散の値の意味
- 正の値:一方が増えるともう一方も増える傾向(例:気温と冷たい飲み物の売上)
- 負の値:一方が増えるともう一方は減る傾向(例:気温と温かい飲み物の売上)
- ゼロに近い値:2つの変数に明確な線形関係が見られない
統計学の用語で言うと、共分散は「2変量データの線形な関連性を示す指標」として使われるんですね。データ分析の現場では、変数間の関係性を調べる最初のステップとしてよく使われていますよ。
共分散が示す「2つの変数の関係性」
共分散を理解するには、散布図をイメージするとわかりやすいです。横軸にX、縦軸にYをとって点を打っていくと、その点の散らばり方から関係性が見えてきますよね。
右上がりの傾向があれば正の共分散、右下がりなら負の共分散になります。点がバラバラに散らばっている場合は、共分散はゼロに近い値になるんです。
ここで大切なポイントがあります。共分散は「どのくらい一緒に動くか」を示していますが、「どのくらい強く関係しているか」を直接示すものではないんです。これは単位の影響を受けるからなんですね(この点については後ほど詳しく説明しますね)。
相関係数との違いと使い分け
「共分散と相関係数って何が違うの?」と思う方もいますよね。実は、相関係数は共分散を標準化したものなんです。
| 特徴 | 共分散 | 相関係数 |
|---|---|---|
| 値の範囲 | -∞ ~ +∞ | -1 ~ +1 |
| 単位の影響 | 受ける | 受けない |
| 解釈のしやすさ | やや難しい | わかりやすい |
| 主な用途 | 計算の中間段階、ポートフォリオ理論 | 関係の強さの評価 |
実務では、関係性の強さを知りたいときは相関係数を使い、金融のリスク計算など特定の計算では共分散をそのまま使うことが多いですよ。
共分散の公式と計算の仕組み
母共分散の公式
共分散の公式には、対象とするデータが「母集団全体」か「標本(サンプル)」かによって2種類あります。まずは母共分散から見ていきましょう。
記号の意味を一つずつ確認していきますね。
- σxy(シグマxy):XとYの母共分散
- xi, yi:i番目のデータポイントの値
- μx, μy(ミューx、ミューy):XとYの母平均
- N:データの総数(母集団全体のサイズ)
- Σ(シグマ):総和を表す記号(すべてのデータについて足し合わせる)
母集団というのは、調査対象全体のことです。例えば、ある会社の全従業員のデータを持っている場合、それは母集団になりますね。
標本共分散の公式(n-1で割る理由)
実際のデータ分析では、母集団全体のデータを集めるのは難しいことが多いです。そこで、一部のデータ(標本)から母集団の特徴を推測するんですね。
- sxy:XとYの標本共分散(不偏共分散)
- x̄, ȳ(xバー、yバー):XとYの標本平均
- n:標本サイズ(集めたデータの数)
🤔 なぜn-1で割るの?
標本から母集団を推測する場合、nで割ると母集団の共分散を過小評価してしまう傾向があるんです。これは標本平均が母平均からズレているために起こります。n-1で割ることで、この偏り(バイアス)を補正して、母集団の共分散をより正確に推定できるようになるんですよ。これを不偏推定と呼び、統計学では標準的な手法として使われています。
ベッセルの補正とも呼ばれるこの方法は、自由度の考え方に基づいています。平均を計算する際に1つの制約が生まれるため、実質的に自由に変動できるデータはn-1個になるという理論なんです。
公式の意味を理解する
公式を見ると難しく感じるかもしれませんが、実は「平均からのズレの積を平均したもの」なんです。
例えば、勉強時間とテスト点数のデータがあったとします。ある日の勉強時間が平均より多くて、その日の点数も平均より高かったら、両方とも「プラスのズレ(正の偏差)」ですよね。この2つを掛け合わせると、プラス×プラス=プラスになります。
逆に、勉強時間が平均より少なくて点数も平均より低かったら、マイナス×マイナス=プラスです。このように、同じ方向に動く傾向があると共分散は正の値になるんですね。
一方、勉強時間が多いのに点数が低い(またはその逆)だと、プラス×マイナス=マイナスになって、これらが多いと負の共分散になります。すべてのデータポイントについてこの積を計算して平均を取ることで、全体としての関係性を数値化するわけです。
【基本編】共分散の求め方を5ステップで解説
それでは実際に、手計算で共分散を求める方法を見ていきましょう。以下の例題で一緒に計算してみましょうね。
📝 例題データ
5人の生徒について、勉強時間(時間)とテスト点数(点)のデータがあります。
| 生徒 | 勉強時間(x) | テスト点数(y) |
|---|---|---|
| A | 2 | 50 |
| B | 3 | 60 |
| C | 5 | 75 |
| D | 6 | 80 |
| E | 7 | 85 |
ステップ1:各変数の平均値を求める
まず、xとyそれぞれの平均を求めます。
勉強時間の平均(x̄)
x̄ = (2 + 3 + 5 + 6 + 7) ÷ 5 = 23 ÷ 5 = 4.6時間
テスト点数の平均(ȳ)
ȳ = (50 + 60 + 75 + 80 + 85) ÷ 5 = 350 ÷ 5 = 70点
ステップ2:各データの偏差を計算する
各データから平均を引いて、「偏差」を求めます。偏差というのは、平均からどれだけ離れているかを示す値なんです。
| 生徒 | x | x – x̄ | y | y – ȳ |
|---|---|---|---|---|
| A | 2 | 2 – 4.6 = -2.6 | 50 | 50 – 70 = -20 |
| B | 3 | 3 – 4.6 = -1.6 | 60 | 60 – 70 = -10 |
| C | 5 | 5 – 4.6 = 0.4 | 75 | 75 – 70 = 5 |
| D | 6 | 6 – 4.6 = 1.4 | 80 | 80 – 70 = 10 |
| E | 7 | 7 – 4.6 = 2.4 | 85 | 85 – 70 = 15 |
ステップ3:偏差の積を求める
xとyの偏差をそれぞれ掛け合わせます。これが共分散の計算で最も重要な部分なんですよ。
| 生徒 | (x – x̄) | (y – ȳ) | (x – x̄)(y – ȳ) |
|---|---|---|---|
| A | -2.6 | -20 | (-2.6) × (-20) = 52 |
| B | -1.6 | -10 | (-1.6) × (-10) = 16 |
| C | 0.4 | 5 | 0.4 × 5 = 2 |
| D | 1.4 | 10 | 1.4 × 10 = 14 |
| E | 2.4 | 15 | 2.4 × 15 = 36 |
ステップ4:偏差の積の合計を計算する
偏差の積を全て合計します。
Σ(x – x̄)(y – ȳ) = 52 + 16 + 2 + 14 + 36 = 120
ステップ5:データ数で割る
最後に、データ数で割って平均を求めます。今回は標本共分散を求めるので、n-1で割りますね。
sxy = 120 ÷ (5 – 1) = 120 ÷ 4 = 30
※もし母集団として扱う場合は、nで割ります:120 ÷ 5 = 24
計算結果の解釈
計算結果は共分散 = 30となりました。この値が正の数なので、勉強時間とテスト点数には正の相関関係があることがわかりますね。つまり、勉強時間が増えると点数も上がる傾向があるということです。
💡 計算のポイント
- 偏差を計算するときは、符号(プラス・マイナス)に注意しましょう
- 偏差の積を計算する際、マイナス×マイナス=プラスになることを忘れずに
- 母集団全体のデータならNで割り、標本ならn-1で割ります
- 計算途中で小数が出てくることが多いので、電卓を使うと正確ですよ
- 途中の計算結果を表にまとめると、ミスを見つけやすくなります
【Excel編】Excelで共分散を求める方法
手計算で共分散を理解したら、次は実務でよく使うExcelでの計算方法を見ていきましょう。Excelには便利な関数が用意されているので、あっという間に計算できますよ。
COVARIANCE.P関数の使い方(母共分散)
母集団全体のデータがある場合は、COVARIANCE.P関数を使います。Pは「Population(母集団)」の頭文字なんです。
書式
=COVARIANCE.P(配列1, 配列2)
実際の入力例
=COVARIANCE.P(A2:A6, B2:B6)
※A2:A6に勉強時間、B2:B6にテスト点数が入っているとします
実際にExcelで試してみましょう。先ほどの例題データを使って計算すると、結果は24になります(母共分散なのでNで割った値です)。
COVARIANCE.S関数の使い方(標本共分散)
標本データから母集団を推定する場合は、COVARIANCE.S関数を使います。Sは「Sample(標本)」の頭文字ですね。
書式
=COVARIANCE.S(配列1, 配列2)
実際の入力例
=COVARIANCE.S(A2:A6, B2:B6)
この関数は自動的にn-1で割ってくれるので、不偏推定値が得られます。
同じデータで計算すると、結果は30になります。これは手計算で求めた値と一致しますね。
⚠️ 注意点:旧バージョンのExcel
Excel 2007以前のバージョンでは、COVAR関数しかありません。この関数は母共分散(Nで割る)を計算するので、標本共分散が必要な場合は手動でn-1で割る必要があります。Excel 2010以降をお使いの方は、COVARIANCE.PとCOVARIANCE.Sを使い分けることをおすすめしますよ。
実践例:売上データで共分散を計算
では、もう少し実務に近い例を見てみましょう。広告費と売上の関係を調べたいとします。
| 月 | 広告費(万円) | 売上高(万円) |
|---|---|---|
| 1月 | 50 | 320 |
| 2月 | 45 | 310 |
| 3月 | 60 | 380 |
| 4月 | 55 | 350 |
| 5月 | 70 | 420 |
| 6月 | 65 | 400 |
このデータをExcelに入力して、=COVARIANCE.S(B2:B7, C2:C7)と入力すると、共分散が計算できます。結果は約77.6となり、広告費と売上には正の相関があることがわかりますね。
📊 Excelでの作業のコツ
- データ範囲は必ず同じ行数にしましょう(ペアになっている必要があります)
- 空白セルがあるとエラーになるので、データの入力漏れに注意してください
- 計算結果をすぐに確認できるよう、データの近くに関数を配置すると便利ですよ
- 複数の変数の関係を調べる場合は、データ分析ツールの「共分散」機能も活用できます
【Python編】PythonとNumPyで共分散を求める
データサイエンスの現場では、Pythonを使った分析も一般的です。PythonのNumPyライブラリを使うと、複数の変数の共分散を一度に計算できるんですよ。
NumPyのcov関数の使い方
NumPyのcov()関数を使えば、簡単に共分散を計算できます。まずは基本的な使い方を見ていきましょう。
import numpy as np
# データの準備
study_hours = [2, 3, 5, 6, 7]
test_scores = [50, 60, 75, 80, 85]
# 共分散の計算(デフォルトはn-1で割る)
covariance_matrix = np.cov(study_hours, test_scores)
print(covariance_matrix)
このコードを実行すると、以下のような共分散行列が出力されます。
[[5.3 30. ]
[30. 187.5]]
🔍 結果の読み方
- 左上の5.3:勉強時間の分散(勉強時間と勉強時間の共分散)
- 右上と左下の30:勉強時間とテスト点数の共分散(これが求めたい値です)
- 右下の187.5:テスト点数の分散(テスト点数とテスト点数の共分散)
対角線上の値は各変数の分散で、それ以外が共分散なんですね。共分散行列は対称行列になるので、右上と左下は同じ値になりますよ。
pandasのDataFrame.cov()メソッド
pandasライブラリを使うと、さらに使いやすくなります。データフレームから直接共分散を計算できるんですよ。
import pandas as pd
# データフレームの作成
data = pd.DataFrame({
'勉強時間': [2, 3, 5, 6, 7],
'テスト点数': [50, 60, 75, 80, 85]
})
# 共分散の計算(デフォルトはn-1で割る)
covariance_df = data.cov()
print(covariance_df)
結果は以下のようになります。
勉強時間 テスト点数
勉強時間 5.3 30.0
テスト点数 30.0 187.5
pandasを使うと、変数名付きで結果が表示されるので、どの値がどの変数の組み合わせかがわかりやすいですね。
共分散行列の読み方と活用法
共分散行列というのは、複数の変数すべての組み合わせの共分散を一度に表示したものなんです。3つ以上の変数がある場合に特に便利ですよ。
import pandas as pd
# 3つの変数を持つデータ
data = pd.DataFrame({
'身長': [160, 165, 170, 175, 180],
'体重': [55, 60, 65, 70, 75],
'年齢': [20, 25, 30, 35, 40]
})
print(data.cov())
この場合、身長と体重、身長と年齢、体重と年齢、すべての組み合わせの共分散が一度に計算されます。データ分析では、どの変数同士が関係しているかを素早く把握するのに役立つんですね。
💻 Pythonでの計算のポイント
- NumPyの
np.cov()はデフォルトでddof=1(n-1で割る)設定です - 母共分散が欲しい場合は、
np.cov(x, y, ddof=0)とパラメータを指定します - pandasの
DataFrame.cov()もデフォルトでddof=1を使用します - 欠損値(NaN)がある場合は、事前に
dropna()やfillna()などで処理しておきましょう - 大量のデータでも高速に計算できるのがPythonの強みですよ
共分散を求める際の注意点とよくある間違い
共分散を使う上で、いくつか注意すべきポイントがあります。これを知っておくと、データの解釈を間違えずに済みますよ。
単位の影響を受ける性質
共分散の大きな特徴は、測定単位の影響を受けるということなんです。例を見てみましょう。
⚠️ 単位による影響の例
例1:身長をメートルで測定
身長(m):1.60, 1.65, 1.70, 1.75, 1.80
体重(kg):55, 60, 65, 70, 75
共分散:約0.125
例2:身長をセンチメートルで測定
身長(cm):160, 165, 170, 175, 180
体重(kg):55, 60, 65, 70, 75
共分散:約12.5
同じデータなのに、身長の単位を変えただけで共分散の値が100倍も変わってしまうんです。
このため、異なるデータセット同士で共分散の大きさを比較することはできないんですね。比較したい場合は、相関係数を使うのがおすすめですよ。
「共分散=0」は無関係を意味しない
これはよくある誤解なのですが、共分散がゼロだからといって、2つの変数が完全に無関係とは限らないんです。
例えば、y = x²のような関係を考えてみましょう。xが-2から2まで対称的に変化すると、yは4→0→4と変化します。この場合、明確な関係があるのに共分散はゼロに近くなるんです。
📌 理解のポイント
共分散が捉えられるのは線形の関係(直線的な関係)だけなんです。曲線的な関係(非線形関係)や周期的な関係は検出できません。そのため、共分散がゼロでも、必ず散布図を確認することをおすすめしますよ。散布図を見れば、データの分布パターンや外れ値の存在もわかります。
n-1で割るべきか、nで割るべきか
これも初学者の方がよく迷うポイントですね。使い分けの基準を整理しましょう。
| 状況 | 割る数 | 理由 |
|---|---|---|
| 母集団全体のデータがある | N | 推定ではなく、実際の値を計算するため |
| 標本から母集団を推定する | n-1 | 不偏推定量を得るため(バイアス補正) |
| データ数が非常に多い(100以上) | どちらでも大差ない | nとn-1の差が相対的に小さくなるため |
| 記述統計として使う | N | 手元のデータそのものを記述する場合 |
実務では、迷ったらn-1で割るのが無難です。統計ソフトやプログラミング言語のデフォルト設定も、たいていn-1になっていますよ。
外れ値の影響を受けやすい
共分散は平均値を使って計算するため、極端な値(外れ値)の影響を受けやすいんです。
例えば、テスト点数のデータに「100点」という突出した値が1つあると、共分散の値が大きく変わってしまうことがあります。データを分析する前に、箱ひげ図や散布図で外れ値がないか確認することが大切ですよ。外れ値がある場合は、その原因を調べてから、削除するか別途分析するか判断しましょう。
共分散の実務活用例
理論がわかったところで、実際のビジネスや研究でどのように使われているか見ていきましょう。
マーケティング分析:広告費と売上の関係
マーケティング部門では、広告投資の効果を測定するために共分散を使うことがあります。
📊 活用例
ある企業が6ヶ月間のデータを分析したところ、広告費と売上の共分散が正の値(約77.6)となりました。これにより、広告費を増やすと売上も増える傾向があることが確認できたんです。
ただし、共分散だけでは「どのくらい効果的か」まではわからないので、次のステップとして相関係数を計算したり、回帰分析を行って具体的な投資対効果(ROI)を算出したりします。
金融分析:ポートフォリオのリスク管理
投資の世界では、共分散は非常に重要な指標なんですよ。複数の資産に分散投資するとき、資産間の共分散が小さいほど、リスクを分散できるんです。
例えば、A株とB株があるとします。両方の株価が同じように動く(共分散が大きい正の値)と、リスク分散の効果は小さくなります。逆に、片方が上がるときもう片方が下がる傾向がある(負の共分散)と、リスクを効果的に分散できるんですね。
💡 現代ポートフォリオ理論
1952年にハリー・マーコウィッツが発表し、後にノーベル経済学賞を受賞した現代ポートフォリオ理論では、資産間の共分散行列を使って最適な投資配分を計算します。この理論では、期待リターンとリスク(標準偏差)のバランスを考慮しながら、共分散を使って資産の組み合わせ効果を数値化しているんです。今でも金融業界で広く使われている手法なんですよ。
品質管理:2つの製造条件の関連性評価
製造業では、製造条件と製品品質の関係を調べるときに共分散を使います。
例えば、加熱温度と製品の強度の関係を調べたいとします。複数回の実験データから共分散を計算することで、温度を上げると強度がどう変化するかの傾向をつかめるんです。これにより、最適な製造条件を見つける手がかりになりますよ。品質工学(タグチメソッド)でも、複数の因子間の相互作用を調べる際に共分散の考え方が活用されています。
共分散から相関係数への変換方法
なぜ相関係数に変換するのか
共分散は便利な指標ですが、値の大きさだけでは関係の強さが判断しづらいという弱点があります。そこで登場するのが相関係数なんですね。
相関係数は、共分散を各変数の標準偏差で割って標準化したもので、常に-1から+1の間の値になります。これにより、異なるデータセット同士でも比較できるようになるんです。
標準化の計算手順
相関係数r(ピアソンの積率相関係数)は以下の公式で計算できます。
または
- σxyまたはsxy:XとYの共分散
- σx, σyまたはsx, sy:XとYの標準偏差
先ほどの例で計算してみましょう。
すでに求めた値
- 共分散 sxy = 30
標準偏差を計算
- 勉強時間の標準偏差 sx = √5.3 ≈ 2.30
- テスト点数の標準偏差 sy = √187.5 ≈ 13.69
相関係数を計算
r = 30 / (2.30 × 13.69) = 30 / 31.49 ≈ 0.95
実例で比較する共分散と相関係数
相関係数が0.95ということは、非常に強い正の相関があることを示しています。一般的な解釈の目安は以下の通りです。
| 相関係数の値 | 関係の強さ |
|---|---|
| 0.7 ~ 1.0 | 強い正の相関 |
| 0.4 ~ 0.7 | 中程度の正の相関 |
| 0.0 ~ 0.4 | 弱い正の相関 |
| 0.0 | 線形の相関なし |
| -0.4 ~ 0.0 | 弱い負の相関 |
| -0.7 ~ -0.4 | 中程度の負の相関 |
| -1.0 ~ -0.7 | 強い負の相関 |
共分散の値が「30」と聞いてもピンと来ませんが、相関係数が「0.95」と言われれば、かなり強い関係があるとすぐにわかりますよね。これが相関係数の便利なところなんです。
よくある質問(FAQ)
共分散が負の値になるのはなぜ?
共分散が負の値になるのは、一方が増えるともう一方が減る傾向があるからなんです。例えば、気温とホットコーヒーの売上の関係を考えてみてください。気温が上がるとホットコーヒーの売上は減りますよね。この場合、共分散は負の値になります。負の値は「悪い」という意味ではなく、変化の方向が逆であることを示しているだけですよ。金融では、このような負の相関を持つ資産を組み合わせることでリスクヘッジができます。
共分散の単位は何ですか?
共分散の単位は、2つの変数の単位を掛け合わせたものになります。例えば、勉強時間(時間)とテスト点数(点)の共分散なら、単位は「時間×点」になるんです。身長(cm)と体重(kg)なら「cm・kg」ですね。この独特な単位が、共分散を直感的に理解しづらくしている理由の一つなんですよ。だからこそ、実務では無次元の相関係数がよく使われるんです。
分散と共分散の違いは?
分散は1つの変数のばらつきを表し、共分散は2つの変数の関係を表すんです。実は、分散は「その変数自身との共分散」と考えることもできるんですよ。数式で表すと、Xの分散 = Var(X) = Cov(X, X) となります。共分散行列の対角線上に分散が並ぶのは、このためなんですね。つまり、分散は共分散の特殊なケースと言えます。
共分散の絶対値が大きいほど関係が強いの?
これは必ずしもそうとは言えないんです。共分散の大きさは測定単位の影響を受けるため、値が大きいからといって関係が強いとは限りません。例えば、身長をcmで測るかmで測るかで値が100倍変わってしまいます。関係の強さを知りたいなら、単位の影響を受けない相関係数を使うのが適切ですよ。相関係数は-1から+1の範囲に正規化されているので、異なるデータセット間でも比較できます。
データ数が少ない場合でも共分散は使える?
理論的には計算できますが、データ数が少ないと信頼性が低くなるので注意が必要です。一般的に、最低でも10組以上のデータがあることが望ましいとされています。データ数が少ない場合は、計算結果を過信せず、参考程度に留めておくことをおすすめしますよ。統計的な検定を行う場合は、さらに多くのデータ(通常30組以上)が必要になります。また、サンプルサイズが小さいと外れ値の影響も大きくなるので注意しましょう。
Excelで「#DIV/0!」エラーが出た場合は?
このエラーは、すべてのデータが同じ値のときに出ることがあります。例えば、Xの値がすべて5だったりすると、分散がゼロになって計算できなくなるんです。データを確認して、変動があるかチェックしてみてください。また、データ範囲が正しく指定されているか、空白セルが含まれていないかも確認しましょうね。データに変動がない場合、そもそも共分散を計算する意味がないことになります。
共分散と回帰分析の関係は?
共分散は回帰分析の基礎になる指標なんですよ。単回帰分析の傾き(回帰係数)は、共分散をXの分散で割った値として計算されます。具体的には、傾き b = Cov(X,Y) / Var(X) という関係があります。つまり、共分散を理解することは、回帰分析を理解する第一歩なんですね。データ分析のスキルアップを目指すなら、ぜひ両方をマスターしてみてください。
まとめ:共分散をマスターするためのポイント
ここまで、共分散の求め方について詳しく見てきましたね。最後に重要なポイントをまとめておきましょう。
✅ 押さえておきたい7つのポイント
- 共分散は2つの変数の「一緒の動き方」を数値化したもので、正の値なら同じ方向に、負の値なら逆方向に動く傾向があります
- 計算の基本は「偏差の積の平均」で、5つのステップで手計算できます
- 標本データでは(n-1)で割ることで、不偏推定量が得られより正確な推定ができます
- Excelでは関数一つで簡単に計算できるので、実務で活用しやすいです
- Pythonなら複数変数の関係を一度に分析できて効率的です
- 単位の影響を受けるため、異なるデータセットの比較には相関係数を使いましょう
- 実務では金融、マーケティング、品質管理など幅広い分野で活用されています
共分散は、統計学やデータ分析の基礎となる重要な概念です。最初は公式が難しく感じるかもしれませんが、「平均からのズレの掛け算の平均」という本質を理解すれば、そんなに難しくないんですよ。
実際に手を動かして計算してみることが、理解を深める一番の近道です。まずは簡単なデータで手計算を試してみて、次にExcelやPythonで効率的に計算する方法を身につけていきましょう。
データ分析のスキルは、これからの時代ますます重要になってきます。共分散をマスターしたら、次は相関係数や回帰分析にも挑戦してみてくださいね。一歩ずつ学んでいけば、きっとデータから意味のある情報を引き出せるようになりますよ。
📚 次のステップへ
共分散を理解できたら、以下のトピックも学んでみることをおすすめします。
- 相関係数(ピアソン・スピアマン):共分散を標準化して、関係の強さを測る
- 回帰分析:変数間の関係を数式で表現し、予測に活用する
- 多変量解析:3つ以上の変数の関係を同時に分析する
- 主成分分析(PCA):共分散行列を使ったデータの次元削減技術
最後まで読んでいただき、ありがとうございました。この記事が、あなたのデータ分析の学習に少しでもお役に立てれば嬉しいです。わからないことがあれば、何度でも読み返してくださいね。実践を重ねながら、少しずつスキルアップしていきましょう!

