5.散布図行列pd.plotting.scatter_matrix



5 Scatter Plot Matrix Pd



pd.plotting.scatter_matrix(iris_dataframe、c = y_train、figsize =(15,15)、marker = '0'、hist_kwds = {'bins':50}、s = 60、alpha = .8、cmap = mglearn.cm3 )
結果:
画像

  1. Pd.scatter_matrixは利用できません。
    pd.scatter_matrixをpd.plotting.scatter_matrixに置き換えます。
  2. 最初のパラメーターdataframe:iris_dataframeは、行ごとにデータをフェッチします
    2番目のパラメーターc = c = y_train colorは、異なる色度で異なるタイプを区別します
    3:figsize =(15,15)画像領域のサイズ(インチ)
    4:mark = '0'ポイント形状、0は円、1は&yen
    5:hist_kwds = {‘bins’:50}対角ヒストグラム上のパラメータータプル
    6:s = 60トレースのサイズ
    7:alpha = .8画像の透明度、通常は(0,1]を取ります
    8:cmap = mglearn.cm3主にいくつかの造園やその他のプライベート関数を実行するmylearnユーティリティライブラリは、https://github.com/YifengChu/introduction_to_ml_with_pythonにあります。

(「Python機械学習の基本チュートリアル」のコード)
Q:
与えられたグラフをどのように理解しますか?関連性と変数の分布を分析する方法は?



A:この写真は、対角部分と非対角部分の2つの部分に分かれています。
対角部分:カーネル密度推定は、変数の分布を確認するために使用されます。横軸は変数の値に対応し、縦軸は変数に対応します。密度(発生頻度として理解できます)。
非対角部分:2つの変数間の分布の関連する散布図。任意の2つの変数に一致します。一方は横座標で、もう一方は縦座標です。すべてのデータポイントがグラフにプロットされ、2つの変数の相関(相関)が測定されます。相関させる方法の説明については、Wiki:相関と依存関係16を参照してください。
この質問については、フォーラムのこの投稿を参照することもできます。ハッシュマップからのデータ相関を参照してください。

写真を撮ると、上記のような散布図が表示されます。たとえば、データの分布は線形の線のようになります。つまり、これまでに見た関数曲線が類似するかどうかを十分に考えることができます。



相関係数を使用して、相関を定量的に表示できます

[1]の場合:パンダをpdとしてインポートします

[2]の場合:numpyをnpとしてインポートします



[3]の場合:df = pd.DataFrame(np.array([[1、2、3]、[100、9、6]、[0、78、9]])。T、columns = ['A' 、 'B'、 'C​​'])

[4]の場合:df.corr()

Out [4]:A B C

A 1.000000 -0.879722 0.105453

B -0.879722 1.000000 -0.565606

C 0.105453 -0.565606 1.000000

相関が高いほど、より多くの特徴を取得できるため、2つの特徴のうちの1つを適切に丸めることができます。

対角線上には確率密度マップがあります(軸上の座標は適用されません)
その他は散布図です(軸上の座標が適用されます)

x = yは、2つが関連していないことを意味します
から https://blog.csdn.net/zhuiqiuuuu/article/details/82721962