統計学の基本
データ分析実務スキル検定PM級を受験するにあたって、問題集や過去問だけでなくワードを覚えていくために一問一答を作りながら公式テキストを勉強すれば一石二鳥!と思い立ち上げました。
是非ご参考にしてください。
使い方はこちら↓
使用している本は唯一の公式テキストとなっている
「データ分析実務スキル検定 公式テキスト」です。試験範囲をすべてカバーしているものでデータ分析実務スキル検定PM級を受ける方必須のバイブルとなります。
1変数データのまとめ方
表やグラフなどの可視化手法は統計学において~の主要テーマ
記述統計
平均値、中央値、最大値、最小値、分散、標準偏差などの加工して得られたデータのことを~と呼ぶ
統計量
データの代表する値である平均値、中央値、最頻値のことを~と呼ぶ
代表値
データのばらつきの程度を表現する分散、標準偏差、四分位範囲のことを~と呼ぶ
散布度
2変数データの関係性は~と呼ばれる統計量を用いる
相関係数
平均年収のように一部が値を底上げしてしまうような現象
平均値の罠
中央値でデータセットを2つに区切った時の小さいほうのデータセットの中央値の呼び方
第1四分位数
中央値でデータセットを2つに区切った時の大きいほうのデータセットの中央値の呼び方
第3四分位数
最小値、第1四分位数、中央値、第3四分位数、最大値のまとまりのことを~と呼ぶ
5数要約値
各値から平均値を引いた値のこと
偏差
散布度
最大値から最小値を引いた値のこと
範囲
第3四分位数から第1四分位数を引いた値
四分位範囲
偏差を二乗した値の平均値※偏差を足すと0になってしまうため偏差を二乗して平均を出すようになった。
分散
平均値からの標準的なバラツキ具合を表す値(偏差を二乗した値の平均値の平方根をとったもの)
標準偏差
偏差を標準偏差で割った値、つまり平均値から標準偏差の何倍離れているかを示す値
z値(標準化点、標準化得点)
平均値から標準偏差3個以上離れたデータのこと(外れ値の候補と考える)
3σ基準
受験などで良く聞く偏差値の式
偏差値=50+z値+10
2変数データのまとめ方
一方の値を変化させるともう一方の値も変化する傾向が強い関係のこと
相関関係
相関係数の値の範囲は○○~○○
-1~+1
相関係数の絶対値が1となるときは~と呼ばれる
完全相関
相関係数が0となるときは~と呼ばれる
無相関
XとYの相関係数を求める式
XとYの共分散/Xの標準偏差×Yの標準偏差
相関を示す際に値を揃えるための変数(例:郵便ポストの数とインフルの数は正の相関がある→人口で見ないといけない)
制御変数
散布図の中でも制御変数ごとに分けて表現したもの(相関があるように見えて人口小、人口大のように分けると相関がなくなる)
層別散布図
相関係数をデータセットに含まれるすべての組み合わせで確かめて表にしたもの
相関係数行列
クロス表において行ごとの比のことを何というか
行比
クロス表において列ごとの比のことを何というか
列比
クロス表において各セルの度数を全体度数で割った値は~という
相対度数(セル比率)
クロス表において一方の変数が一方の変数に影響を与える場合、影響を与える方を~という
要因
影響を与えられる方を~という
反応
クロス表において反応数÷非反応数のことを~という
オッズ
第1章 | CBASへようこそ |
第2章 | ビジネス課題とKPIツリー |
第3章 | データ分析の活用とプロジェクト |
第4章 | データの準備 |
第5章 | リサーチとレポーティング |
第6章 | 予測モデルを使ったデータ分析 |
第7章 | データ可視化の基本 |
第8章 | 統計学の基本 |
第9章 | 統計手法の基本 |
第10章(未) | 機械学習の基本 |
第11章(未) | Excelでできるデータ分析 |
第12章 | SQLの基本 |
第13章(未) | Pythonの基本 |
第14章(未) | Rの基本 |
コメント