データ可視化の基本
データ分析実務スキル検定PM級を受験するにあたって、問題集や過去問だけでなくワードを覚えていくために一問一答を作りながら公式テキストを勉強すれば一石二鳥!と思い立ち上げました。
是非ご参考にしてください。
使い方はこちら↓
使用している本は唯一の公式テキストとなっている
「データ分析実務スキル検定 公式テキスト」です。試験範囲をすべてカバーしているものでデータ分析実務スキル検定PM級を受ける方必須のバイブルとなります。
可視化とデータの種類
要素が多すぎて見づらい折れ線グラフのことを~という。
スパゲッティグラフ
可視化は~や~によって選択すべき可視化手法が変わってくる
データ数(行数)、変数の数(列数)
1変数データの可視化
IDや個人名、データ番号などの識別子に対して変化する量が1つのみ与えられたデータのことを~という
1変数データ
年収データなどの量的データは~か~で可視化するのが一般的である。
棒グラフ、ドットプロット(短軸散布図)
大規模な量的データの可視化のオーソドックスな方法は~を用いること
ヒストグラム
ヒストグラムでは量的データに対して適当な区切りごとにデータ数をカウントした~をまず作成する。
度数分布表
箱ひげ図の上端と下端は~と~を表す
最大値、最小値
箱ひげ図のひげの部分は上位〇%と下位〇%をしめす。
25%
箱ひげ図における箱の上辺は~と呼ぶ
第3四分位数
箱ひげ図における箱の下辺は~と呼ぶ
第1四分位数
箱ひげ図における箱の真ん中の線
中央値
全体に占める構成割合を表示するときには~や~を用いる
100%棒グラフ、円グラフ
データがとりうる値の種類(水準)が多い場合~のグラフが適している
棒グラフ
2変数データの可視化
2変数がともに量的データの場合は~が使われる
散布図
散布図においてデータ量が少ない場合、データの固有名(通称:~)を表示する
データラベル
散布図のX軸の特徴
インプット、原因系、コントロール可能変数
散布図のY軸の特徴
アウトプット、結果系、コントロール不能変数
2変数、多変数データのうち1つの変数が時(年、月、日)であるときそのデータを~と呼ぶ
時系列データ
時系列データのまとめ方としては~が一般的
折れ線グラフ
値ごとに地図上の位置座標が与えられているデータ
地理空間データ
ドットプロットで点が集中してしまう場合は~をあえて加えることで正しい密度を可視化できる
ノイズ
分布の情報をやや圧縮したような表現方法として箱ひげ図や~と呼ばれる表現がある
バイオリンプロット
可視化のアンチパターン
原点が0ではないこと(棒グラフではアンチパターン)
非ゼロ値原点
可視化は2次元と3次元のどちらが良いか
2次元(3Dグラフは手前が大きく見えてしまうためアンチパターン)
第1章 | CBASへようこそ |
第2章 | ビジネス課題とKPIツリー |
第3章 | データ分析の活用とプロジェクト |
第4章 | データの準備 |
第5章 | リサーチとレポーティング |
第6章 | 予測モデルを使ったデータ分析 |
第7章 | データ可視化の基本 |
第8章(未) | 統計学の基本 |
第9章(未) | 統計手法の基本 |
第10章(未) | 機械学習の基本 |
第11章(未) | Excelでできるデータ分析 |
第12章(未) | SQLの基本 |
第13章(未) | Pythonの基本 |
第14章(未) | Rの基本 |
コメント