前処理大全 - データ分析のための SQL/R/Python 実践テクニック

出版社
出版日
ページ数
336
説明

データサイエンス・データ分析を行う上で欠かすことのできない重要なタスク「データの前処理」について解説した一冊です。

「ほとんどの問題について R / Python / SQL の 3 つの言語で実装方法を紹介している」とのことで、 Python を利用する方だけでなく、広くデータサイエンスに取り組んでいる方、これから取り組もうとしている方にも有益な一冊です。

著者の方の Twitter アカウントはこちらのようです。

目次
はじめに 0-1 本書の目的 0-2 対象読者 0-3 本書の構成 Part 1 入門前処理 第1章 前処理とは 1-1 データ 1-2 前処理の役割 1-3 前処理の流れ 1-4 3 つのプログラミング言語 1-5 パッケージ/ライブラリ 1-6 データセット 1-7 データの読み込み Part 2 データ構造を対象とした前処理 第2章 抽出 2-1 データ列指定による抽出 2-2 条件指定による抽出 2-3 データ値に基づかないサンプリング 2-4 サンプリング 第3章 集約 3-1 データ数,種類数の算出 3-2 合計値の算出 3-3 極値,代表値の算出 3-4 ばらつき具合の算出 3-5 最頻値の算出 3-6 順位の算出 第4章 結合 4-1 マスタテーブルの結合 4-2 条件に応じた結合テーブルの切り替え 4-3 過去データの結合 4-4 全結合 第5章 分割 5-1 レコードデータにおけるモデル検証用のデータ分割 5-2 時系列データにおけるモデル検証用のデータ分割 第6章 生成 6-1 アンダーサンプリングによる不均衡データの調整 6-2 オーバーサンプリングによる不均衡データの調整 第7章 展開 7-1 横持ちへの変換 7-2 スパースマトリックスへの変換 Part 3 データ内容を対象とした前処理 第8章 数値型 8-1 数値型への変換 8-2 対数化による非線形な変化 8-3 カテゴリ化による非線形な変化 8-4 カテゴリ化による非線形な変化 8-5 外れ値の除去 8-6 主成分分析による次元圧縮 8-7 数値の補完 第9章 カテゴリ型 9-1 カテゴリ型への変換 9-2 ダミー変数化 9-3 カテゴリ値の集約 9-4 カテゴリ値の組み合わせ 9-5 カテゴリ型の数値化 9-6 カテゴリ型の補完 第10章 日時型 10-1 日時型,日付型への変換 10-2 年/月/日/時刻/分/秒/曜日への変換 10-3 日時差への変換 10-4 日時型の増減 10-5 季節への変換 10-6 時間帯への変換 10-7 平休日への変換 第11章 文字型 11-1 形態素解析による分解 11-2 単語の集合データに変換 11-3 TF-IDF による単語の重要度調整 第12章 位置情報型 12-1 日本測地系から世界測地系の変換,度分秒から度への変換 12-2 2点間の距離,方角の計算 Part 4 実践前処理 第13章 演習問題 13-1 集計分析の前処理 13-2 レコメンデーションの前処理 13-3 予測モデリングの前処理