入門 PySpark Python と Jupyter で活用する Spark 2 エコシステム

出版日
ページ数
328
目次
序文 訳者まえがき はじめに 1章 Spark を理解する 1.1 Apache Spark とは 1.2 Spark のジョブと API 1.3 Spark 2.0 のアーキテクチャ 1.4 まとめ 2章 耐障害性分散データセット 2.1 RDD の内部動作 2.2 RDD の生成 2.3 グローバルとローカルのスコープ 2.4 変換 2.5 アクション 2.6 まとめ 3章 DataFrame 3.1 Python から RDD への通信 3.2 Catalyst オプティマイザ再び 3.3 DataFrame による PySpark の高速化 3.4 DataFrame の生成 3.5 シンプルな DataFrame のクエリ 3.6 RDD とのやりとり 3.7 DataFrame API でのクエリの実行 3.8 SQL でのクエリ 3.9 DataFrame のシナリオ ―定刻フライトのパフォーマンス 3.10 Spark Dataset API 3.11 まとめ 4章 データのモデリングの準備 4.1 重複、計測値の欠落、外れ値のチェック 4.2 データに馴染む 4.3 可視化 4.4 まとめ 5章 MLlib 5.1 MLlib パッケージの概要 5.2 データのロードと変換 5.3 データを知る 5.4 最終のデータセットの生成 5.5 幼児の生存率の予測 5.6 まとめ 6章 ML パッケージ 6.1 ML パッケージの概要 6.2 ML による乳幼児の生存確率の予測 6.3 パラメータのハイパーチューニング 6.4 PySpark ML のその他の特徴 6.5 まとめ 7章 GraphFrames 7.1 GraphFrames の紹介 7.2 GraphFrames のインストール 7.3 flights データセットの準備 7.4 グラフの構築 7.5 シンプルなクエリの実行 7.6 頂点の次数 7.7 最も経由が多い空港の計算 7.8 モチーフ 7.9 PageRank による空港ランキングの計算 7.10 最も人気のあるノンストップフライトの計算 7.11 幅優先検索の利用 7.12 D3によるフライトの可視化 7.13 まとめ 8章 TensorFrames 8.1 ディープラーニングとは何か 8.2 TensorFlow とは何か 8.3 TensorFrames 8.4 TensorFrames のクイックスタート 8.5 まとめ 9章 Blaze によるポリグロットパーシステンス 9.1 Blaze のインストール 9.2 ポリグロットパーシステンス 9.3 データの抽象化 9.4 データの処理 9.5 まとめ 10章 Structured Streaming 10.1 Spark Streaming とは何か? 10.2 Spark Streaming の必要性 10.3 Spark Streaming アプリケーションのデータフロー 10.4 DStream を使ったシンプルなストリーミングアプリケーション 10.5 グローバル集計の簡単な例 10.6 Structured Streaming 10.7 まとめ 11章 Spark アプリケーションのパッケージ化 11.1 spark-submit コマンド 11.2 プログラムによるアプリケーションのデプロイ 11.3 Databricks のジョブ 11.4 まとめ 付録A Apache Spark のインストール A.1 動作要件 A.2 Java と Python がインストールされていることの確認 A.3 Java のインストール A.4 Python のインストール A.5 PATH の確認と更新 A.6 Linux および Mac での PATH の変更 A.7 Windows での PATH の変更 A.8 Sparkのインストール A.9 MacおよびLinux A.10 Windows A.11 PySparkでのJupyter A.12 クラウドへのインストール A.13 まとめ 付録B 無料で利用できるクラウド上のSpark B.1 Databricks Community Edition B.2 Microsoft Azure HDInsightの利用 B.3 まとめ 参考文献 索引
紹介( powered by openBD

Apache SparkをPythonから使うための方法とノウハウを網羅!
PySparkとはSparkを実行するためのPython APIです。インメモリ(ソフトウェアを実行する際、使用するプログラムやデータのすべてをメモリ上に読み込み、ハードディスクなどの外部記憶装置を使わないこと)で高速に分散処理ができるフレームワークで、MLlibという機械学習ライブラリが利用できることなどから注目されています。本書は、Apache SparkをPythonから使うための方法とノウハウを書いた書籍です。