アジャイルデータサイエンス - スケーラブルに構築するビッグデータアプリケーション

出版日
ページ数
236
目次
訳者まえがき はじめに I部 セットアップ 1章 理論 1.1 アジャイルビッグデータ 1.2 重要な用語の定義 1.3 アジャイルビッグデータに取り組むチーム 1.4 アジャイルビッグデータのプロセス 1.5 コードレビューとペアプログラミング 1.6 アジャイルな環境:エンジニアリングの生産性 1.7 大判のプリントアウトによるアイデアの実現 2章 データ 2.1 メール 2.2 生のデータでの作業 2.3 SQL 2.4 NoSQL 2.5 データに対する視点 2.6 まとめ 3章 アジャイルなツール群 3.1 スケーラビリティ = 単純さ 3.2 アジャイルビッグデータの処理 3.3 Python の仮想環境( virtualenv )のセットアップ 3.4 Avro を利用したイベントのシリアライズ 3.5 データの収集 3.6 Pig を使ったデータ処理 3.7 MongoDB へのデータ展開 3.8 ElasticSearch によるデータの検索 3.9 ワークフローへの反映 3.10 軽量な Web アプリケーション 3.11 データのプレゼンテーション 3.12 Bootstrap のブート 3.13 まとめ 4章 クラウドへ! 4.1 イントロダクション 4.2 GitHub 4.3 dotCloud 4.4 Amazon Web Services 4.5 MongoDB as a Service 4.6 道具立て II部 ピラミッドを登ろう 5章 レコードの収集と表示 5.1 まとめ上げる 5.2 Inbox の収集とシリアライズ 5.3 メールの処理と展開 5.4 ブラウザでのメールの表示 5.5 アジャイルのチェックポイント 5.6 メールのリスト表示 5.7 メールの検索 5.8 まとめ 6章 グラフを使ったデータのビジュアライズ 6.1 優れたグラフ 6.2 エンティティの取り出し:メールアドレス 6.3 時間のビジュアライズ 6.4 まとめ 7章 レポートによるデータの探求 7.1 複数のグラフを持つレポートの構築 7.2 レコード同士のリンク 7.3 TF-IDF を利用したメールからのキーワードの抽出 7.4 まとめ 8章 予測 8.1 メールへの返信率の予測 8.2 パーソナライズ 8.3 まとめ 9章 アクションの促進 9.1 成功するメールの特徴 9.2 単純ベイズ法による予測の向上 9.3 P (Reply | From & To) 9.4 P (Reply | Token) 9.5 リアルタイムの予測 9.6 イベントのロギング 9.7 まとめ 付録A Fluentd によるログの収集 A.1 前提 A.2 Fluentd とは A.3 Fluentd のインストール A.4 Fluentd の設定ファイル A.5 アクセスログを S3 にアップロード A.6 アプリケーションログをS3に転送 A.7 /etc/td-agent/td-agent.conf に最初から記述されているその他のプラグイン A.8 最後に 付録B Elasticsearch + Kibana によるログの可視化 B.1 Elasticsearch とは B.2 Kibana とは B.3 前提 B.4 準備 B.5 Kibana のインストール B.6 Kibana の設定 B.7 Kibana の使い方 B.8 まとめ 索引
紹介( powered by openBD

本書は、データの収集・集約・解析・レポート化をアジャイルに行うアプリケーションを構築するための考え方と方法を解説します。Python、Apache Pig、D3.jsライブラリのような軽量ツールを使い、メール受信ボックスを使ったデータマイニングを行うためサンプルアプリケーションを作成します。データを解析するためのアジャイルな環境を作る方法やツールの組み合わせ方などを解説し、さらに行いたい解析やデータの特性によって解析の手段を変更できるようにする方法も学びます。日本語版では付録としてクラスメソッドの能登諭氏と佐々木大輔氏による「Fluentdによるログの収集」と「Elasticsearch+Kibanaによるログの可視化」を追加。データの特性に対応したモデルの構築について学べる本書は、ビッグデータマイニングを実践したいエンジニア必携の一冊です。