Python で動かして学ぶ 自然言語処理入門

出版社
出版日
ページ数
304
目次
第0章 自然言語処理とは 第1部 データを準備しよう 第1章 実行環境を整えよう 1.1 実行環境の概要 1.2 実行環境の構成 1.3 Windows 10 に Ubuntu をインストールする 1.4 Linux コマンドの使い方 1.5 Ubuntu へのソフトウェアのインストール方法 1.6 Python プログラムを実行してみる 第2章 テキストデータを収集しよう 2.1 データ収集とは 2.2 Web ページのスクレイピング 2.3 テキストデータを抽出する 2.4 テキストデータのクレンジング 2.5 データ収集のプログラム 第3章 データベースに格納しよう 3.1 データベースを使った検索エンジン 3.2 データベースと検索エンジンの用途 3.3 データベースを使ってみる 3.4 Solr の設定とデータ登録 3.5 Solr を使った検索 第2部 テキストデータを解析しよう 第4章 構文解析をしよう 4.1 構文解析とは 4.2 構文解析の用途 4.3 係り受け構造とは 4.4 CaboCha のセットアップ 4.5 Python から CaboCha を呼び出そう 4.6 係り受け構造の解析結果の SQLite への格納 第5章 テキストにアノテーションを付ける 5.1 アノテーションとは 5.2 アノテーションの用途 5.3 アノテーションのデータ構造 5.4 正規表現のパターンによるテキストデータの解析 5.5 精度指標: Recall と Precision 5.6 アノテーションの SQLite への格納 5.7 正規表現の改良 5.8 チャンクを使わない抽出アルゴリズムを考える 第6章 アノテーションを可視化する 6.1 アノテーションを表示する Web アプリ 6.2 アノテーションを可視化する必要性 6.3 アノテーションツール brat 6.4 Web アプリケーション 6.5 brat を Web アプリケーションに組み込もう 6.6 SQLite からアノテーションを取得して表示する 第7章 単語の頻度を数えよう 7.1 テキストマイニングと単語の頻度 7.2 統計的手法の用途 7.3 単語の重要度と TF-IDF 7.4 文書間の類似度 7.5 言語モデルと N-gram モデル 7.6 クラスタリングと LDA 第8章 知識データを活用しよう 8.1 知識データと辞書 8.2 エンティティ 8.3 知識データを活用することでできること 8.4 SPARQL による DBpedia からの情報の呼び出し 8.5 WordNet からの同義語・上位語の取得 8.6 Word2Vec を用いた類語の取得 第3部 テキストデータを活用する Web アプリケーションを作ろう 第9章 テキストを検索しよう 9.1 Solr を使った検索 Web アプリケーション 9.2 検索の用途 9.3 転置インデックス 9.4 プログラムからの Solr の検索 9.5 Solr へのアノテーションデータの登録 9.6 検索結果の Web アプリケーションでの表示 9.7 検索時の同義語展開 9.8 アノテーションでの検索 第10章 テキストを分類しよう 10.1 テキスト分類とは 10.2 テキスト分類の用途 10.3 特徴量と特徴量抽出 10.4 ルールベースによるテキスト分類 10.5 教師あり学習によるテキスト分類 10.6 ディープラーニングによるテキスト分類 10.7 分類結果の Web アプリケーションでの表示 第11章 評判分析をしよう 11.1 評判分析とは 11.2 評判分析技術の用途 11.3 辞書を用いた特徴量抽出 11.4 TRIE を用いた辞書内語句マッチ 11.5 教師あり学習による評判分析 11.6 評判分析の結果を表示する Web アプリケーション 第12章 テキストからの情報抽出 12.1 情報抽出とは 12.2 情報抽出技術の用途 12.3 関係のアノテーション 12.4 正規表現を用いた関係抽出 12.5 係り受け構造を用いた関係抽出 12.6 抽出した関係を Solr に登録 12.7 抽出した関係を表示する Web アプリケーション 第13章 系列ラベリングに挑戦しよう 13.1 系列ラベリングとその特徴 13.2 系列ラベリングの用途 13.3 CRF (条件付き確率場) 13.4 系列ラベリング用の学習データ 13.5 CRF++ を用いた学習 13.6 CRF++ の出力のアノテーションへの変換 13.7 CRF++ で付けたアノテーションを Solr で検索する 付録 A.1 Wikipedia のダンプデータを使う A.2 PDF 、 Word ファイル、 Excel ファイルを使う
紹介( powered by openBD

本書は、Pythonでプログラミングをした経験のある読者が、
各種オープンソースソフトウェア(OSS)やライブラリを利用して、
自然言語処理を行うWebアプリケーションを作って動かし、自然言語処理を体験するための書籍です。

またその中で、自然言語処理に関連するさまざまな概念や手法、
簡単な理論についても学ぶことができ、本格的な学習の
前段階としても最適です。

本書の構成としては大きく2つの部に分かれており、
それぞれ以下のような内容を解説しています。

第1部:データの準備
●テキストデータの収集
●データベースへの格納
●検索エンジンへの登録

第2部:データの解析
●文法構造を調べる
●意味づけ
●知識データとの連係

全13章を順に追いながらWebアプリケーションを作っていくことで、
自然言語処理に関連するさまざまなテーマを学ぶことができます。