MENU

pandas、matplotlibの効率的な学習方法とは

Pythonによるデータ分析では、表データハンドリングライブラリのpandasや可視化ライブラリのmatplotlibがよく使われます。初めて扱うにはハードルが高く、どのようにして学ぶのが良いでしょうか。私は初歩的な内容を1つ1つgoogle検索しながらトライエラーでやっていったのですが、なかなか骨が折れる学習でした。身につくことが多かったですが、今思えばもっと効率的なやり方ができたなと思います。この記事では、初めてpandasやmatplotlibを学ぶ方に向けて、効率的な学習方法をお伝えします。以下のステップで解説していきます。

<効率的な学習方法>
Step1 できることの概要を知る
Step2  基本的な操作を網羅する 
Step3 実際で使う場面での実装の流れを知る
Step4 実践問題で試してみる

Step1 できることの概要を知る
プログラミング言語学習全般に言えますが、何ができるのかを大まかに知っておく、イメージできることは非常に重要です。後でこんなことがしたい、こうしたらできるのではないかの予想がしやすくなるメリットがあります。pandas であれば、データ行列の追加削除、データ抽出、集計、データ入出力などmatlplotlibであればであれば、棒グラフ、ヒストグラムなどの図作成ができます。教材としてはudemyやPyQで学ぶと良いでしょう。

書籍ではPython データサイエンスハンドブックが基礎的な内容がコンパクトにまとまっており、全体像をつかむには十分です。matplotlibであれば、公式ドキュメントがおすすめです。どんなことができるか、ざっと眺めておきましょう。

Step2 基本的な操作を網羅する
pandas向けですが、具体的にどれくらい操作が必要か知っておくことは大切です。データサイエンス100本ノック構造化データ加工編に取り組むがおすすめです。以下のURLから教材一式がダウンロードできます。

解けない問題は、コードの意味と構造を意識しながら、コードを写経するでも十分効果あります。一通り挑戦することに意味があります。解説本もありますので、こちらも読むと理解が深まるはずです。

Step3 実際で使う場面での実装の流れを知る
データ分析プロセスでどういう流れで使うのが効果的かを知ることが必要です。機械学習のプロセスでは、データの前処理から、データ分析、モデル構築、予測、評価考察といったような基本的な流れを理解することが必要です。
pandasはデータ前処理、分析、評価考察で使い、matplotlibは各段階の可視化で使うといったイメージです。実際のデータ分析のプロセスでやっていくには、Step2まで学んだ、何かを確認する、これをしたいということからこのコードを書くといった風につながります。こういう場面でStep2で習ったことを使うんだという意識を持つことが大切です。Python 実践データ分析100本ノックがおすすめです。

Step4 実践問題にトライ
Kaggleで、自分で一から書いてみます。書けない部分はStep1~3を復習したり、適宜調べたり、チュートリアルといってヒントや解法が解説されたドキュメント、コードがを参考にしてみたりすことで応用力が養われていきます。ご自身が分析したいデータを用意してトライすることもよいと思います。

レファレンスとして、pandasは以下の本が詳しくておすすめです。
Pythonによるデータ分析入門 NumPy、pandaを使ったデータ処理

まとめ
Pythonによるデータ分析ではよく使われるライブラリであるpandasやmatplotlibについて、おすすめの学習方法について記載しました。プログラミング学習に限らず、初めて学ぶときはできることの全体像を把握し、基本的な操作を押さえた上で実践しながら覚えていく流れが効率的で良いです。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

目次