会員事業部の有賀(id:chezou)です。 今年一年、社内では勝手に"Jupyterの伝道師"を標榜してJupyter notebookの普及活動を展開してきました。 先日、社内でハンズオンも行ったおかげもあり、かなり社内のマシンにPython環境が構築されてきました :)
Jupyter notebookとは?
ひとことで言うとブラウザで動くすごい便利なREPL*1です。 百聞は一見にしかず、見てみましょう。
このように、Rubyの対話環境であるpryを触っているようにインタラクティブにコードを書くことができます。 以降で説明をしますが、Jupyter notebookは記録・共有・再現がとても得意です。特に図表があるときにその効果を発揮します。
Jupyter notebookの良い所
過去のコードを改変、再実行できる
セルと呼ばれる入力部分にはMarkdownやコードが記述できます。ここのコードはShift+Enterで実行可能なのですが、何度も修正して再実行することができます。 パラメータを少しずつ変えて再実行したりすることがとても容易です。 保存をしたければそれをCtrl+Sで保存すれば良いので*2、たんなるconsoleよりもコードと実行結果を後に残すことが容易です。
私も自分の主催する勉強会(kawasaki.rb)のパーフェクトRuby読書会で1年以上使っていますが、いちいちhistoryを記録に残したりする面倒がないのでとても重宝しています。
画面を切り替えずにコードを書きながらグラフの描画もできる
Jupyter notebookでは書いたコードの描画結果を埋め込むことができます。棒グラフ、折れ線グラフ、箱ひげ図など大抵のグラフが描けます。 画像はbase64 encodeされて保存されるので、notebookの中に保存することができます。
グラフ付きのnotebookを簡単に共有できる
保存したnotebookは簡単に共有することができます。 notebook自体はjson形式で保存されるのですが、Githubのレポジトリやgistに置けばグラフなどの画像とともにそのままレンダーされます。 Github Enterpriseをお使いの場合もnbviewerを使えばURLを使ったnotebookの共有ができます。
いろんな言語が実行環境としてある
Jupyter notebookはもともとPython向けのツールIPython notebookとしてスタートしたのですが、version 3.0でカーネルを分離し名前も変わりました。 これにより、各言語のカーネルを導入することでJupyter上でRuby, Julia, R, Sparkなど様々な言語が動きます。*3
SQLのメモ帳としてのJupyter notebook
サービスの改善や新機能をリリースした時には、ダッシュボードをつくる前に、TreasureDataやRedshift、BigQueryに蓄積されたログに対してSQLでアドホックに分析しますよね。
クックパッドの場合、TDとRedshiftを利用しているのですが、以前は以下の様な手順でアドホック分析をしていました。
- console/SQL clientでTD/Redshiftにクエリを実行
- 取得結果をcsvで保存
- Google spreadsheetに貼り付けてグラフ化する
- ダメだったら1に戻る
- 良いグラフが得られたら共有する
なんどもなんども2と3を往復するのが結構面倒です。
Jupyter notebookを使うと
- Jupyter notebookでクエリを実行しグラフを描き試行錯誤する
- 良い結果が得られたらnotebookを共有する
というように1ストップでできるようになります。
これは、pandasというライブラリの恩恵がとても大きいです。 pandasは、表形式のデータ構造DataFrameとグラフ描画をシームレスに扱えるライブラリです。*4 R言語でDataFrameが生まれましたが、pandasでより便利に進化しています。
pandas-tdやredshift-sqlalchemyを使うと、TDやRedshiftなどの接続も簡単にできます。実験的にBigQueryもサポートされているようです。*5
さきほどのアニメーションgifでもお見せした、Redshiftのデータを扱ったものがこちらです。 データの例としてUCI Machine Learning RepositoryからBankデータを利用しています。 結婚しているかどうかという属性ごとの預金を描画した箱ひげ図や、学歴毎による年齢と預金の散布図などが描画されています。
Jupyter Tips
環境構築
Pythonに慣れていない方は、Minicondaを使って環境構築をするのが簡単なのでおすすめです。*6私はpyenvとminicondaで環境を作るのを好んでいます。 Treasure Data社のブログが導入方法としてわかりやすいです。
慣れている方はお好きな方法で環境構築していただければと思いますが、社内で聞くとPythonに強い人はpyenvとpyenv-virtualenvwrapperを組み合わせている人が多いようです。
Redshift/TDは以下のパッケージを追加すると便利に使えます。BigQueryはpandas自身が実験的にサポートしています。
- Redshift
- redshift_sqlalchemy
- ipython-sql
- TD
- pandas-td
なお、pandas-tdはクエリを実行したらWeb consoleのURLと実行状況が出てきてとても便利です。
また、feature requestを送ったら1時間チョットで対応してくれたなど、TreasureData社が手厚くサポートしてくれています。 このリクエストのおかげで、jobの実行結果を後から取ることができるようになりました。
パスワード周り
DBに接続するためのパスワードなどは、環境変数に指定するなどして、notebookに直接埋め込まないようにしましょう。 これは、notebookを共有した時にうっかりパスワードも共有してしまうのを防ぐためです
弊社では、環境変数で管理するためにenvchainを使っています。
notebook用のディレクトリをgitで管理する
個人的なオススメの使い方としては、~/notebooks
というディレクトリを作成し、そこでJupyter notebookを起動しgitで管理することです。
こうすることで、自分用のメモを貯めては定期的にrepositoryをpushし、いい結果が見つかればそれを簡単に共有できます。
終わりに
今日はRubyKaigi 1日目ですが、Jupyter notebookはPythonistaの間だけで使われているのはもったいない!と思って紹介しました。 特にpandasはあまりPythonっぽい記法ではなく、Rubyistな方々も是非一度試してみていただければと思います。
Rubyではnyaplotやdaruなどを使えばnotebookでグラフ描画もできますが、pandasに比べるとまだまだ改善の余地は大きそうです。 こうしたグラフ描画周りや行列計算が充実していき、Rubyでも科学技術計算が盛んになることを期待しています。