Python

SudachiPy でユーザ辞書を作ってみた

前回のブログでGiNZA2.0 の導入について記述した。 toohsk.hateblo.jp 形態素解析を行ったところ期待した粒度で分割されていないことがあった。 これは形態素解析を行う上で仕方ない部分であり、 こういう場合には分割されてほしくない単語をユーザ辞書で管…

GiNZA 2.0 を触ってみた。

GiNZA はmegagonlabs が開発している日本語の形態素解析器です。 フレームワークとしてspaCy をFramework として利用しています。 今日2.0 がリリースされたので、インストールとユーザ辞書について触っていきたいと思います。 前提 今回、pyenv でPython 3.…

Pandas DataFrame のX軸の単位を調整する

内容 DataFrame で histogram を描画したときの x, y 軸のスケールの表示を調整する方法について、ハマったのでメモとして残しておきます。 TL;DR DataFrame から直接 df.hist とするのではなく、 一度、 df.plot で matplotlib.axes._subplots.AxesSubplot …

Pandas DataFrame で圧縮したデータファイルを読み込む

概要 圧縮されたファイルを Pandas DataFrame で読み込むための手順を紹介する。 毎回解凍してから読み込みをしていたのを、圧縮したまま読み込めたので、忘備録として残す。 今回は gzip 圧縮した前提で記載します。 内容 すごくシンプルだったので、まずコ…

OSS に Contribute しました

簡単な変更でしたが、OSS に Contribute しました。 github.com 内容と所感 内容はドキュメントに favicon.ico を追加しただけという…笑 実は OSS にコミットという点で言えば、初めてのコミットだった。 しかも、今日初めて読むプロジェクトに Sphinx とい…

Python で標準出力をリアルタイムに出力する方法

Jenkinsで実行ログをリアルタイムで確認したい Jenkis ではジョブの実行ログをリアルタイムに確認することができる。 しかし、 ( Python ではスクリプト言語のため)、処理を高速化するために標準出力をバッファしてまとめて出力する。 なので、 Jenkins で…