Python
この記事はZenn.devで書いた記事です。 Summary Airflow のdag とtask には、doc_mdというものがあるよ。 これを使えばタスクの定義や目的をみんな大好きMarkdown形式で記述することができるよ。 今回は、Airflow==1.10.12を使ってるけど、Airflow<=1.10.1か…
Python のNumpy array やList オブジェクトのコピーで気をつけたいところの忘備録をブログにしました。 スライス操作による違いも試してみているので、ぜひ一読ください。
前回のブログでGiNZA2.0 の導入について記述した。 toohsk.hateblo.jp 形態素解析を行ったところ期待した粒度で分割されていないことがあった。 これは形態素解析を行う上で仕方ない部分であり、 こういう場合には分割されてほしくない単語をユーザ辞書で管…
GiNZA はmegagonlabs が開発している日本語の形態素解析器です。 フレームワークとしてspaCy をFramework として利用しています。 今日2.0 がリリースされたので、インストールとユーザ辞書について触っていきたいと思います。 前提 今回、pyenv でPython 3.…
内容 DataFrame で histogram を描画したときの x, y 軸のスケールの表示を調整する方法について、ハマったのでメモとして残しておきます。 TL;DR DataFrame から直接 df.hist とするのではなく、 一度、 df.plot で matplotlib.axes._subplots.AxesSubplot …
概要 圧縮されたファイルを Pandas DataFrame で読み込むための手順を紹介する。 毎回解凍してから読み込みをしていたのを、圧縮したまま読み込めたので、忘備録として残す。 今回は gzip 圧縮した前提で記載します。 内容 すごくシンプルだったので、まずコ…
簡単な変更でしたが、OSS に Contribute しました。 github.com 内容と所感 内容はドキュメントに favicon.ico を追加しただけという…笑 実は OSS にコミットという点で言えば、初めてのコミットだった。 しかも、今日初めて読むプロジェクトに Sphinx とい…
Jenkinsで実行ログをリアルタイムで確認したい Jenkis ではジョブの実行ログをリアルタイムに確認することができる。 しかし、 ( Python ではスクリプト言語のため)、処理を高速化するために標準出力をバッファしてまとめて出力する。 なので、 Jenkins で…