NLP

SudachiPy でユーザ辞書を作ってみた

前回のブログでGiNZA2.0 の導入について記述した。 toohsk.hateblo.jp 形態素解析を行ったところ期待した粒度で分割されていないことがあった。 これは形態素解析を行う上で仕方ない部分であり、 こういう場合には分割されてほしくない単語をユーザ辞書で管…

GiNZA 2.0 を触ってみた。

GiNZA はmegagonlabs が開発している日本語の形態素解析器です。 フレームワークとしてspaCy をFramework として利用しています。 今日2.0 がリリースされたので、インストールとユーザ辞書について触っていきたいと思います。 前提 今回、pyenv でPython 3.…