しばらくふれない間にまたど忘れしてしまったので、MeCabの出力フォーマットのメモです。
公式サイトの使い方 に書いてあります。
表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音
よくある例の「すもももももももものうち」を形態素解析してみても * が多くてわかりにくいので、
先の公式ページの説明を読んだ方が早いです。
~$ mecab
すもももももももものうち
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS
一通り例が見たい場合、*になってばかりでなかなか登場しないのが品詞細分類3ですが、
文章に地名や人名が含まれている時に登場するので、次のような文章はいかがでしょうか。
~$ mecab
渋谷で働くデータサイエンティスト
渋谷 名詞,固有名詞,地域,一般,*,*,渋谷,シブヤ,シブヤ
で 助詞,格助詞,一般,*,*,*,で,デ,デ
働く 動詞,自立,*,*,五段・カ行イ音便,基本形,働く,ハタラク,ハタラク
データ 名詞,一般,*,*,*,*,データ,データ,データ
サイエンティスト 名詞,一般,*,*,*,*,サイエンティスト,サイエンティスト,サイエンティスト
EOS
自分は表層形、品詞、原形をよく使うので、
‘\t’でsplitした結果の、index 0 が、表層形、
index 1をさらに’,’ split して、 index 0 が品詞、index 6が原型、
ってのだけ把握していればなんとかなることが多いです。
それで、適当なテキストを試しに形態素解析して、
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
と出てきて、何番目が原型だ?? となって公式サイト見に行く、ということを何度もやらかしています。