以前、MeCabのユーザー辞書に単語を追加する方法を紹介しました。
参考: MeCabでユーザー辞書を作って単語を追加する
(この記事の本題とずれますが、M1/M2チップのMacではいろんなファイルのパスが変わっているのでこちらの記事を参照される際はご注意ください。)
実際、先ほどの記事を参照してどんどん単語を追加してくと、追加したのに形態素解析結果に反映されないということがあります。というよりも、そもそもデフォルトのIPA辞書でさえ正しい単語が追加されているのにそれが使われずに誤った分割がされることがあります。
このような場合、多くのケースで単語の生起コストを修正することで対応可能です。
シンプルに、MeCabに使って欲しい単語の生起コストを下げるだけです。ただ、あまりに極端に下げてしまうと逆にその低すぎる生起コストのせいで分割すべき場合でも分割されないという事象が発生しえます。
そこで、どの程度生起コストを下げたらいい感じで分割ができるようになるのかというのを探っていこうというのがこの記事です。
例として、今回は「高等学校」って単語でテストしていきましょう。いろんな個別の高等学校の学校名が固有名詞としてIPA辞書に登録されているのに、なぜか一般名詞の「高等学校」が登録されてないのですよね。
ユーザー辞書の登録の記事に沿ってseedファイルを用意し、コストを推定すると、
高等学校,1285,1285,5078,名詞,一般,,,,,高等学校,コウトウガッコウ,コートーガッコー
となり、生起コストは5078となります。
これをコンパイルして、 sample.dic ってユーザー辞書を作っておきます。
さて、適当に例文を作って形態素解析してみましょう。
import pandas as pd
import subprocess
import MeCab
# サンプルデータ生成
sample_texts = [
"九州高等学校ゴルフ選手権",
"地元の高等学校に進学した",
"帝京高等学校のエースとして活躍",
"開成高等学校117人が現役合格",
"マンガを高等学校の授業で使う",
]
df = pd.DataFrame({"text": sample_texts})
# MeCabの辞書のパス取得
dicdir = subprocess.run(
["mecab-config", "--dicdir"],
capture_output=True,
text=True,
).stdout.strip()
sysdic = f"{dicdir}/ipadic"
# 分かち書き用のTagger
tagger_w = MeCab.Tagger(f"-O wakati -d {sysdic} -u sample.dic")
print(df["text"].apply(tagger_w.parse).str.strip())
"""
0 九州 高等 学校 ゴルフ 選手権
1 地元 の 高等 学校 に 進学 し た
2 帝京 高等 学校 の エース として 活躍
3 開成 高等 学校 117 人 が 現役 合格
4 マンガ を 高等 学校 の 授業 で 使う
Name: text, dtype: object
"""
はい、以上の最後の結果の通り、「高校」と「学校」の間にスペースが入っていてせっかく追加した「高等学校」は使われませんでした。ちなみに、Nベスト解を出すと2番目以降に登場するので、ユーザー辞書には正常に追加されています。
print(df["text"].apply(lambda x: tagger_w.parseNBest(2, x)).str.strip())
"""
0 九州 高等 学校 ゴルフ 選手権 \n九州 高等学校 ゴルフ 選手権
1 地元 の 高等 学校 に 進学 し た \n地元 の 高等学校 に 進学 し た
2 帝京 高等 学校 の エース として 活躍 \n帝京 高等学校 の エース として 活躍
3 開成 高等 学校 117 人 が 現役 合格 \n開成 高等学校 117 人 が 現役 合格
4 マンガ を 高等 学校 の 授業 で 使う \nマンガ を 高等学校 の 授業 で 使う
"""
なぜこうなるのか、というと「高等」の生起コストが924、「学校」の生起コストが1624とどちらもとても低いんですよね。両単語間の連接コストが1028ありますが、それを考慮しても、924+1624+1028=3576で、「高等学校」一単語の生起コスト5078よりも低いです。
また、「高等」は名詞,形容動詞語幹なので、前の単語との連接コストも変わってきます。
そのため、追加した「高等学校」を単語として使ってもらうためには、生起コストをモデルが推定した値そのままではなくもっと低く設定してあげる必要があります。
さて、ここからどのくらい生起コストを下げていくらにしたらいいのかを探っていきましょう。方法としては、前後の品詞の単語との組み合わせをありうる全パターン考慮して生起コスト、連接コストから計算することも可能ですが、これは極端に低い値に設定する必要が出ることもあり、逆に分割誤りを誘発することもあるので、もっと具体的に正しく分割されて欲しい例文を基準に計算するのがおすすめです。この記事では先ほど使った5文を使います。
その方法は単純で、「高等」「学校」に割れてしまう分割のコストの総和と、制約付き解析で求める「高等学校」を強制的に使った分割のコストの差分を求めてその分を調整します。
# 生起コスト+連接コストの累積だけを返すTagger
tagger_pc = MeCab.Tagger(f"-F '' -E %pc -d {sysdic} -u sample.dic")
# それの制約付き解析版
tagger_p_pc = MeCab.Tagger(f"-p -F '' -E %pc -d {sysdic} -u sample.dic")
target_word = "高等学校"
# コストの合計をそれぞれ求める
df["コスト合計"] = df["text"].apply(lambda x: tagger_pc.parse(x)).astype(int)
# 制約付きの方は、制約をつけたい単語は 単語\t* 形式に置き換えて実行
df["制約付き解析コスト合計"] = df["text"].apply(
lambda x: tagger_p_pc.parse(x.replace(target_word, f"\n{target_word}\t*\n"))
).astype(int)
# コストの差分を計算
df["コスト差分"] = df["制約付き解析コスト合計"] - df["コスト合計"]
# 結果表示
print(df)
"""
text コスト合計 制約付き解析コスト合計 コスト差分
0 九州高等学校ゴルフ選手権 6901 7495 594
1 地元の高等学校に進学した 10811 11807 996
2 帝京高等学校のエースとして活躍 15034 15484 450
3 開成高等学校117人が現役合格 40123 40138 15
4 マンガを高等学校の授業で使う 10407 12945 2538
"""
最後の例だけコスト差分がとにかく多いのは、を(助詞,格助詞,一般)と高等(名詞,形容動詞語幹)の連接コストが-1550と非常に小さいのも影響しています。
さて、これらの5文章で分割を正確にしたかったら、「高等学校」生起コストを2539下げれば大丈夫そうです。ただ、その前にちょっと実験として、996だけ小さくして、$5078-996=4082$に設定してみましょう。0,2,3番目はこれで正常に修正されるはず、4番目の文は修正されないはず、1番目はどうなるかみてみたいですね。
高等学校,1285,1285,4082,名詞,一般,,,,,高等学校,コウトウガッコウ,コートーガッコー
でユーザー辞書 sample2.dic を作ってみました。実験結果がこちら。
# 分かち書き用のTagger
tagger_w_2 = MeCab.Tagger(f"-O wakati -d {sysdic} -u sample2.dic")
print(df["text"].apply(tagger_w_2.parse).str.strip())
"""
0 九州 高等学校 ゴルフ 選手権
1 地元 の 高等 学校 に 進学 し た
2 帝京 高等学校 の エース として 活躍
3 開成 高等学校 117 人 が 現役 合格
4 マンガ を 高等 学校 の 授業 で 使う
Name: text, dtype: object
"""
ほぼ想定通りで、1番目のやつはシステム辞書の単語たちがそのまま使われましたね。もう1だけ下げる必要があったようです。
結果は省略しますが、もう一つだけコストを下げて4081にすると、1番目の文も正しく「高等学校」が単語として扱われます。
$5078-2538-1=2539$まで下げれば5文とも正しくなりますね。元のコストから見るとかなり低くしたように見えますが、「学校」の生起コストが1624なでのまぁ許容範囲でしょう。
以上の処理をメソッド化して、適切なコストを返してくれる関数を作るとしたらこんな感じでしょうか。あまり綺麗なコードじゃないのでもう少し考えたいですね。
wordで渡す引数はすでにユーザー辞書に登録済みで品詞等は判明していてあとはコスト調整だけの問題になっていることや、sentenceの中では正確に1回だけ登場することなど制約が多いのでかなり利用に注意が必要です。頻繁に必要になるようならまた改めて考えようと思います。
dicdir = subprocess.run(
["mecab-config", "--dicdir"],
capture_output=True,
text=True,
).stdout.strip()
sysdic = f"{dicdir}/ipadic"
# 単語の生起コストを出すTagger
tagger_p_c = MeCab.Tagger(f"-p -F %c -E '' -d {sysdic} -u sample.dic")
# コストの総和を出すTagger
tagger_pc = MeCab.Tagger(f"-F '' -E %pc -d {sysdic} -u sample.dic")
# 制約付き解析でコストの総和を出すTagger
tagger_p_pc = MeCab.Tagger(f"-p -F '' -E %pc -d {sysdic} -u sample.dic")
def calc_adjust_cost(word, sentence):
all_cost = int(tagger_pc.parse(sentence))
all_p_cost = int(tagger_p_pc.parse(sentence.replace(word, f"\n{word}\t*\n")))
current_cost = int(tagger_p_c.parse(f"\n{word}\t*\n"))
return current_cost - all_p_cost + all_cost - 1
calc_adjust_cost("高等学校", "マンガを高等学校の授業で使う")
# 2539
結果自体は正しそうですね。