日本語単語頻度 (2)

Date: 2019/05/27 (initial publish), 2019/05/27 (last update)

Source: jp/note-00011.md

Previous Post Top Next Post

TOC

以前書いた、Unidicを用いた単語出現頻度情報 をさらに読み込んでみた。

品詞ごとのBCCWJの表中出現語数比率

BCCWJの表中の語彙の品詞ごとの出現語数比率の高頻度部分は:

単語 頻度(%)
名詞-普通名詞-一般 48.11%
名詞-固有名詞-人名-一般 12.10%
名詞-固有名詞-地名-一般 8.25%
名詞-固有名詞-人名-名 5.80%
名詞-普通名詞-サ変可能 5.39%
動詞-一般 5.10%
名詞-固有名詞-人名-姓 4.98%
名詞-固有名詞-一般 4.52%
副詞 1.66%
名詞-普通名詞-形状詞可能 0.85%
形状詞-一般 0.74%
形容詞-一般 0.42%
接尾辞-名詞的-一般 0.36%
名詞-固有名詞-地名-国 0.28%
名詞-普通名詞-助数詞可能 0.28%
名詞-普通名詞-副詞可能 0.23%

かな漢字変換のデーターベースの辞書を辞書形をキーとして作ると、 その構成はざっくり:

ここで「形状詞」は、私が習ったころの日本の学校の国語の時間に教える 文法では「形容動詞」と言っていた「~だ」という単語の品詞です。

活用語を展開すると、口語だけで6ー8に分かれる。だから、 かな漢字変換のデーターベースの辞書を活用語を展開してて作ると、 収録語彙数は倍増し、その構成はざっくり:

活用語を展開しない辞書を使うために検索時に活用形を組み込む 複雑なロジックを導入するデメリットを考えると、辞書サイズが 辞書形で20万語程度なら、 200K3Bytes/char6文字*2(活用形展開)*2(キーと値)=14MB 程度なので悪い話ではなさそう。

現行Anthyのバイナリー辞書は、活用形展開していないで23MB程度の辞書サイズ があるがこれは用例辞書も含んでいる。

あくまで主観ですが、たとえかな漢字変換データーが50MBとなっても 現在のHW事情なら別に問題ないので、あまり細かく辞書サイズを詰める 必要はないようです。

品詞ごとのコーパス中出現語数比率

コーパス中での語彙の発現頻度(pmw)を考慮した、コーパス中での語彙の 品詞ごとの出現語数比率の高頻度部分は:

単語 頻度(%)
助詞-格助詞 17.59%
名詞-普通名詞-一般 16.87%
助動詞 9.83%
動詞-非自立可能 7.04%
名詞-普通名詞-サ変可能 6.51%
動詞-一般 6.49%
助詞-接続助詞 4.64%
助詞-係助詞 4.37%
名詞-数詞 3.94%
名詞-普通名詞-副詞可能 2.58%
接尾辞-名詞的-一般 2.38%
副詞 1.75%
名詞-普通名詞-助数詞可能 1.70%
助詞-副助詞 1.45%
代名詞 1.45%
助詞-準体助詞 1.06%

これを見ると、解析対象中の品詞の発現頻度は、名詞が辞書収録中の頻度の半分以下で 比較的少なく、一方活用する語彙の割合が全体の半分近くある感じです。

かな漢字変換プログラムのメモリー消費比較 (anthy/mozc)

VSZ   RSS   COMMAND
172056 11356 /usr/lib/ibus-mozc/ibus-engine-mozc --ibus
 83784 28736 /usr/lib/mozc/mozc_server
308136 51220 python3 /usr/share/ibus-anthy/engine/main.py --ibus

ここで、

ふーん、、、あまり詳しく見ないので間違っているかもしれないが、辞書データーを保持する デーモンも含めても、mozcのメモリー消費は意外と少ない。

Previous Post Top Next Post