Previous Post | Top | Next Post |
TOC
以前書いた、Unidicを用いた単語出現頻度情報 をさらに読み込んでみた。
品詞ごとのBCCWJの表中出現語数比率
BCCWJの表中の語彙の品詞ごとの出現語数比率の高頻度部分は:
単語 | 頻度(%) |
---|---|
名詞-普通名詞-一般 | 48.11% |
名詞-固有名詞-人名-一般 | 12.10% |
名詞-固有名詞-地名-一般 | 8.25% |
名詞-固有名詞-人名-名 | 5.80% |
名詞-普通名詞-サ変可能 | 5.39% |
動詞-一般 | 5.10% |
名詞-固有名詞-人名-姓 | 4.98% |
名詞-固有名詞-一般 | 4.52% |
副詞 | 1.66% |
名詞-普通名詞-形状詞可能 | 0.85% |
形状詞-一般 | 0.74% |
形容詞-一般 | 0.42% |
接尾辞-名詞的-一般 | 0.36% |
名詞-固有名詞-地名-国 | 0.28% |
名詞-普通名詞-助数詞可能 | 0.28% |
名詞-普通名詞-副詞可能 | 0.23% |
かな漢字変換のデーターベースの辞書を辞書形をキーとして作ると、 その構成はざっくり:
- 「名詞-普通名詞-一般」が、約50%です。
- 「名詞-固有名詞」等が、30%です。
- 活用語は、コアの「動詞」、「形状詞」、「形容詞」等が約8%ぐらい、 これに「名詞-普通名詞-サ変可能」等が約7%ほどあるのを加えると、 合わせて約15%です
- 残りは約5%です。
ここで「形状詞」は、私が習ったころの日本の学校の国語の時間に教える 文法では「形容動詞」と言っていた「~だ」という単語の品詞です。
活用語を展開すると、口語だけで6ー8に分かれる。だから、 かな漢字変換のデーターベースの辞書を活用語を展開してて作ると、 収録語彙数は倍増し、その構成はざっくり:
- 「名詞-普通名詞-一般」が、約30%です。
- 「名詞-固有名詞」等が、18%です。
- 活用語は、合わせて約50%です
- 残りは約3%です。
活用語を展開しない辞書を使うために検索時に活用形を組み込む 複雑なロジックを導入するデメリットを考えると、辞書サイズが 辞書形で20万語程度なら、 200K3Bytes/char6文字*2(活用形展開)*2(キーと値)=14MB 程度なので悪い話ではなさそう。
現行Anthyのバイナリー辞書は、活用形展開していないで23MB程度の辞書サイズ があるがこれは用例辞書も含んでいる。
あくまで主観ですが、たとえかな漢字変換データーが50MBとなっても 現在のHW事情なら別に問題ないので、あまり細かく辞書サイズを詰める 必要はないようです。
品詞ごとのコーパス中出現語数比率
コーパス中での語彙の発現頻度(pmw)を考慮した、コーパス中での語彙の 品詞ごとの出現語数比率の高頻度部分は:
単語 | 頻度(%) |
---|---|
助詞-格助詞 | 17.59% |
名詞-普通名詞-一般 | 16.87% |
助動詞 | 9.83% |
動詞-非自立可能 | 7.04% |
名詞-普通名詞-サ変可能 | 6.51% |
動詞-一般 | 6.49% |
助詞-接続助詞 | 4.64% |
助詞-係助詞 | 4.37% |
名詞-数詞 | 3.94% |
名詞-普通名詞-副詞可能 | 2.58% |
接尾辞-名詞的-一般 | 2.38% |
副詞 | 1.75% |
名詞-普通名詞-助数詞可能 | 1.70% |
助詞-副助詞 | 1.45% |
代名詞 | 1.45% |
助詞-準体助詞 | 1.06% |
これを見ると、解析対象中の品詞の発現頻度は、名詞が辞書収録中の頻度の半分以下で 比較的少なく、一方活用する語彙の割合が全体の半分近くある感じです。
かな漢字変換プログラムのメモリー消費比較 (anthy/mozc)
VSZ RSS COMMAND
172056 11356 /usr/lib/ibus-mozc/ibus-engine-mozc --ibus
83784 28736 /usr/lib/mozc/mozc_server
308136 51220 python3 /usr/share/ibus-anthy/engine/main.py --ibus
ここで、
- VSS(psコマンドではVSZと表現される)はプロセスがアクセスできるアドレスの総和である。
- RSSはプロセスが実際に使用しているRAMの総メモリ量である。
ふーん、、、あまり詳しく見ないので間違っているかもしれないが、辞書データーを保持する
デーモンも含めても、mozc
のメモリー消費は意外と少ない。
Previous Post | Top | Next Post |