日本語辞書リソース

Unidic

$ wc -l lex.csv
872831 lex.csv

活用形はすべて展開して、それぞれ１行のデーターとなっている。

もし頻度表が全辞書形と考えると、表層形900K/辞書形180Kと大きいとも言えるが、スマホ写真１枚分のデーターより小さいともいえる。

$ wc -l gcanna.t
137488 gcanna.t

このファイルは現代的な感覚では、4.6MBと非常に小さい。

各種情報も織り込んだBinary辞書のanthy.dicでも23MB程度。

/usr/lib/mozc/mozc_serverは、約18MBという巨大なサイズがある。

これは、辞書をプログラムないのメモリーイメージで静的内蔵しているためと推察される。でも写真数枚程度で、現代的な感覚ではメモリー常駐させるのが十分可能なサイズともいえる。

$ du -Sh .
59M
$ wc -l id.def
2652 id.def

ソース中の辞書ファイルサイズ概算59MBと６０MB近くありAnthyより１桁大ききい。品詞分類数は2652ときめ細かい。

ソース中の辞書ファイルは100K行のデーターが定義されたファイルで１０個ほどあるので、展開済み登録語彙数は約１００万語程度と見受ける。こうみてもanthy等の１０倍の単語登録がある。(ただし、Anthyは１行に複数語登録するので実際の差は小さいかもしれない。)

まあデーターが巨大なので変換精度は上がるが、リソース消費が大きく動作が重くなる懸念がある。

rikuku
- article: http://poiut.web.fc2.com/computer/sj3/sj3public.html
- BSD
- Sj3のシステム辞書(バイナリ) sj3main.dic (約３万語)
- Sj3システム辞書増補版(約９万語) visual+.dic.gz (gzipped euc-jp) (1.8MB)

SJ3はBSDなので使いやすいですね。