日本語辞書リソース

Date: 2019/05/05 (initial publish), 2021/07/13 (last update)

Source: jp/note-00005.md

Previous Post Top Next Post

TOC

フリー(無償)で入手し、研究用なら制約無く使用ができる各種辞書の情報です。

Unidic

$ wc -l lex.csv
872831 lex.csv

活用形はすべて展開して、それぞれ1行のデーターとなっている。

もし頻度表が全辞書形と考えると、表層形900K/辞書形180Kと大きいとも言えるが、 スマホ写真1枚分のデーターより小さいともいえる。

canna辞書(Anthy)

$ wc -l gcanna.t
137488 gcanna.t

このファイルは現代的な感覚では、4.6MBと非常に小さい。

各種情報も織り込んだBinary辞書のanthy.dicでも23MB程度。

Mozc

/usr/lib/mozc/mozc_serverは、約18MBという巨大なサイズがある。

これは、辞書をプログラムないのメモリーイメージで静的内蔵しているためと 推察される。でも写真数枚程度で、現代的な感覚ではメモリー常駐させるのが 十分可能なサイズともいえる。

$ du -Sh .
59M
$ wc -l id.def
2652 id.def

ソース中の辞書ファイルサイズ概算59MBと60MB近くありAnthyより1桁大ききい。 品詞分類数は2652ときめ細かい。

ソース中の辞書ファイルは100K行のデーターが定義されたファイルで 10個ほどあるので、展開済み登録語彙数は約100万語程度と見受ける。 こうみてもanthy等の10倍の単語登録がある。(ただし、Anthyは1行に複数語 登録するので実際の差は小さいかもしれない。)

まあデーターが巨大なので変換精度は上がるが、リソース消費が大きく動作が重く なる懸念がある。

Jumann++

mecab-ipadic-neologd

mecab-unidic-neologd

SJ3 辞書

SJ3はBSDなので使いやすいですね。

Jdicと、リンクされた辞書情報サイト

日本語用例辞書

Previous Post Top Next Post