Previous Post | Top | Next Post |
TOC
フリー(無償)で入手し、研究用なら制約無く使用ができる各種辞書の情報です。
Unidic
- 語彙数: 87万語 (2018-03版)
- GPL/LGPL/BSD License
- 新 UniDic 2.2GB
- 旧 UniDic
- MeCab で UniDic 辞書を使ってみる
$ wc -l lex.csv
872831 lex.csv
活用形はすべて展開して、それぞれ1行のデーターとなっている。
もし頻度表が全辞書形と考えると、表層形900K/辞書形180Kと大きいとも言えるが、 スマホ写真1枚分のデーターより小さいともいえる。
canna辞書(Anthy)
- 語彙数: 13万の読みの異なる言葉
- GPL
$ wc -l gcanna.t
137488 gcanna.t
このファイルは現代的な感覚では、4.6MBと非常に小さい。
各種情報も織り込んだBinary辞書のanthy.dicでも23MB程度。
Mozc
/usr/lib/mozc/mozc_server
は、約18MBという巨大なサイズがある。
これは、辞書をプログラムないのメモリーイメージで静的内蔵しているためと 推察される。でも写真数枚程度で、現代的な感覚ではメモリー常駐させるのが 十分可能なサイズともいえる。
$ du -Sh .
59M
$ wc -l id.def
2652 id.def
ソース中の辞書ファイルサイズ概算59MBと60MB近くありAnthyより1桁大ききい。 品詞分類数は2652ときめ細かい。
ソース中の辞書ファイルは100K行のデーターが定義されたファイルで 10個ほどあるので、展開済み登録語彙数は約100万語程度と見受ける。 こうみてもanthy等の10倍の単語登録がある。(ただし、Anthyは1行に複数語 登録するので実際の差は小さいかもしれない。)
まあデーターが巨大なので変換精度は上がるが、リソース消費が大きく動作が重く なる懸念がある。
Jumann++
- 基本語彙辞書 3万語
- WEB等含む合計 90万語
- Apache License, Version 2.0
mecab-ipadic-neologd
- 語彙数: 55万語
- https://github.com/neologd
- https://github.com/neologd/mecab-ipadic-neologd
- https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md
- http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/B6-1.pdf
- Apache License, Version 2.0
mecab-unidic-neologd
- 語彙数: 325万語
- https://github.com/neologd/mecab-unidic-neologd
- https://github.com/neologd/mecab-unidic-neologd/blob/master/README.ja.md
- Apache License, Version 2.0
SJ3 辞書
- rikuku
- article: http://poiut.web.fc2.com/computer/sj3/sj3public.html
- BSD
- Sj3のシステム辞書(バイナリ) sj3main.dic (約3万語)
- Sj3システム辞書増補版(約9万語) visual+.dic.gz (gzipped euc-jp) (1.8MB)
SJ3はBSDなので使いやすいですね。
Jdicと、リンクされた辞書情報サイト
- Online Japanese Dictionaries and Glossaries http://nihongo.monash.edu/onlinejdic.html
- 慣用句 http://buna.yorku.ca/japanese/idiom_all.html
- EDICT等はCreative Commons Attribution-ShareAlike Licence (V3.0) https://www.edrdg.org/edrdg/licence.html
日本語用例辞書
- 日本語用例辞書: https://github.com/hiroyuki-komatsu/japanese-usage-dictionary/
- BSD 2-Clause “Simplified” License
Previous Post | Top | Next Post |