日本語単語頻度 (1)

Date: 2019/02/09 (initial publish), 2019/05/27 (last update)

Source: jp/note-00002.md

*** Top Next Post

TOC

BCCWJ

Unidicを用いた単語出現頻度情報

$ wc -l BCCWJ_frequencylist_*
2434722 BCCWJ_frequencylist_luw_ver1_1.tsv
 185137 BCCWJ_frequencylist_suw_ver1_1.tsv

辞書形ごとにまとめて頻度統計を行っている。

活用語の辞書形集約はあまり違和感が無かったが、要注意は固有名詞である。 人名の姓と名はカタカナ表記を辞書形(LEMMA)として集約されている。

BCCWJ短単位語彙の累積頻度

単語 頻度順位 頻度(pmw) 累積頻度
1 48383 0.048
10 21773 0.303
持つ 100 885 0.556
決まる 1000 90 0.752
胃癌 10000 5.3 0.933
阿姨 100000 0.05 0.997 (6 sample)
んふ 150000 0.01 1.000

2019-05-22: updated

BCCWJ短単位語頻度彙表とmecabのコスト値の対比

WORD rank pmw cost (mecabより)
#1 48383 -573 (固有POS対象)
#2 34188 -608 (固有POS対象)
#4 31448 -1390 (固有POS対象)
為る #8 24508 2642 (固有POS対象) *
です #16 7690 811 (固有POS対象多し)
#32 2985 937 (固有POS対象多し)
#64 1548 3808 (固有POS対象多し)
必要 #128 674 3967
現在 #256 325 2155
#512 171 6594
準備 #1024 88 3808
回す #2048 43 6516
広域 #4096 18 5149
敬意 #8191 7 4084
炒め物 #16385 2.5 6118 (使いそうな言葉多し。外来語の変換必要対象あり)
和魂 #32666 0.8 6118 (固有名詞・外来語多し、使いそうな言葉・外来語有り)
割り打ち #64790 0.19 6117 (固有名詞、難解語多し)
輪っぱ飯 #121932 0.028 6118 (固有名詞、難解語多し)
(last) #152442 0.010 (固有名詞、難解語多し)

Jumann++ の基本語彙辞書 3万語は、辞書登録の基本語彙数としていい線かも 知れない。累積で約95%の辞書形をカバーするレベル。

pmwが0.1を切ったデーターの頻度数は、サンプル集合の影響を大いに受けているよう なので、過学習防止で同一頻度扱いをしてもいい感じ。 これはRANK=#81496=辞書形8万語に絞ることに相当する。 累積で約99%の辞書形をカバーするレベル。

2019-05-07, 2019-05-22: updated

各種辞書情報

2019-05-05: ここに移動

*** Top Next Post