*** | Top | Next Post |
TOC
BCCWJ
Unidicを用いた単語出現頻度情報
- 語彙調査データ: (古い)
- 『現代日本語書き言葉均衡コーパス』語彙表:(新しい)
- https://pj.ninjal.ac.jp/corpus_center/bccwj/freq-list.html (2011)
- https://pj.ninjal.ac.jp/corpus_center/bccwj/bcc-chu-suw.html (1.0E8 data, 短単位語彙表:18万語網羅、748MB)
- https://pj.ninjal.ac.jp/corpus_center/bccwj/bcc-chu-luw.html (8.3E7 data, 長単位語彙表: 243万語網羅、1GB)
$ wc -l BCCWJ_frequencylist_*
2434722 BCCWJ_frequencylist_luw_ver1_1.tsv
185137 BCCWJ_frequencylist_suw_ver1_1.tsv
辞書形ごとにまとめて頻度統計を行っている。
活用語の辞書形集約はあまり違和感が無かったが、要注意は固有名詞である。 人名の姓と名はカタカナ表記を辞書形(LEMMA)として集約されている。
BCCWJ短単位語彙の累積頻度
単語 | 頻度順位 | 頻度(pmw) | 累積頻度 |
---|---|---|---|
の | 1 | 48383 | 0.048 |
と | 10 | 21773 | 0.303 |
持つ | 100 | 885 | 0.556 |
決まる | 1000 | 90 | 0.752 |
胃癌 | 10000 | 5.3 | 0.933 |
阿姨 | 100000 | 0.05 | 0.997 (6 sample) |
んふ | 150000 | 0.01 | 1.000 |
2019-05-22: updated
BCCWJ短単位語頻度彙表とmecabのコスト値の対比
WORD | rank | pmw | cost (mecabより) |
---|---|---|---|
の | #1 | 48383 | -573 (固有POS対象) |
に | #2 | 34188 | -608 (固有POS対象) |
は | #4 | 31448 | -1390 (固有POS対象) |
為る | #8 | 24508 | 2642 (固有POS対象) * |
です | #16 | 7690 | 811 (固有POS対象多し) |
三 | #32 | 2985 | 937 (固有POS対象多し) |
時 | #64 | 1548 | 3808 (固有POS対象多し) |
必要 | #128 | 674 | 3967 |
現在 | #256 | 325 | 2155 |
料 | #512 | 171 | 6594 |
準備 | #1024 | 88 | 3808 |
回す | #2048 | 43 | 6516 |
広域 | #4096 | 18 | 5149 |
敬意 | #8191 | 7 | 4084 |
炒め物 | #16385 | 2.5 | 6118 (使いそうな言葉多し。外来語の変換必要対象あり) |
和魂 | #32666 | 0.8 | 6118 (固有名詞・外来語多し、使いそうな言葉・外来語有り) |
割り打ち | #64790 | 0.19 | 6117 (固有名詞、難解語多し) |
輪っぱ飯 | #121932 | 0.028 | 6118 (固有名詞、難解語多し) |
(last) | #152442 | 0.010 | (固有名詞、難解語多し) |
Jumann++ の基本語彙辞書 3万語は、辞書登録の基本語彙数としていい線かも 知れない。累積で約95%の辞書形をカバーするレベル。
pmwが0.1を切ったデーターの頻度数は、サンプル集合の影響を大いに受けているよう なので、過学習防止で同一頻度扱いをしてもいい感じ。 これはRANK=#81496=辞書形8万語に絞ることに相当する。 累積で約99%の辞書形をカバーするレベル。
2019-05-07, 2019-05-22: updated
各種辞書情報
*** | Top | Next Post |