辞書ライセンス問題

Date: 2019/05/06 (initial publish), 2021/07/13 (last update)

Source: jp/note-00006.md

Previous Post Top Next Post

TOC

辞書のライセンス

V.2.x以降の現代書き言葉UniDic(旧名:unidic-mecab)および、Ver.2.2.x以降の 現代話し言葉UniDicは、完全なフリーソフトウェアになりました。 GPL/LGPL/BSD Licenseのトリプルライセンスですので、営利目的での利用模含めて 自由に行うことができます。一番良いです。

Jumann++ や mecab-ipadic-neologdは、“Apache License, Version 2.0” です。

SJ3 は BSDライセンスのようです。

ちなみに、“Apache License, Version 2.0"はGPLとのライセンスとしての互換性を改善 されているとのこと。

これらデーターベース辞書を利用して逆変換できないところまで抽出加工処理して、 特定の目的のためのデーター構造を持った内容のデーターベース辞書を 「新たなデーターベース辞書」として作った場合、そのライセンスはどうあるべきかは、 基本的に「新たなデーターベース辞書」の作成者が設定すると考えます。

そもそも辞書データーとは、元の著作権のある各種文書データーから、元文書での使用 例を参考に元の著作権の影響を受けないよう編集し新規に作成したもので、他の辞書 情報も作成の際に参考にして作成しるわけで、それでも新規性ある別の物として作成 される物です。

まず、元情報を利用条件を守って利用する必要はあります。ただ、研究調査での使用 許可等があれば、それを使って「新たなデーターベース辞書」を作成した場合、 元ファイルを同梱しない限り、「新たなデーターベース辞書」の頒布に元辞書を継承 する必要は無いと考えます。

もちろん、他者が作成した元情報が逆変換で選択抽出できる場合は、元ファイル自体 が物理的に含まれなくとも元ファイルを同梱と実質的に同じ状況ということで、 「新たなデーターベース辞書」だけではないので、元データーのライセンスの 頒布条件の回避はできません。つまり、その場合には「新たなデーターベース辞書」 も元ファイルの頒布条件を遵守をする必要があるのは言うまでもありません。

新規辞書作成を考える場合、情報源として入手した頻度情報は「事実」なので、 その物自体は排他的に所有できないと考えます。ただし、提供形態やデーター構成 には著作権があるかもしれないので、新規データー作成する際には完全に逆変換がで きないよう、作成者の新規判断と折込や・作成者が工夫した方法で他情報と組み合 わせたり・数値情報の目的に合わせた粗化処理がされるべきです。

漢字かな変換データー辞書の作成で、参照辞書の使用条件を守りながら研究用に使用し、 同音異字のpmwをひらがな表記が同じ品詞の和で抽出するとか、出現順位で抽出する とか、10倍ごとのバケット表記とする等で抽出することで、逆変換不可能にした データーとすれば、その作成されたデーターは「新たなデーターベース辞書」と考 えられ、それら抽出済みデーターをソースとして用いる限り参照辞書の頒布ライセン ス制約の対象外と考えます。

同音異字は結局何らかの少し離れたところまでの近接語効果を入れない限り、頻度だ けや文法的制約からだけでは解消しないので、同音異字の中の頻度1番以外の言葉の 以外は頻度情報は順位以外は重要ではありません。

まあ、如何にライセンスコンタミを防ぐかは微妙な問題ではあります。

Previous Post Top Next Post