・人工言語の辞書に必要な語彙2
人工言語の辞書に必要な語彙の続き。
言語学大辞典で語彙量について調べたが、思うようなデータが得られない。
参考までにウィキを載せておくと、このようになっている。
参考までにウィキを載せておくと、このようになっている。
語彙の総量を「語彙量」という。満年齢で6歳になる子どもの場合、理解語彙の総量は、およそ5000〜6000語ほど。13歳では3万語前後。20歳ではおよそ4万5000〜50000語ほどという調査結果が出ている[1]。
小型の国語辞書に収載されている語彙量は、およそ6万〜10万語程度である。
文学作品では、「源氏物語」の語彙量は、延べ語数で20万7808語、異なり語数で1万1423語と数えられている[2]。なお、延べ語数とは、同じ語が複数あった場合、その出現回数だけ数えた数値。異なり語数とは、同じ語が何度出てきても1と数えた数値である。
各語の90%以上を理解しようとする場合、フランス語が約2000語、英語が3000語、ドイツ語が約5000語、日本語が10000語と言われている[要出典]。
小型の国語辞書に収載されている語彙量は、およそ6万〜10万語程度である。
文学作品では、「源氏物語」の語彙量は、延べ語数で20万7808語、異なり語数で1万1423語と数えられている[2]。なお、延べ語数とは、同じ語が複数あった場合、その出現回数だけ数えた数値。異なり語数とは、同じ語が何度出てきても1と数えた数値である。
各語の90%以上を理解しようとする場合、フランス語が約2000語、英語が3000語、ドイツ語が約5000語、日本語が10000語と言われている[要出典]。
理解語彙
このデータには疑問がある。
小型の国語辞典が6万程度だとしたら、成人の私はそのほとんどを見て理解できることになる。
ところが実際我が家の国語辞典を見ても、知らない言葉が多い。この理解語彙はどうやって計ったのだろうか?
小型の国語辞典が6万程度だとしたら、成人の私はそのほとんどを見て理解できることになる。
ところが実際我が家の国語辞典を見ても、知らない言葉が多い。この理解語彙はどうやって計ったのだろうか?
理解語彙というのは非常に曖昧である。
例えば「りんご」は分かる。「ジュース」も分かる。だから「りんごジュース」なるものが売られれば、それが何であるか理解できる。
同じく、マンゴーとゼリーを組み合わせたマンゴーゼリーを理解できる。
しかし辞書はこうした単純な合成語を載せているとキリがないので、通常省く。
例えば「りんご」は分かる。「ジュース」も分かる。だから「りんごジュース」なるものが売られれば、それが何であるか理解できる。
同じく、マンゴーとゼリーを組み合わせたマンゴーゼリーを理解できる。
しかし辞書はこうした単純な合成語を載せているとキリがないので、通常省く。
マンゴーゼリーなども加えてよいのなら、我々の理解語彙はほぼ無限に増える。
どのようなデータを使うかによって、理解語彙などどうとでも変わる。
大日本国語辞典を使って、収録語すべて意味が分かるかテストしたほうが、客観的な理解語彙が計れるだろう。
しかしそれは大変すぎてそんなこと現実にはできない。
どのようなデータを使うかによって、理解語彙などどうとでも変わる。
大日本国語辞典を使って、収録語すべて意味が分かるかテストしたほうが、客観的な理解語彙が計れるだろう。
しかしそれは大変すぎてそんなこと現実にはできない。
異なり語数
源氏物語の異なり語数が約1万とのことだが、これはしっくり来る。
大体日常生活を書いていればこんなものだろう。
大体日常生活を書いていればこんなものだろう。
一方、科学について百科事典などを書けば当然異なり語数は増えるだろう。
科学など、専門用語は人によって使うか使わないかの差が激しいので、人工言語総論として必要な語彙とはいえない。
誰もが学校で習うような公共性の高い知識を除いて、こうした学問の語彙は必要な語彙に含めないほうがよさそうである。
科学など、専門用語は人によって使うか使わないかの差が激しいので、人工言語総論として必要な語彙とはいえない。
誰もが学校で習うような公共性の高い知識を除いて、こうした学問の語彙は必要な語彙に含めないほうがよさそうである。
カバー率
カバー率はフランス語が高いのが有名だが、これは理由がふたつある。
まず、フランス語は基礎語彙の語義が広い。
例えばmettreで「置く」だけでなく「着る」「かぶる」などの意味がある。
このせいで、確かにカバー率は高い。
例えばmettreで「置く」だけでなく「着る」「かぶる」などの意味がある。
このせいで、確かにカバー率は高い。
だが、それ以上にカバー率を高くしているのは合成語の少なさである。
恐らくカバー率調査は単語だけで行っており、句は含めない。
カフェオレは日本語では1語とカウントし、フランス語では3語とカウントしているのではないか。ポトフも同様。
恐らくカバー率調査は単語だけで行っており、句は含めない。
カフェオレは日本語では1語とカウントし、フランス語では3語とカウントしているのではないか。ポトフも同様。
また、日本語では漢語の合成語になるところを、フランス語ではしばしば成句で表現する。
rendre compte deは「報告」でカウントされるだろうし、se rendre compte deだと「気付く」でカウントされるだろう。
原義的に言えば「計算結果を返す」から「報告」になる。そして「自分に計算結果を返す」から「気付く」になる。
フランス語もフランス語で巧く表現している。が、フランス語では成句で表現されるので、カウントされない。
rendre compte deは「報告」でカウントされるだろうし、se rendre compte deだと「気付く」でカウントされるだろう。
原義的に言えば「計算結果を返す」から「報告」になる。そして「自分に計算結果を返す」から「気付く」になる。
フランス語もフランス語で巧く表現している。が、フランス語では成句で表現されるので、カウントされない。
なので、カバー率が低いといっても単純語や合成語を用いて表現しがちな言語か否かという違いにすぎず、カバー率が低い言語が楽ということにはならない。
だから本当のカバー率というのは、概念単位で見るべきなのだ。
転換動詞は別個にカウントし、多義語も別個にカウントする。成句もだ。
だから本当のカバー率というのは、概念単位で見るべきなのだ。
転換動詞は別個にカウントし、多義語も別個にカウントする。成句もだ。
こうして本当のカバー率を出すと、恐らくどの言語も大差なくなる。
が、その数値こそが、「本当にある言語の内容を90%理解するために覚えねばならない量」を指すのではないか。
人工言語もこの「量」を念頭に置いて作るべきではないだろうか。
が、その数値こそが、「本当にある言語の内容を90%理解するために覚えねばならない量」を指すのではないか。
人工言語もこの「量」を念頭に置いて作るべきではないだろうか。