・シソーラス・コロケーション検索その他

早速リディア嬢から要望があったので、早々にシソーラス・コロケーション検索を設置しました。
http://homepage3.nifty.com/diaklel/diaklel.html

あと、地味に総語彙数も右カラムに表示しておきました。
この右カラムのデータはプログラムで自動生成され、かつログが残るようになっています。

これまで@wikiでKakisさんに語彙数調査をお世話になってきましたが、これできちんと語彙数が機械的に集計できるようになりました。
日付も記録されるので、語彙数の変遷も後に遺せる仕組みになっています。

・シソーラス

シソーラスは完全一致検索です。
eならeという単語を[on]欄内に持つ単語だけを検索します。
例えばeの場合、今のところi.fが表示されます。

・コロケーション

一方、コロケーション検索は部分一致検索です。
動詞の場合活用しますし、リュディア語では曲用もあります。なので部分一致にしました。
自動的に単語に分けて完全一致にするのはシソーラスと同じでできるのですが、屈折のことを考えるとかえって不便だなと思い、部分一致検索にしました。

例えばkuiという単語を含むものを検索したとき、kuitは表示されません。
リュディア語などはさらに絶望的になります。
しかし部分一致ならkuiでもkuitがひっかかります。

この欠点は、kaiで引いたときにkaile kaldaizなども引いてしまうことです。
ただ、それは" kai"のようにスペースを入れて検索するというような工夫でおおむねカバーできます。
なので総合的には部分一致に軍配、というわけです。

なお、シソーラスもコロケーションも本文の途中にあるので、すぐ分かるようタグを強調しておきました。
検索語ではなくタグを強調したのは、その機会にほかのコロケーションにも目を通してほしいからです。

昔、辞書学か何かの本で読みましたが、電子辞書はアクセシビリティが高い反面、検索語以外は見ない傾向があるそうです。
紙の辞書だと前後の項に興味を惹かれて読んでみたら思いもかけず知識が広まったということがあったのですが、電子データではその機会が減ったとのことです。
関係ない項を出すのはともかく、同じ単語のコロケーション同士なら広げていってもかまわないし、むしろそのほうが勉強になると思い、タグを強調することにしました。

・その他

コンポーネントをこれ以上ごちゃごちゃさせたくないので、機能はここまでにしておこうと思います。
幻日並にあれこれボタンやチェックボックスがあるとかえって使いにくいです。
ただでさえ全文アルカでユーザーはあっぷあっぷなのに……。

なお、現在は見出し語も本文も部分一致検索です。
幻日と異なり、完全一致は不要と判断しました。

「海」ってアルカでなんていうんだろうなという場合に検索ノイズを払うために訳語検索を設けました。
訳語検索で「手」を引くと「歌手」のように「手」と関係ないものまで含まれました。
それをカットするための完全一致検索でしたが、dkは一言語辞典なのでそういう使い方をしません。

となるとあとは見出し語と本文ですが、本文を完全一致というのはありえないですよね。
ユーザーは何行検索窓に執筆するつもりですかw

残るは見出し語です。alと引くとmalなども出てきます。
ただ、alと引いたとき、検索語のalはどのみち先頭に出てくるので、malが後続しても別に問題はありません。
我々が紙の辞書を引く時に前後の項が見えるのと同じことで、さらにいえばこれはPDICなどでも同様です。

「しかしそれではalに完全に一致する単語数が調べられないではないか」と思うかもしれませんが、
見出し語に完全一致するのは一語に決まってるじゃないですかw
ないし同音異義語でも数語。
というわけで、語彙カウントにも役立たないので、見出し語の完全一致も不要ということになります。

となればオンライン幻日を複雑にしている「あいまい検索」チェックボタンをカットできるわけです。
これでコンポーネントがシンプルになりました。わーい☆ミ