[前のメッセージ (日付順)]  [次のメッセージ (日付順)]
[前のメッセージ (スレッド順)]  [次のメッセージ (スレッド順)]
[日付によるインデックス]  [スレッド・インデックス]  [記事検索]

SKK-JISYO.jinmei sorting in order of frequency



三田です。



以前の予告通り、手作業でL辞書のエントリを並べ替えていて気がついたので
すが、同音の語が大量にあって厄介なものとして単漢字の他に人名もあります。

単漢字や普通名詞については機能性を重視しなければならないのですが、人名
に関しては頻度による単純なソートが有効なのではないかと考え、実施してみ
ました。

- jinmei辞書の現在の配列は "in no particular order" であり、
- サーチエンジンでの頻度は現実での頻度を反映している

という(いささか乱暴な)仮定の下、

- 「見出し」と「単語」の両方をキーとして goo で件数を調べ、
-  0件のものは事故の可能性があるのでもう一度調べ、
- 例外として、ひらがな・カタカナのみの名前は 0件と見做し、
- 件数によってソートしました。


具体例を挙げて説明します。

(before)
なおこ /直子;人名/菜穂子;人名/尚子;人名/奈緒子;人名/奈生子;人名/菜生子;人名/菜百子;人名/奈央子;人名/奈穂子;人名/楠房子;人名/ナオコ;人名/菜穗子;人名/真子;人名/忠子;人名/直穂子;人名/奈保子;人名/菜桜子;名/

(after) * コミットする辞書では [ヒット数] は取り除いてあります
なおこ /直子;人名,[3440]/尚子;人名,[2040]/真子;人名,[682]/奈緒子;人名,[638]/菜穂子;人名,[375]/奈保子;人名,[356]/奈央子;人名,[195]/奈生子;人名,[158]/菜桜子;名,[111]/奈穂子;人名,[86]/菜生子;人名,[77]/忠子;人名,[12]/楠房子;人名,[1]/直穂子;人名,[1]/菜穗子;人名,[0]/菜百子;人名,[0]/ナオコ;人名,[419]/


「真子」が大きく浮上する一方で、「菜百子」は後退しています。
また、「ナオコ」はカタカナなので最下位になっています。
;; 「なおこ 真子」のヒット数は少々意外でしたが、実際に検索結果を眺め
;; てみると本当に沢山いらっしゃるようです

読み・漢字の両方をキーにするとサンプル数が不十分になってしまうのではと
心配しましたが、人名は読みを併記することが多いからでしょうか、結果を見
ると概ね良好な数字が得られているようです。
;; 読み仮名の必要な名前の方がヒット数が多くなる可能性はありますが

人名を入力する時にスペースバー等を叩く回数の期待値を引き下げられるので
はないかと期待しています。


ただ、L辞書とjinmei辞書を併用した場合、L辞書の登録順によってshadowされ
てしまうので、効果はかなり減殺されてしまいます。
L辞書の人名エントリもソートしたいところですが、こちらは普通名詞等と混
淆していたりして機械的にとはいかないようです。

(「なおこ」 in L辞書)
なおこ /菜桜子/直子/奈保子/尚子/菜生子/奈央子/奈緒子/



人名の配列方法としては、頻度順の他に文字コード順も考えられます。
この場合、似た字の名前が並ぶので探しやすいというメリットがあります。

(文字コード順による整序例)
なおこ /菜桜子;名/菜生子;人名/菜百子;人名/菜穂子;人名/菜穗子;人名/尚子;人名/真子;人名/忠子;人名/直子;人名/直穂子;人名/奈央子;人名/奈緒子;人名/奈生子;人名/奈保子;人名/奈穂子;人名/楠房子;人名/ナオコ;人名/


あと、せっかく人名のヒット数を調べたので、ついでに頻度の高い人名をL辞
書に加えたり、逆に頻度の低い人名をL辞書から削除したりしようかなどとも
考えています。(L辞書にあってjinmei辞書にない人名も結構あります)

ひとまず、単純にヒット数順にソートしたものをコミットしますので、皆様の
ご意見を頂ければ幸いです。
;; 差分は2395行あるのでChangeLogには貼っていません。
;; cvs diff -r 1.69 -r 1.70 SKK-JISYO.jinmei



================================================
三田祐介(key/clefs) <clefs@xxxxxxxxxxxxxx>