[前のメッセージ (日付順)]  [次のメッセージ (日付順)]
[前のメッセージ (スレッド順)]  [次のメッセージ (スレッド順)]
[日付によるインデックス]  [スレッド・インデックス]  [記事検索]

review of mecab-skkserv -- an incredible compound-words generator



 三田です。


 形態素解析器を応用してSKK離れした変換を実現してくれるmecab-skkserv、
皆様はお試しになられましたでしょうか。

 SKKでの入力単位と今ひとつそぐわないことや、文節を切り直す指示が
出来ないことなどから、実験的なものにとどまるのではないかと思ってい
たのですが、実際に使用してみたところ、今までのSKKの弱点をかなりカ
バーしてくれる優れものであることがわかってきました。

 ここでは、mecab-skkservを補助的なSKKサーバとして用いた場合の評価
を行ってみたいと思います。

 かなり詳細に具体例を挙げていますので、御用とお急ぎの方はメールの
末尾からお読みになることをお勧めします :-)


レジュメ
========

・実例に即したmecab-skkservの性能評価(長ーいです)
・その他のmecab-skkservの諸特性
・mecab-skkservをSKKで生かすには?(お急ぎの方はここからどうぞ)
・将来的な複合語の扱い


実例に即したmecab-skkservの性能評価
===================================

 SKKが苦手とするパターンを列挙し、それらをmecab-skkservがどう変換
してくれるかを書いてゆきます。ご一読いただくと、mecab-skkservの特
性と同時に、影絵のようにしてSKKそのものの特性が浮かび上がってくる
かもしれません。

・「幾万人」――概数
・「二、三頭」――句読点の入る概数
・「三の矢」――数字入り定型表現からの派生
・「約三分の二」――複雑な数詞
・「長い長い」――畳語
・「後悔先に立たず」――ことわざ
・「雨が降る」「棒に振る」――異字同訓
・「不味っ!」――形容詞語幹 + 「っ」
・「D子」――仮名
・「田中総理」――呼称つき人名
・「カンボジア政府」――カタカナ + 漢字
・「快楽主義者」――接辞
・「解散前」――接辞2
・「入退学」――対概念をまとめた三字熟語
・「政権選択」――複合語
・「洗濯日和」――連濁する複合語
・「終売」――純粋な未知語
・「遺憾の意」――助詞入りの連語
・「読まれ方」――動詞連体形 + 「方」
・「所蔵資料確認票」――切れ目のない連結語
・「ご期待下さい」――決まり文句


「幾万人」――概数
------------------

 概数は数値変換の枠組みでも扱えず、SKKではかなり厄介な相手です。

	1いくまんにん
	1/いく万人/行く万人/幾万人/逝く万人/郁万人/
	1せんすうひゃくまい
	1/千数百枚/千数百米/千数ひゃく枚/線数百枚/選数百枚/
	1なんぜんにん
	1/難前任/何前任/なん前任/難善人/何善人/
	1なんせんにん
	1/何千人/なん千人/難千人/難専任/難選任/
	1すうびゃくにん
	1/数日ゃ国ん/数日ゃ句人/数日ゃ苦人/数日ゃ区忍/数尾ゃ国ん/
	1すうひゃくにん
	1/数百人/数ひゃく人/吸う百人/すう百人/数百忍/


 ものによってはなかなか優秀な結果です。

 doc2skk.shの際にも書いたのですが、連濁はどうも苦手のようです。た
だ、このくらいなら辞書に手を加えれば多少は改善するかも?


 ちなみに、このタイプの概数はskk-kananum.elでもある程度は解決でき
ます。

	http://gitatsu.hp.infoseek.co.jp/emacs/skk-kananum.el.gz


「二、三頭」――句読点の入る概数
--------------------------------

 句読点の入る概数はどうでしょう。

	1に、さんとう
	1/二、山東/2、山東/二、3頭/二、三頭/2、3頭/
	1に・さんとう
	1/二・3頭/二・三頭/2・3頭/2・三頭/二・3等/

 まずまずの結果です。ただ、「二、3頭」のような漢数字と洋数字の混
淆したものが先に出てしまうのは考えもので、改良の余地がありそうです。


「三の矢」――数字入り定型表現からの派生
----------------------------------------

 「二の矢、三の矢」や「二転、三転、四転に五転」のように、固定した
数値表現からエスカレートさせて作られる表現は数値変換での扱いにはあ
まり向きません。

	1さんのや
	1/去んのや/三野屋/3の矢/三の矢/三之屋/3野矢/三野矢/3の屋/三の屋/3農屋/3野家/三 農屋/三野家/さんのや/3の輻/3の箭/三の輻/三の箭/3の八/三の八/
	1さんてん
	1/3点/三点/3店/三店/3転/三転/山巓/散点/3展/三展/去ん点/3天/三天/サン展/サン店/ SUN展/SUN店/産展/産店/サン点/
	1よんてん
	1/4点/四点/4店/四店/4転/四転/よん点/4展/四展/4天/四天/寄ん点/4テン/4てん/4典/4貂/四テン/四貂/四てん/四典/

 洋数字入りのものが先に来るのは不満ですが、まあまあ満足できる順位
で出してくれました。

 かなを入れて洋数字を得たいと思う場面はあまりない気もするので、洋
数字は思い切ってmecab-skkservの辞書から除いてしまっても良いかもし
れません。設定可能になれば言うことなしです。


「約三分の二」――複雑な数詞
----------------------------

 SKKで入れるなら"Yaku> Q3bunnno2 "ですが……

	1やくさんぶんのに
	1/約3分のに/約三分のに/約3分の二/約三分の二/約3分の2/約三分の2/約3分ノに/約三 分ノに/約3分ノ二/約三分ノ二/約3分ノ2/約三分ノ2/役3分のに/役三分のに/約3文の二/約三文の二/約3文の2/約三文の2/屋久3分のに/屋久三分のに/

 4〜5番目に当たりが来ます。末尾の「に」を助詞だと思いたがってし
まうのは形態素解析器の悲しい性でしょうか。


「長い長い」――畳語
--------------------

	1ながいながい
	1/長い長い/永い長い/長い永い/長い長居/長い長井/ながい長い/長いながい/長井長い/長居長い/長いナガイ/長い永井/長居長居/永い永い/ナガイ長居/長いな害/長居長井/永井ナガイ/長 井長居/長居ナガイ/永い長居/

 「長い長い」が先頭に来たのは文句無しに素晴らしいのですが、その後
は「永い長い」「長い永い」といった有り得ない語句が来て、「永い永い」
が13番目まで落ちてしまっているのは残念。


	1ごくらくごくらく
	1/極楽極楽/極楽ご苦楽/ご苦楽極楽/極楽五苦楽/ごく楽極楽/極楽5苦楽/五苦楽極楽/5苦楽 極楽/ごく落語苦楽/極楽語苦楽/極楽御苦楽/御苦楽極楽/極楽後苦楽/五暗く極楽/極楽後暗く/5暗く極楽/ごく落後苦楽/ご蔵区極楽/極楽五暗く/極落語苦楽/
	1かんろかんろ
	1/カンロカンロ/カンロ甘呂/カンロ甘露/カンロ寒路/カンロ寒露/甘呂カンロ/甘露カンロ/甘呂寒路/甘露寒路/甘露寒露/甘呂寒露/甘露甘露/甘呂甘露/甘露甘呂/甘呂甘呂/寒露寒路/寒路 寒路/寒路寒露/寒露寒露/寒露甘露/

 「極楽極楽」は先頭、「甘露甘露」は12番目と明暗が分かれました。


	1いちまいいちまい
	1/1枚1枚/一枚1枚/1枚一枚/一枚一枚/1枚1米/一枚1米/1枚一米/1米1枚/一枚一米/ 一米1枚/1米一枚/一米一枚/1枚位置米/一枚位置米/位置米1枚/位置米一枚/1毎1枚/1枚1舞/一毎1枚/1毎一枚/
	1いっけんいっけん
	1/一見一見/一見一間/一見いっ見/一見いっけん/一間一見/いっけん一見/一見一軒/一見一件/一軒一見/一件一見/いっけん一間/一間一間/一間いっ見/一間いっけん/いっ見一見/いっけん いっ見/いっけんいっけん/いっけん一件/いっけん一軒/一間一件/

 「一」の絡む畳語。


「後悔先に立たず」――ことわざ
------------------------------

	1こうかいさきにたたず
	1/公開先に立たず/公開先にたたず/公開先に絶たず/公海先に立たず/公開先に建たず/後悔先 に立たず/黄海先に立たず/公開先に断たず/公海先にたたず/紅海先に立たず/公開先に佇たず/降灰先に立たず/後悔先にたたず/黄海先にたたず/公海先に絶たず/狡獪先に立たず/後会先に 立たず/公会先に立たず/幸海先に立たず/紅海先にたたず/
	1やすかろうわるかろう
	1/安過労悪かろう/安家老悪かろう/野洲過労悪かろう/夜須過労悪かろう/安かろう÷苅生/矢 須過労悪かろう/安かろう÷過労/野洲家老悪かろう/夜須家老悪かろう/安過労わるかろう/矢 須家老悪かろう/安かろう÷家老/やす過労悪かろう/ヤス過労悪かろう/安かろう÷刈ろう/安 家老わるかろう/ヤス家老悪かろう/やす家老悪かろう/安かろう÷穫ろう/安かろう÷駆ろう/

 こりゃ全然ダメです。この手のことわざは辞書の守備範囲でしょうか。


「雨が降る」「棒に振る」――異字同訓
------------------------------------

 「雨が振る」「棒に降る」などが出てしまうのは昔から良く知られてい
るSKK(Anthyなどもそうですが)の弱点です。

	1あめがふる
	1/雨が降る/雨が振る/雨がふる/あめが降る/あめが振る/雨がフル/あめがふる/雨が旧る/雨が古る/雨が震る/あめがフル/アメが降る/飴が降る/飴が振る/アメが振る/あめが旧る/あめが震る/あめが古る/飴がふる/アメがふる/
	1ぼうにふる
	1/棒に降る/棒に振る/棒にふる/某に降る/某に振る/坊に降る/ボウに降る/坊に振る/ボウに振る/某にふる/棒に旧る/棒に震る/棒に古る/棒にフル/ぼうに降る/暮雨に降る/防に降る/坊に ふる/ボウにふる/ぼうに振る/

 mecab-skkservも助けにはなってくれないようです。形態素解析器ベー
スであって、共起情報や格支配を考えているわけではありませんから当然
ですが。

 これに関しては、バラして入れればskk-bayesianがかなりの助けになっ
てくれます。


「不味っ!」――形容詞語幹 + 「っ」
-----------------------------------

 SKKでは、"MazuI C-h xtu!"とかなり不自然な入力を強いられます。

	1まずっ
	1/まずっ/真ずっ/魔ずっ/摩ずっ/先ずっ/不味っ/ま図っ/真図っ/魔図っ/摩図っ/
	1あつっ
	1/あつっ/あ釣っ/あ吊っ/亜つっ/亜釣っ/亜吊っ/あ突っ/暑っ/熱っ/厚っ/阿津っ/厚保っ/アツっ/篤っ/ァ突っ/亜突っ/有突っ/在突っ/あ津っ/ァつっ/
	1こわっ
	1/子わっ/故わっ/児わっ/個わっ/股わっ/こわっ/孤わっ/弧わっ/古わっ/呼わっ/鼓わっ/戸わ っ/庫わっ/湖わっ/粉わっ/来わっ/濃わっ/小わっ/凝わっ/子割っ/

 「怖っ」は6番目、「暑っ」「熱っ」「厚っ」は8〜10番目、「怖っ」
は出現せず。あまり芳しい結果ではないようです。

	1ながーい
	1/長ー委/名がー委/長ー医/名がー医/長ー位/名がー位/名賀ー委/永ー委/長ケー委/長ー意/名がー意/長ー井/長ー胃/那賀ー委/長ーい/名がー井/名がー胃/名がーい/名賀ー医/長ケー医/

 「長ーい」も15番目とふるわず。


「D子」――仮名
----------------

 ありがちな仮名などはどうでしょう。SKKでは"LD c-j Kodomo c-h"といっ
たところで、少々面倒です。

	1でぃーこ
	1/D子/D庫/d子/D粉/D児/
	1でぃーお
	1/Dお/D尾/dお/D苧/d尾/D麻/d苧/d麻/Dヲ/dヲ/D折/D雄/d折/d雄/D居/D織/d居/d織/D御/d御/
	1えーさん
	1/えー3/えー三/ええ3/ええ三/ええサン/
	1えいさん
	1/Aさん/A3/A三/aさん/永さん/
	1きゅーちゃん
	1/Qちゃん/九ちゃん/9ちゃん/旧チャン/qちゃん/旧ちゃん/急チャン/Qチャン/九チャン/ 9チャン/急ちゃん/休ちゃん/きゅうちゃん/級ちゃん/qチャン/灸ちゃん/笈ちゃん/キューちゃん/休チャン/きゅうチャン/
	1だいちゃん
	1/大ちゃん/大チャン/台ちゃん/題ちゃん/第チャン/

 ipadicに「えー /A/」を教えた方が良さそうですね。

 男性名の「D男」や「D夫」は作れませんでした。


「田中総理」――呼称つき人名
----------------------------

 肩書きなどがついた人名はSKK辞書に入れるのはそぐわないけど、入力
単位としては一語という感じが強いのではないでしょうか。

	1たなかそうり
	1/田中総理/タナカ総理/棚夏総理/田仲総理/田中沢入/
	1おぶちしゅしょう
	1/小渕首相/尾駮首相/小渕主将/尾駮主将/小渕守将/
	1おおたさん
	1/太田山/太田さん/大田さん/大田産/太田産/

 これはなかなかの好成績です。


「カンボジア政府」――カタカナ + 漢字
-------------------------------------

 それほど入力しづらいわけではありませんが、モード切り替えがちょっと面倒。

	1かんぼじあせいふ
	1/カンボジア政府/カンボジア正負/カンボジア性婦/
	1いぎりすじん
	1/イギリス人/イギリス陣/イギリスジン/
	1ぽーらんどご
	1/ポーランド語/ポーランド五/ポーランド5/
	1おふぃすらぶもの
	1/オフィスラヴもの/オフィスラヴ物/オフィスラブもの/オフィスラヴモノ/オフィスラブ物/ 

 「おふぃすらぶ」を勝手に「オフィスラヴ」にしてしまうのは困りものですが、
全体としてはかなりの成績と言えるでしょう。


「快楽主義者」――接辞
----------------------

 「主義」や「論」のつく語はほぼ確実に接尾辞「者」「的」と結び付きます。

	1かいらくしゅぎしゃ
	1/快楽主義者/海楽主義者/快楽主義車/海楽主義車/快楽主義社/
	1かいらくしゅぎてき
	1/快楽主義的/海楽主義的/海良区主義的/快楽主義敵/加イラク主義的/

	1じゅんかんろんてき
	1/循環論敵/循環論的/准看論敵/旬刊論敵/旬間論敵/旬刊論的/准看論的/旬間論的/準韓論敵/ 順間論敵/順感論敵/順官論敵/準缶論敵/準官論敵/順館論敵/準感論敵/順観論敵/純韓論敵/順 刊論敵/準韓論的/
	1じゅんかんろんてきな
	1/循環論的な/循環論敵な/旬間論的な/旬刊論的な/准看論的な/旬間論敵な/旬刊論敵な/准看 論敵な/循環論敵名/循環論的名/準韓論的な/准看論敵名/旬刊論敵名/旬間論敵名/順間論的な/準缶論的な/順感論的な/順官論的な/準官論的な/準韓論敵な/

	1りょうしろんてき
	1/両氏論敵/漁師論敵/両紙論敵/両試論的/猟師論敵/両詩論的/両至論的/両史論的/両私論的/ 両氏論的/量子論敵/料紙論敵/両市論敵/漁師論的/両紙論的/両死論敵/両市論的/料紙論的/猟 師論的/量子論的/

 「かいらくしゅぎてき」では「敵」が排除されているのに「じゅんかん
ろんてき」ではそうではないのは、「主義」は名詞、「論」は接尾辞とし
て扱われているためのようです。

 概ね結果は良好だったのですが、「りょうしろんてき」は「量子論」と
いう単語をipadicが持っていないためか悲惨な結果になりました。


「解散前」――接辞2
-------------------

	1かいさんまえ
	1/解散前/解散舞え/海山前/開山前/海産前/
	1しゅっちょうご
	1/出張後/出張五/出張語/出張5/しゅっちょう後/
	1べとなむか
	1/ベトナム化/ベトナム家/ベトナム課/ベトナム科/ベトナム下/

 これは以前skkserv2で実験されていた機能が図らずも実現した形になっ
ているかもしれません。

 特に、二字の熟語に接尾辞がついた形の語句はかなり自然に生成してく
れるので入力の手間をかなり省いてくれます。


「入退学」――対概念をまとめた三字熟語
--------------------------------------

	1にゅうしゅつこく
	1/入朱津古区/入手津国/入出国/入しゅつ国/入手津古区/
	1にゅうたいがく
	1/入隊額/入隊学/入田医学/入退学/入隊が句/



「政権選択」――複合語
----------------------

 熟れた複合語はかなりL辞書がカバーしてくれますが、それでも自ずか
ら限界があります。

	1せいけんせんたく
	1/政権選択/政権洗濯/制憲選択/政権洗たく/制憲洗濯/
	1ゆうせいかいさん
	1/郵政解散/優勢解散/郵政会3/郵政会三/優生解散/
	1さいげんじっけん
	1/際限実験/再現実験/再現実権/際限実権/際限じっ験/
	1こうかいにっし
	1/公開日誌/黄海日誌/公海日誌/紅海日誌/後悔日誌/公開日子/幸海日誌/降灰日誌/後会日誌/公会日誌/狡獪日誌/黄海日子/更改日誌/航海日誌/

 競合がなければ一発で、競合があればそれなりで変換できます。「航海
日誌」は14番目に登場しますが、こういう場合はさっさと諦めて再帰登録
してしまった方が得策でしょう。(ちなみに「航海日誌」はL辞書に収録
されています。複合語の登録は無駄にはなりません。)

 良くも悪しくもmecab-skkserv自体は一切学習しないので、常に高頻度
語同士の組み合わせが上位に来るようです。


「洗濯日和」――連濁する複合語
------------------------------

	1せんたくびより
	1/選択日より/洗濯日より/選択日寄り/洗たく日より/洗濯日寄り/選択美より/選択日ヨリ/洗 たく日寄り/選択日縒り/洗濯美より/センタ首より/洗濯日ヨリ/センタ首寄り/選択美寄り/仙田首より/仙田首寄り/選択日与里/洗濯日縒り/選択日余里/洗たく美より/
	1せんたくひより
	1/選択日和/選択ひより/洗濯日和/洗濯ひより/洗たく日和/洗たくひより/選択費より/選択比 より/洗濯費より/洗濯比より/選択費寄り/選択比寄り/洗たく費より/洗濯費寄り/選択妃より/選択日より/選択火より/洗たく比より/洗濯比寄り/選択日寄り/

 繰り返しになりますが、複合時の連濁は全くといっていいほど考慮して
くれません。

	1けっせんび
	1/決戦日/決選日/血栓日/血せん日/結線日/

 ただし、一部の接尾辞だけは最初から連濁した音で登録してあるようで
これらはカバーできます。


「終売」――純粋な未知語
------------------------

	1しゅうばい
	1/週倍/州倍/周倍/週ばい/週バイ/主奪い/州ばい/州バイ/宗倍/衆倍/シュウ倍/朱奪い/秀倍/ しゅう倍/集倍/周ばい/周バイ/週ヴァイ/週場委/州ヴァイ/
	1ひし
	1/菱/比志/秘史/皮脂/彼此/ヒシ/日市/比市/非市/妃氏/非死/日紙/火市/火紙/日氏/日誌/火氏/火誌/日史/日士/
	1うさぎにく
	1/兎肉/うさぎ肉/ウサギ肉/兔肉/菟肉/

 「終売」や「避止」といった語彙を無から創造するのは無理だったよう
です。二文字の未知語の生成は、「うさぎにく」のようなほとんど一意に
決まるものを除いてあまり期待できません。これは完全にSKK辞書側の仕
事と言えましょう。


「遺憾の意」――助詞入りの連語
------------------------------

 助詞は入るのだけれど、事実上一語として機能する語彙があります。こ
れを助詞による切断にこだわって「いかん」と「い」で入れるとかなり苦
労するのはよく知られているのではないでしょうか。

	1いかんのい
	1/遺憾の意/遺憾の井/遺憾の胃/いかんの意/遺憾の医/
	1かくせいのかん
	1/隔世の感/覚せいの缶/覚せいの韓/覚せいの官/
	1だんちょうのねん
	1/団長の念/断腸の念/団長の寝ん/団長の年/談長の念/

 意味を考えているわけではないので必ずしも先頭には来ませんが、
それでもかなり重宝します。


「読まれ方」――動詞連体形 + 「方」
-----------------------------------

 「方」の字は「かた」でも「ほう」でも一発では出にくいので厄介です。
「読み方」は"Yomi >kata"が効きますが、「読まれ方」になるとお手上げ。
全体で一つの語と見做してもよいのですが、意外とバリエーションが多い
ので辞書で扱うとしても網羅は難しいのが実情です。

	1よまれかた
	1/読まれ方/詠まれ方/読まれ肩/読まれ型/読まれかた/
	1ききかた
	1/聞方/聞き方/危機方/機器方/聴き方/きき方/危機肩/効き方/利き方/
	1つくられかた
	1/作られ方/つくられ方/造られ方/作られ肩/つくられ肩/作られ型/ツクられ方/創られ方/

 これはかなり満足のいく結果が得られました。


	1きかされるがわ
	1/聞かされる側/利かされる側/気化される側/帰化される側/
	1そだてるがわ
	1/育てる側/そだてる側/育てる皮/
	1べつのたちば
	1/別の立場/

 類例として、こういったものも一度で入力できるようになります。


「所蔵資料確認票」――切れ目のない連結語
----------------------------------------

	1しょぞうしりょうかくにんひょう
	1/所蔵資料確認表/所蔵資料確認票/所蔵史料確認表/所蔵資料確認評/
	1とうきょうだいがくりがくぶぶつりがっかそつぎょう
	1/東京大学理学部物理学科卒業/東京大学理学部物理学課卒業/TOKYO大学理学部物理学科卒業/
	1ぶっせいかがくけんきゅうじょきょうじゅしゅうにんきねんこうえんかいけっせきしゃ
	1/物性科学研究所教授就任記念後援会欠席者/物性科学研究所教授就任記念講演会欠席者/

 競合のおそれがあまりないとわかっていれば、果てしなく長い「一語」
を入力するのにも使えます。


「ご期待下さい」――決まり文句
------------------------------

 SKKの入力単位としては微妙ですが、実際のところカチコチに固まり切っ
てしまっている文や句というものもあります。

	1ごきたいください
	1/ご期待ください/ご期待下さい/五期待ください/5期待ください/五期待下さい/御期待くだ さい/5期待下さい/御期待下さい/後期待ください/碁期待ください/呉期待ください/後期待下さい/碁期待下さい/呉期待下さい/豆油期待ください/豆汁期待ください/豆汁期待下さい/豆油期待下さい/伍期待ください/語期待ください/
	1ごようしゃねがいます
	1/御用者願います/ご容赦願います/ご用者願います/誤用者願います/ご幼者願います/五葉者 願います/5葉者願います/ご用捨願います/五幼者願います/五容赦願います/5幼者願います/5容赦願います/御容赦願います/御用車願います/五様者願います/5様者願います/御用社願 います/ご用車願います/誤用車願います/御用者ねがいます/

 この手のフレーズはmecab-skkservに丸投げしてしまうのも良いのでは
と思われます。次から補完が効くのも嬉しいですし。



その他の諸特性
==============

・ okuri-ari
・ skk-auto-okuri-process
・ 数値変換・abbrev
・ 学習
・ 候補の選択
・ mecab-skkservの得意な入力単位


okuri-ari
---------

 mecab-skkservはokuri-ari変換には全く対応していません。

	1かんがえなおs
	1/考えなおs/考えな尾s/考えな雄s/考えな苧s/考え猶s/

 4を返してくれた方がまだしも親切というものかもしれません。

 もっとも、通常の方法での検索と併用すれば、これは致命的な弱点とまでは
言えないでしょう。okuri-nasi専用の補助サーバと考えれば良いわけです。

 ただ、複合動詞などを自動生成する機能自体は持っているので、なんとか
将来的にはokuri-ariとも折り合いがつくと良いのですが。

	1かなでつづける
	1/奏で続ける/かなで続ける/奏でつづける/かなでつづける/カナで続ける/かな出続ける/


 可能性としては、registdic.cgiでやっているように、okuriから送り仮
名を逆成して片っ端から叩いてみるという方法も可能かとは思われます。


skk-auto-okuri-process
----------------------

 反面、mecab-skkservは、DDSKK以外でskk-auto-okuri-processを実現し
ているとも言えます。

	1かんがえなおして
	1/考え直して/かんがえなおして/考えなおして/考えな押して/考えな推して/

 okuri-ari入力を全く使わない人にもSKK利用への道を開いてくれるかも
しれません。それが快適なものかどうかは何とも言えませんが。


数値変換・abbrev
----------------

 数値変換やabbrevにも全く対応していません。

	1cat
	1/cat/
	1#かい
	1/#会/#界/#買い/#階/#回/#貝/#買/#櫂/#下位/#皆/#怪/#下意/#介/#解/#海/#甲斐/#カイ/#歌 意/#かい/#峡/


学習
----

 mecab-skkservには基本的に学習機能は備わっていないようです。

> 少なくとも5種類の参加価値を区別できる。象徴価値・情報価値・表出
> 価値・行為者価値・共同価値である。

 この文章を入力した場合、

	1しょうちょうかち
	1/省庁勝/省庁価値/象徴勝/象徴価値/
	1じょうほうかち
	1/情報勝/情報価値/
	1ひょうしゅつかち
	1/表出勝/表出価値/

 と、「価値」を含む語で確定したことを学習してくれないので、常に
「勝」を含む語の方が先に来てしまいます。

 ただし、SKK側には「象徴価値」「情報価値」などの語が登録されるので、
次に入力する時には一発で確定できます。


	1かんがえなおして
	1/考え直して/かんがえなおして/考えなおして/考えな押して/考えな推して/

 逆に、あまりSKKにはそぐわない入力単位で入力していると、どうにも
使いようのないペアがユーザ辞書にどんどん増えてゆきます。辞書を正気
に保つためには、何らかの工夫が必要になってくるかもしれません。


 もう一つ問題になるのは、SKKのユーザ辞書やL辞書などに語が登録され
てもmecab-skkservには全く反映されないことです。「しんじ /辰司/」と
いう名前をよく使っていても、mecab-skkserv側の辞書に直接教えてやら
ない限り、

	1しんじくん
	1/晋二君/伸二君/信二君/信治君/伸次君/慎二君/伸治君/新字訓/宍道君/新治君/真司君/晋二 くん/真治君/伸二くん/審爾君/新二君/新次君/新司君/真二君/信二くん/

 という結果が変わることは決してありません。


 とりあえずですが、SKK辞書をmecab-skkservの辞書フォーマットに変換
するスクリプトを添付しておきます。

	% skk2mecab.rb .skk-jisyo >> dic.csv

 事前にipadic2skk.rbでipadicをSKK形式に変換しておけば、いたずらな
重複を防ぐことができます。

	% skkdic-expr2 .skk-jisyo - SKK-JISYO.ipadic | skk2mecab.rb >> dic.csv
	% mkmecabdic
	# cp *.me /usr/local/lib/mecab-skkserv/dic/ipadic

 ユーザ辞書追加の効果のほどについては、個人的にはなかなか良好な感
触を得ています。


候補の選択
----------

 mecab-skkservは複数の単語・文節からなる入力をも変換しますが、こ
の時の候補の選択はあくまで「全体をひとかたまりと見て」、入力した単
位全体で選択することになります。


	1ぼくはきみがすきだ
	1/僕は君が好きだ/ぼくは君が好きだ/僕はきみが好きだ/ぼくはきみが好きだ/ボクは君が好きだ/僕はキミが好きだ/ボクはきみが好きだ/ぼくはキミが好きだ/僕は気味が好きだ/僕は君がすきだ/朴は君が好きだ/ボクはキミが好きだ/ぼくは気味が好きだ/ぼくは君がすきだ/僕は黄みが好きだ/僕は黄身が好きだ/僕はきみがすきだ/朴はきみが好きだ/ぼくは黄身が好きだ/ぼくは黄みが好きだ/

 なんだかポエムです(笑)

 複合語などの場合、複数箇所で競合していると候補数は競合数の積にな
るので使い物になりませんが、それほどでもなければ他のIMと違いSKKラ
イクにあくまで単一の選択としてポンポンと選んでゆけるので、当初想像
していたよりは快適だという印象です。


mecab-skkservの得意な入力単位
-----------------------------

 このメールではSKKの入力単位に沿った形でmecab-skkservの性能評価を
してきましたが、本当はもう少し長い単位で入力した方が賢い結果になる
場合もあります。

	1てつがくより
	1/哲学より/哲学寄り/哲学縒り/哲学ヨリ/哲学与里/
	1てつがくよりのしせい
	1/哲学寄りの姿勢/哲学よりの姿勢/哲学寄りの市政/哲学よりの市政/


 ただし、「雨が降る」と「棒に振る」の例で見ましたように、HMMです
からあくまで見ているのは形態素の生成コストと品詞の連接コストだけと
思われるので、あまり長くしても必ずしも結果は改善しないようです。む
しろ、競合が複数箇所に発生して指数関数的に候補数が増えるデメリット
の方が大きくなるでしょう。

 逆に言えば、mecab-skkservにおいては、SKKの入力単位に沿うように
連接コストを見直すことで性能を向上できる可能性もありそうです。

 たとえば、EOS(終端)の前では体言よりも用言の終止形や命令形を好
む設定になっているのは自然文を解析する上では当然ですが、SKKの変換
と見た場合にはあまり有利とは言えないかもしれません。


まとめ――mecab-skkservの、SKKと整合性のある利用法
==================================================

 以上で見て来たように、mecab-skkservは

・okuri-ariに対応していない
・SKKの辞書を読まない
・形態素の解析に失敗すると手がつけられない
・文節の切り直しをさせる手段がない

 などの理由から、単独でSKKサーバとして使うにはかなり無理がありま
す。

 しかしながら、

・L辞書などの辞書、特にokuri-ari入力のために、mecab-skkserv単独で
はなく、他の一般的な検索方法と併用する
・文単位の入力はせず、SKKの入力単位としてそぐう範囲で利用する
・出力する候補数は思い切って少なくし、最初の数回で生成できなければ
潔く諦めて再帰登録する

 などと、SKKの実態に合った利用をすることで、これまでのSKKではうま
く扱えていなかった語彙や、L辞書などに収録し切れなかった複合語など
をかなりの範囲でカバーしてくれます。

 たとえば、「駅名入力用」などという言葉は間違ってもL辞書に入れよ
うとは思いませんが、これを一発で入力できるというのはかなり画期的で
はないでしょうか?


;; なお、他のサーバと併用するための方法については後ほど別途書くつ
;; もりです。


将来的な複合語の扱い
====================

 常に成功するとは限りませんが、それでもmecab-skkservは人間の作る
辞書では到底カバーできない範囲の複合語を自動で生成してくれます。

・こなれた複合語をL辞書のような辞書に追加してゆく
・個人的な需要に応じた辞書を各ユーザが(再帰登録やdoc2skk.shのよう
な方法で)育てる
・どちらでもカバーできないものをmecab-skkservのような機構が支える

 と、三方向から支援してやることで、ほぼ理想的な入力が可能になるの
ではないかと思います。ある語彙がこの3つのうちどの範疇に入るのかは、
今後の辞書編纂の方向を考えてゆく上でも重要なポイントになってくるの
ではないでしょうか。



================================================
三田祐介(key/clefs) <clefs@xxxxxxxxxxxxxx>