KAKASI の辞書 KAKASI では多くの public な辞書を使用することができます。ここではそれら の辞書の使用方法について紹介します。 kakasi が読む辞書は全て mkkanwa でも読むことができます。頻繁に使う場合 には mkkanwa で基礎辞書として登録しておく方がいいでしょう。 ○ 辞書フォーマット SKK 型の辞書と標準的な辞書の双方が使えます。 ・ SKK 型 よみ /漢字1/漢字2/漢字3/漢字4/漢字5/ ・ 標準型 よみ[, \n\t][, \n\t]*漢字[, \n\t]* 行の先頭が全角ひらがなか全角カタカナで始まっていない場合は無視します。 なお、自動判別の関係で漢字コードは JIS と EUC のみが使えます。SJIS の場 合には附属の atoc-conv を用いて変換する必要があります。この場合には半角 カナがあれば全角のカナに変換されるので汎用性はあると思います。 ○ 利用可能な辞書 以下に過去に junet 上でポストされた辞書の使いかたと簡単な紹介です。 1. SKK 形式辞書 SKK-JISYO.L KAKASI の基本辞書です。(>70000 超) SKK の配布に含まれています。 これらの辞書はそのまま使えます。SKK-JISYO.M SKK-JISYO.S は SKK-JISYO.L に含まれていますので KAKASI では必要あり ません。また SKK-JISYO.JIS2 は使わないでください。 KAKASI 2.2 に附属している kakasidict は SKK-JISYO.L を含 んでいます。 2. wnn 附属の pubdic その他の wnn 形式の辞書 ASCII 形式に直せば KAKASI はそのまま読むことができます。 dtoa wnndic > ascdic kakasi -JH .. ascdic > output 3. I-dic v 4.0.0 アイドルを中心とした有名人および固有名詞・地名等 i-dic-1 : 人名 (フルネーム) (6606 項目) i-dic-2 : 性、名、その他 (7002 項目) そのまま使えます。 4. r-dic v 2.0.0 鉄道に関する様々な名称などを含んだデータや用語を収録 以下の辞書が使用できます。 corp : 会社名データ ( 2241 項目) line : 線名データ ( 1250 項目) station : 駅名データ (12354 項目) car : 車輛名データ ( 236 項目) train : 列車名データ ( 1152 項目) gengyou : 現業機関データ ( 1019 項目) other : 関連用語集データ ( 3667 項目) なお type と lunch は使用できません。 r-dic は行の先頭に分類番号が含まれるので、あらかじめ KAKASI に附属の rdic-conv を使用して変換する必要があります。 例 rdic-conv corp line station car train gengyou other > rail.dic 5. S-dic v1.0 (お相撲辞書) makuuchi : 力士の情報 (387 項目) yaku : 力士の情報 (249 項目) oyakata : 親方名 (152 項目) hito : 相撲に関係の深い人の名前 ( 45 項目) yougo : 相撲の決まり手, 相撲独特の単語 (307 項目) 上記の辞書をそのまま、もしくはインストール時にできる s-dic (1080 項目) のいずれもそのまま使用できます。 6. okinawa-dic (沖縄の人名, 地名) 辞書部分を JIS もしくは EUC に保存してください。(1193 項目) そのまま使えます。 7. P-dic v2.10 主に日本の団体に所属している(していた)プロレスラーおよびプロレス関係 者の人名、さらにプロレス技などのプロレス固有の用語 p-dic-1 : レスラー人名、関係者名、ニックネーム、軍団名など ( 473 項目) p-dic-2 : 主にプロレス用語 (1381 項目) p-dic-3 : レスラー、関係者などの姓、および名 ( 555 項目) そのまま使えます。 8. me-dic 医療用語辞書 (9182 項目) EUC もしくは JIS でそのまま使えます。 9. その他 詳しくは知らないのですが、atok 等の辞書を変換して次のような形にでき れば、KAKASI に附属の atoc-conv を用いて辞書が作成できます。 ヨミ,漢字,...... ^^^^ ここは半角カナ、漢字はシフトJISで書かれているのが条件です。