2010年10月08日

chasenのユーザ辞書作成

結構、手こずったので、まとめておく。

ググると古目の情報が多いのが、混乱を招いている。
 まず、ubuntuでchasenをインストールすると、naist-jdic-utf8がデフォで入るはずなので、基本的はutf8を利用している。ネット上の情報だと、utf8に変換する作業やらも含まれており、辞書の場所などがfedora、windowsで様々で…orz
 本来の辞書と、追加した辞書はマージしたくないので、デフォの辞書は触らないというポリシーで。

【作業内容】
事前の作業 /etc/chasenrcをホームにコピー。
$ cp /etc/chasenrc ~/.chasenrc

1. /home/dic/user.dicを作成。自分の辞書を作成する。
 ただし、記述方法は、/usr/share/chasen/dic/naist-jdic-utf8/naist-jdic.dicでも参考にすると解りやすい。正確にはgrammer.chaを参考に。
 参考サイトに Chasen辞書を作る と 辞書定義ファイルのフォーマット を見つけた。

2. makedaを実行して辞書ファイルをコンパイルするのだが、デフォではパスが通っていない。フルパスで実行。
$ /usr/lib/chasen/makeda -i w user *.dic

複数のユーザ辞書を作成しても良いので…。*.dicとした。
ちなみに、-i w オプションはutf8で書いた辞書を意味する。はじめこの指定をしなかったため、エラーで苦戦。

3. 最初に作成しておいた、.chasenrcを編集(一度行えばOK)
;;;
;;; dictionary /辞書
;;;
(DADIC chadic /home/ユーザ名/dic/naist-jdic-utf8/user)

個人的には、連続した数字がバラけるのは気持ち悪いので、
;;;
;;; composit POSs /連結品詞
;;;
;(連結品詞 ((名詞 数))
; ((記号 アルファベット)))
(COMPOSIT_POS ((名詞 数))
((記号 アルファベット)))

ここもコメントを外しておいた。

あとは、実際にテストすれば確認できるはず。
ラベル:ubuntu
posted by baniko at 10:49| Comment(0) | TrackBack(0) | Linux | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。