郵便番号辞書(for Google 日本語入力) 2010.01.29更新版 登録方法 with 根性+忍耐


【2010/03/03】

最近、Web Socket に凝ってて、こんなの作ったのでお知らせしときますね。HTML5な時代が来たら、役に立つかも。 WebSocket版 郵便番号→住所変換

【2010/02/04】

一応、2010.01.29更新版作っておきました。

【2010/01/29】

Google日本語入力が正式に郵便番号辞書をサポートしました。これでこの「郵便番号辞書 with 根性」も歴史的使命^^?をほぼ終了することになるのかなと思います。

ほぼ、というのは、ひとつは今回Googleが実装したのは、「100-0000 → 東京都千代田区」のようにハイフンが必要なので、ハイフンなしの「郵便番号辞書 with 根性」方が高速入力が可能であることと、Google実装には読みがなの実装が無いことです。

とはいえ、「with 根性」無しでも郵便番号辞書を使えるようになったことに、根性の持続力の無い私は心から感謝したいと思います。>Googleさん有難うございます。

【2009/12/18】

Twitterとbit.lyなどなどに感謝しきれないほどの勇気と根気を頂きました、有難うございます。http://bit.ly/info/5lQtnR

【2009/12/11】 新バージョン with 根性+忍耐

手修正してた部分を自動化して、ついでに、県別×1万行×事業所別×sjis×utf8×カナ付(促音小)×カナ付(促音大)のバリエーションを、ほぼ、自動で一気に作るようにしてみました。

さらに、「507-0001」といったハイフンを入れていたのをやめて、昔作ったこれみたいにhttp://ajasql.org/sample/3/sample.htm「5070001」というハイフン抜きに変更。これで、入力が少し早くなります。あと、ページのUIは、jQueryで少しお化粧しました。(jQueryを勉強したい方はページ最下部広告の拙著をどうぞf^^)

それにしても、新しいファイルをGoogle 日本語入力へ登録するために、以前のファイルを削除しようとしたら、辞書名を選択するだけで数分フリーズ(泣、、、根性+忍耐が必要です。 【2009/12/03】

今日、GoogleのIMEが出てたので、使ってみたら、これが案外使い易い。でも、郵便番号辞書がない。じゃ作ろう。

ということで、やってみました。ちょっと、登録が大変でしたが、全部読み込んだあとも、意外に軽くて早いので使えると思います。郵便番号をサジェストで選べる軽快さもなかなか良いです

ただし、Google IME は1万語を超える単語を一度に登録できないので、1万以下に分割した13個のデータファイルでこつこつ登録するのです。ひぇえ。



※できれば、都道府県毎の分割版utf-8ファイルで、主に使いたい県だけに絞って登録するのがお薦めです(削除・修正も楽です)。

※2009/12/14 universeさんより、100個を超える辞書ファイルを登録をしようとしても登録できないという報告を頂きました。忍耐が必要ですが、やはり、古い辞書は適宜削除する必要があるようです。

この郵便番号辞書は、Toshiro Takahashiが、日本郵便の2010.01.29更新のデータをもとに作成したもので、無償で提供していますが、万が一間違いや不具合等があっても責任は取れません。町名まではほとんど大丈夫だと思いますが、急いだので番地付近が日本郵便の生データのままのため少し使いにくそうな場所もあります(^^; 予めご了承くださいm(_ _)m。

下記手順は、「1万ずつ13ファイル」のものですが、「県別47ファイル」でも同じです。また、Shift_JISで用意したのでMSIMEでも利用可能です。(しかし、バッチ使わないと根性鍛えられるなぁ)

ここから下は、古いバージョンの登録説明ですが、手順は、ほとんど同じですので掲載しておきます。
上のダウンロードタブからタイプを選んで、ダウンロードしたら、まず、解凍します。
解凍したホルダの中身はだいたい下記の通り。いくつかのファイルに分割されています。GoogleIMEは1万語以上を一度に登録できないので、1万以下に分割したデータでこつこつ登録するのです。ひぇえ。
* 県別ファイルの方は、解凍するとこんな感じ↓で県別に分かれています。
IMEの「ツール」(スパナアイコン)を選びます。
「辞書登録」を選びます。
辞書ツールが現れるので、「管理」>「新規辞書にインポート」を選びます。
「ファイルを選択」で先程解凍したファイルを選びます。
Memo : 2回目以降は、ファイル名の履歴を使ってディレクトリ探しを楽します
辞書名をファイル名(たとえば、郵便番号_20100129_1)からコピペします。
フォーマットはGoogleでもMSIMEでもどちらでも良いようにみえるのでGoogleのまま。エンコードは、utf-8版を選択した場合は初期値のまま(ここ間違えると、文字化けするよ。sjis・Shift_jis版を選んだ場合は必ず設定)
インポートを始めると3~4分ほどフリーズして(^^!完了。これを何度も繰り返すので、根気がなければできません^^;。コマンドラインでのオプションなど隠されていないかなぁ、、、。それにしてもこのツールは重すぎです。。。
これで、13ファイル全部(1万住所毎分割カナ無し版の場合)はいりました。小一時間です。ふぅ。ちなみに、削除するときは、辞書リストから辞書名を選んで右クリックからが早いみたい? 辞書名の選択時に再計算フリーズ数分!!が発生するので、「選択」は最小回数で、、、ひぇぇ~ん、、、。
しかし、サジェストで選べる郵便番号辞書は快適です(^^)。