PDICユーザからの要望に応じて英辞郎のデータ仕様を一部変更しました。
その要望とは・・・
多義語(または多品詞語)に文例が付いている場合、PDICの用例部にすべての文例がまとめられてしまうと見づらいので、オリジナルのテキストファイルのように、語義ごとに文例を分けてほしい。
文例の先頭に中黒記号を付けた上で、1文ごとに改行してほしい。
カタカナ発音や変化形の情報を含む行を最終行に移動させてほしい。
【略語】という表示は【略】だけでよい。
【組織名】という表示は【組織】だけでよい。
亀甲括弧 〔 〕 は角括弧 [ ] と紛らわしいので丸括弧 ( ) に変更してほしい。
右矢印またはイコール記号で示される単語(または語句)には、PDICのハイパーリンク機能が使えるようにしてほしい
上記要望にお応えするために以下の処理を行いました。
【1】 英辞郎のテキストファイルにおいて、文例のデリミタを四角記号と中黒の2文字に変更した。
PDICの仕様によって制限されている文字数を超えないようにするために、英文と和訳の間をスペース1個だけにしました。(旧版ではスペース、スラッシュ、スペースの3バイトでした)
(サンプルデータ)
■let off {句動-1} : 〜を発射する、〜を爆発させる■・It is not allowed to let off fireworks between midnight and 7 am. 夜中から午前7時までは花火をしてはいけないことになっています。■・Many people died when the woman let off the bomb wrapped around her waist. その女が腰に巻き付けた爆弾を爆発させて多くの人が死んだ。 ■let off {句動-2} : 〜を離す、〜から離れる■・When the tires begin to skid, you must immediately let off the gas. タイヤが滑り始めたらすぐにアクセルを離さなければなりません。 ■let off {句動-3} : 〜を無罪にする、〜を放免する■・The judge let off the offender with only a warning. 裁判官はその犯罪者に対して警告を与えただけで放免した。■・The judge let him off with a two-year suspended sentence. 裁判官は彼を2年間の執行猶予に処した。 ■let off {句動-4} : (においや液体などを)放出する、漏らす■・Some snakes let off a smell whey they are scared. ヘビの中には脅かされるとにおいを出すものがある。 |
【2】 上記テキストファイルをPDIC形式にコンバートするときに、詳細設定を以下のようにした。
このコンバートによって生成されたPDIC形式ファイルから let off を検索すると、以下のように表示されます。
|
注意点
上記の詳細設定にて作成したPDIC形式のファイルは、以下の点に注意が必用です。
和訳と文例はともに訳語部に入っている。
用例部には何もデータが入っていない。
従って、文例を対象として検索を行いたい場合は、PDICのメニューバーから Search → 訳語部検索 を選択するか、もしくは、(英辞郎の文例を和英形式にしたものが含まれている)和英辞郎の見出語部または訳語部を検索すればよい。
カタカナ発音や変化形の情報を含む行を最終行に移動させました。(例↓)
|
分野ラベルの「組織名」を「組織」に変更し、「略語」を「略」に変更しました。(例↓)
|
PDICのハイパーリンク機能に対応しました。(例↓)
|
PDICのハイパーリンク機能とは、以下のようなものです。(詳細はPDICのヘルプを参照)
<→xxx> という部分をクリックすると、見出語 xxx の訳語がポップアップ表示される。
ダブルクリックすると見出語 xxx がWORD部(入力領域)へコピーされて、自動的に検索が行われます。
ただし、xxxという見出語が対訳データに存在しない場合、「??? NOT LINKED ???」と表示される。
しかしながら、<→xxx> という形式でなくても、PDICの画面上に表示されている英文字を検索したいときは、キーボードのCtrlキーを押しながら、目的の英文字の上にマウスカーソルを移動させ、アンダーラインが表示されたところで左クリックすれば自動検索ができます。
PDICを使いこなすためには、PDICのヘルプを熟読するしかありません。
編集後記
今回の新しいフォーマットのテキストファイルをPDIC形式に変換してみて意外なことが判明。
変換結果は以下のとおり、欠落単語もなく、登録単語数は前バージョンの139万6160より1万127増えて140万6287になっている。
ところが、前バージョン(79)とファイルサイズを比較してみると、
EIJIRO79.DIC = 67,048,704バイト
EIJIRO80.DIC = 65,798,912バイト
というように減っている。
旧方式において文例の開始点に入れていた【用例】、【用例・名】、【用例・他動】などのラベルを除去したことにより、合計で490KB削減できているが、それ以上にデータ量が減っているので、他になんらかの要因があるはず・・・。文例を和訳とともに訳語部に入れたことによる効果なのか・・・。
上記変換結果のとおり、欠落単語はゼロだし、PDICの「辞書のチェック」を実行しても、「辞書に異常はありませんでした」と出る。
真実はPDICの作者に尋ねてみないと分からない・・・。