TATOEBA EPWING

~~ TATOEBA projectのEPWING版 ~~

更新履歴

1. はじめに

TATOEBA projectという、世界中のボランティアが登録した、さまざまな言語の例文集があります。言語数は百以上、例文は全言語総計で二百万以上、主要言語では20~30万件にもなっています。日々新しい例文が登録され、修正もされているようです。

ある言語の例文は、別の言語の訳文にリンクされていますので、多言語翻訳の例文としても利用できます。

ひとまず、日英と日英独仏伊西羅(ラテン語)の EPWING データを作ってみました。まだ試作品で、いろいろ改良すべき点もあります。

中国語・アラビア語などはEPWING化するために外字情報を大量に作成する必要があり、まだ検討段階です。TATOEBA projectにある言語別例文数はこちらにあります。意外にも第2位がエスペラント語です。1万件以上の言語で見ると、ラテン語とクリンゴン語(!!)が僅差で並んでいます。どういう組み合わせで作るのかも検討中です。

その言語が母語ではない方による登録もあり、内容が若干怪しいものもあるようです。出版レベルのクオリティーではありませんが、参考資料としてうまく使えば役立ちそうです。

2. ダウンロード

適当なディレクトリに解凍して、EPWINGビューアーに辞書登録してください。

日米欧版では記号付き文字などに外字を使っています(試作品のため完全ではありません)。EBWin, EBPocket などで外字をUnicode文字としてきれいに表示するための TATOEBA.map, TATOEBA.plist は、tatoeba-eu-130629.zipのトップディレクトリとその下にありますので、ご利用ください。

3. 動作画面例

3.1 日英版

英単語か例文番号で検索できます。

日本語17万件、英語33万件の例文が入っています。英単語検索すると、それを含む全ての例文を表示します。

日英TATOEBA

例文の先頭にある、例文番号をクリックすると、その英文に関連づけられた日本語訳が表示されます。複数あったり、訳がないこともあります。

例文は、英語と日本語で辞書順に並んでいます。例文番号は恐らくサイトでの登録順なので、順番に言語としての意味はありません。

日英TATOEBA

3.2 日英欧版

日本語以外の単語か例文番号で検索できます。

収録している言語(日本語以外の英独仏伊西羅)の単語をすべて辞書順に並べてあります。見出し語の単語の後の、eng, lat, fra などは言語名です。

例文が膨大なので、最大で30件しか表示しません。1000件以上の語は、件数しか表示しません。

例文番号をクリックすれば、その例文と、その例文の訳文があるだけ表示されます。TATOEBA projectでは訳文の訳文を灰色で表示しますが、EPWING版では直訳文のみ表示します。

日英欧TATOEBA

paris を検索した例です。parisで始まる各言語の単語とその例文が調べられます。

日英欧TATOEBA

4. 既知の問題・検討点

こういう検索方法でよいのか?

日本語からの検索が出来ない。どうすべきか。文節・単語区切り情報もあるようだが、まだ検討中。

上の paris 検索例で、"paris fra" などが2つ出ている。記号付き文字を含む単語が記号無しの後に回ってしまう(ソート順を要改良)。

言語名表示がないと困るが、ありすぎると邪魔くさい。もっと整理したい。

TATOEBA projectの元になった(?)のは、兵庫大学の田中康仁先生による Tanaka Corpus だそうです。そのデータについてはまだ調べていません。うまく活用できればと思っています。

検索見出しが百万件を超えるためか(辞書内リンクが9百万件超)、EBStudioでのEPWING化に4時間くらいかかる(普通はせいぜい数分なのだが)。変更すべき箇所に気づいても、なかなか作業が進まない。

ライセンス

TATOEBA Projectのデータは、CC-BY で公開されています(参考)。

EPWINGデータについても、CC-BYとします。

連絡先

謝辞

TATOEBA projectを支えているみなさまに、深く感謝いたします。

EPWING関係のソフトを精力的に開発されているhishida様に深く感謝いたします。

関連プロジェクト

私が行っているEPWING開発プロジェクトは、他にもあります。

(C) 大久保克彦, 2013