TATOEBA projectという、世界中のボランティアが登録した、さまざまな言語の例文集があります。言語数は百以上、例文は全言語総計で二百万以上、主要言語では20~30万件にもなっています。日々新しい例文が登録され、修正もされているようです。
ある言語の例文は、別の言語の訳文にリンクされていますので、多言語翻訳の例文としても利用できます。
ひとまず、日英と日英独仏伊西羅(ラテン語)の EPWING データを作ってみました。まだ試作品で、いろいろ改良すべき点もあります。
中国語・アラビア語などはEPWING化するために外字情報を大量に作成する必要があり、まだ検討段階です。TATOEBA projectにある言語別例文数はこちらにあります。意外にも第2位がエスペラント語です。1万件以上の言語で見ると、ラテン語とクリンゴン語(!!)が僅差で並んでいます。どういう組み合わせで作るのかも検討中です。
その言語が母語ではない方による登録もあり、内容が若干怪しいものもあるようです。出版レベルのクオリティーではありませんが、参考資料としてうまく使えば役立ちそうです。
適当なディレクトリに解凍して、EPWINGビューアーに辞書登録してください。
日米欧版では記号付き文字などに外字を使っています(試作品のため完全ではありません)。EBWin, EBPocket などで外字をUnicode文字としてきれいに表示するための TATOEBA.map, TATOEBA.plist は、tatoeba-eu-130629.zipのトップディレクトリとその下にありますので、ご利用ください。
英単語か例文番号で検索できます。
日本語17万件、英語33万件の例文が入っています。英単語検索すると、それを含む全ての例文を表示します。
例文の先頭にある、例文番号をクリックすると、その英文に関連づけられた日本語訳が表示されます。複数あったり、訳がないこともあります。
例文は、英語と日本語で辞書順に並んでいます。例文番号は恐らくサイトでの登録順なので、順番に言語としての意味はありません。
日本語以外の単語か例文番号で検索できます。
収録している言語(日本語以外の英独仏伊西羅)の単語をすべて辞書順に並べてあります。見出し語の単語の後の、eng, lat, fra などは言語名です。
例文が膨大なので、最大で30件しか表示しません。1000件以上の語は、件数しか表示しません。
例文番号をクリックすれば、その例文と、その例文の訳文があるだけ表示されます。TATOEBA projectでは訳文の訳文を灰色で表示しますが、EPWING版では直訳文のみ表示します。
paris を検索した例です。parisで始まる各言語の単語とその例文が調べられます。
こういう検索方法でよいのか?
日本語からの検索が出来ない。どうすべきか。文節・単語区切り情報もあるようだが、まだ検討中。
上の paris 検索例で、"paris fra" などが2つ出ている。記号付き文字を含む単語が記号無しの後に回ってしまう(ソート順を要改良)。
言語名表示がないと困るが、ありすぎると邪魔くさい。もっと整理したい。
TATOEBA projectの元になった(?)のは、兵庫大学の田中康仁先生による Tanaka Corpus だそうです。そのデータについてはまだ調べていません。うまく活用できればと思っています。
検索見出しが百万件を超えるためか(辞書内リンクが9百万件超)、EBStudioでのEPWING化に4時間くらいかかる(普通はせいぜい数分なのだが)。変更すべき箇所に気づいても、なかなか作業が進まない。
TATOEBA Projectのデータは、CC-BY で公開されています(参考)。
EPWINGデータについても、CC-BYとします。
TATOEBA projectを支えているみなさまに、深く感謝いたします。
EPWING関係のソフトを精力的に開発されているhishida様に深く感謝いたします。
私が行っているEPWING開発プロジェクトは、他にもあります。
(C) 大久保克彦, 2013