Posts tagged ‘machine translation’

先日書いた、このブログの海外へのプロモーション用※に、各稿の下に英語で(新聞のような)見出しやキャッチ的なものを出すことにした(そういうのの適切な英語訳が分からないので、"Keys"とした@)。最初は自分で付けていたのだが、結構面倒なので*AIにやらせることを思い付いた。

※これは、以前大嫌いだと書いたSEOの一種になるのだろうが、無理に検索の上位にしようとしている訳でなく、外国の人の目に触れる機会を作ろうとしているだけだ。

*自分で書いたにも関わらず内容を忘れて居る(このブログの主旨には合っている)のと、近頃は やたらに長く内容が多過ぎる稿が多いことが多い。そこは要改善点なのだろう(と、書いておく)。

@ちょっと強引だが、KeysはWordPressのタグとして扱っている。

それで、いろいろなAIソフト(エンジンは主にOpenAIの無料版)で各稿のサマリーやキーワードを生成しようとしたが、巷の評判とは異なり、今一つ うまく行かなかった。

最初にChatGPTで試したら、外部URLは読み込めないから使えなかった。次にWritesonicのText Summary V2を試したら、結構良さそうだった。出力に英語を指定すると、日本語の文章も英語でサマリーを出してくれる。ただ、それからKeysを作るのは手作業で それほど楽ではないし、WordPress(以下、WP)に貼るのも面倒だった。

そこで、こういう用途に使えるWPのプラグインを探したが、ほとんどなかった。: 多くはChatGPTのプロンプトを出すだけだし、投稿の編集ページでなく独立のページでしか使えないものや、有料(最初だけ無料)でしか使えないものも多かった(それを明記していないものがあって ひどい)。

使えないからアンインストールしたら"We Need to Talk!"とかいうメールを送って来て、unsubscribeしたら それにもメールを送って来た、大変鬱陶しいGetGene AIというクソもあった。

唯一残ったのはFlusso AI※(OpenAIを利用)だった。投稿の編集ページでボタンを押すだけで、Key Pointsというサマリーを作ってくれ、それを投稿と一緒に表示することもできるから便利だ。この出力は上述のWritesonicと同様だったので、どちらもOpenAIの機能を使っているのだろう。

※Flussoは 問い合わせに ちゃんと対応してくれて良い。出たばかりでユーザが少ないからだろうか。ただ、作者が自分でレビューの評価を★5にしているのは逆に損だ(ただ、一般ユーザを詐称している訳ではないので、悪意はなさそうだ)。

ただ、使ってみると、実はKey Pointsも今一つなことが分かった。箇条書きだけど なまじ文章(しかも短くない)になっているため、パッと見てもポイントがすぐには分からない。僕がネイティブでないせいはあるだろうが、文章の単語数が多い気がする。要するに、長ったらしい。(要約なのに"TL;DR"になりそうだw): 以下に、Key Pointsの出力の(良い)例(前回の稿「ちゃんと多言語対応するのは大変だ。」)を示す。

∙ The blog is primarily aimed at a Japanese audience, but some topics, such as technology, are relevant internationally, leading the blogger to consider creating an English version.

∙ The blogger initially used machine translation to create an English version of the site, using Google and Yandex, which had comparable translation quality.

∙ Google Translate was ultimately chosen because it successfully translated the name "Hamelin," and a link to the English version was added to the site.

∙ The blogger considered various options for improving the English version but decided to stick with the current setup due to the difficulty and cost involved in creating high-quality translations.

論文などなら良いが、僕がKeysとして欲しいのはツイッターのタグ※的なもの(一つの単語でなくても良く、完全な文章でなくて良い、パッと見て中身が想像できる・興味をもたせる短いフレーズ)だ。 参考までに、僕が考えたKeysは以下である。

AI translation, build multilingual website, Google and Yandex translate comparison, Google Translate, i18n, machine translation, Yandex Translate

※そういう機能のものも いくつかあったが、原文が日本語のせいか結果が全く駄目だった。

AIの出力は大筋では合っているのだが、前書きやアムランの件は余計だし(しかも、後者は読み切れていない)、Googleが すごく良いから選んだ訳ではないし、題にも書いた重要な意図(build multilingual website: 単なる英語版を作ろうと思っているのではない)は読めていない感じだ。

それ以前に、稿によっては、結果に重要な内容が書いてないことがあったので、結局、自動処理はできず、出力を確認して修正する必要がある。※ それから、OpenAIの無料版だと元の文章の長さ(単語数?)制限があって、結構多くの稿で使えなくて不便だ。

※以前も書いたが、今のAIの最大の欠点は、人間が結果を確認する必要があることだと思う。まあ、人間に依頼した(or 自分でした)作業でも同じだけど、自動化・効率向上の妨げになっている。そして、しばらくはAIに作らせたままの ひどいソフト・システムや文章が出て来そうだ。。。*

*でも、今だって、れっきとした人間に作らせたままの粗悪品が某ショッピングサイトAに蔓延しているので、AIだけが悪い訳ではではない。出す人間が悪い。

それに、ソフトやシステムだって、大企業が多額の費用を掛けて作ったものでもマトモに動かないことがあるではないか。(例: 近頃問題が発覚している、マイナンバーでの住民票発行システム)

それに比べれば、AIが作ったまま出すほうが費用対効果は良さそうだ。だから人間は不要だ。: などというのは、政治家とか有名人がTVとか配信で言いそうだが、単なるレトリックで技術的・論理的には正しくない。

原因は いろいろあり、人間とAIでは問題が起こる確率が異なるが、全部人間が悪いのは確かだ。AIが作ったまま出すのも、同じく人間が悪いために問題が起こる(現時点ではAIでなく人間が出すため)。

結局、どちらにしても、人間が真面目にやれば いいってことだ。少なくとも今は。

そういうことなら、最初にやったように、「自分で稿を読んで英語のキーワードを考えたほうが楽」という結論になって、(暇潰し?を兼ねて)順次やっている。

まあ、有料版のOpenAI(GPT4)なら強力で長さ制限もないのだろうから もう少し良くなるだろうが、料金が かなり高いので趣味には使えない。それでも、今後は手軽に使えるものが出て来ることを期待したい。

(19:18) その後、Flussoの方に勧められて、GPT-4 APIの待ちリストに登録した。GPT-4は全部有料だと誤解していたが、それが通れば無料でAPI(Flussoが使う)が使えるようだ。

そうすれば、長さの問題はクリアできる。キーワードを抽出する(Keysを作る)のは、どういうAPIがあるか調べてFlussoに要望するか、自分で作ってみたい。

 

なお、今、英語関係で一番役に立っているのはDeepL(翻訳, write(改善))だ。これもAI技術を使っているようで、普通の辞書サイトと違って生きた・「こなれた」英語にしてくれる。※ APIもあるようだが、やっぱり料金がすごく高いので使えず、もっぱらwebページで処理して結果をコピペしている。

※僕の印象なので正しいかは不明だが、日本の辞書サイトで出た、「なんか うーん」な英語をDeepL Writeに入れると、いかにも「おお これだ!」という自然なネイティブが使うような(に感じる)結果になることが多い。

なお、DeepLのは和訳は少し弱い感じ(ちょっと砕けた英語(それでも、和訳はできるしwriteは通る)は破綻する)だが、僕には英訳や英語の修正のほうが重要なので、大きな問題ではない。

 

PS. ニュースで良くなったと見て、Edge+Bingも試したが、なぜか散々だった。: 本文に書いたのと同じ稿に対する出力が全く誤っていて、なぜか全く別(別人)の文章に対するものだった。全然違う、どうして?と指摘したら、一方的にチャットを「終了」に されてしまった。ChatGPTなら続けて「どうして欲しい」と打ち込めるのに・・・

同じOpenAIを使っているはずなのに、随分作り込みが違うようだ。

使い物にならないようなので、Edgeは すぐにアンインストールした。いつものように、一瞬でもMSに期待したのが間違って居た。

PS2. 試しに この稿のGoogle翻訳での英語版を読んでみたが、やっぱり結構良い。破綻している箇所があってDeepLほどではないが、OpenAIのサマリーよりは ずっと読みやすい。

それから、どういう訳か、今回は「w」を"lol"と訳していたので感心した。

  •  1
  •  0
Keys: , , , , , , , , , , , , ,

このブログは基本的には日本向けなので日本語で書いているが※、コンピュータやオーディオなど、つまり技術関係は海外にも通じる話題があるので、英語版を用意したくなった。が、それは簡単では ないことが分かっていたので、まずは、安直手軽にページ(サイト)全体の機械翻訳を出してみることにした。*

※そもそも、英語では気軽に書けない。

*これを思い付いたのは、インプレスwatchの記事(→ )にGoogle翻訳のメニューがあったからである(なぜか、全部にある訳ではない)。

無料でできるのはGoogleYandex程度なので比較したが※、甲乙付け難い(比較: このページの英訳: Google, Yandex)。近頃は技術が発達したのか、翻訳に関しては どちらも結構良かった(意外に読めるし、僕らしい感じが出て居る気がした)。迷ったが、ピアニストのアムラン(Hamelin)を ちゃんと訳せるGoogleにし*、それへのリンクをページの右上に付けた("→ EN")。

※良く使うDeepLが使いたかったが、サイト翻訳は有料で結構高いので諦めた。あとは、流行りのAIで手軽に使えるサービスが出ることを期待している。

*アムランが分かるなら結構賢いことをしてそうで、他も期待できそうだ。Yandexは"Amran"だったと思う。 ← ところが、今比べると、Googleがちゃんと出来たのは近くに原語("H―")の記述があったからのようだ。上の段落では違いがあるが、この段落ではどちらも"A―"になっている・・・

そして、「れんと」は"Rento"になってしまうが、仕方ない(どちらも同じ)。何か設定などで直るだろうか? 「日本語 / 英語」や「英語 (日本語)」のように書くと英語だけが表示されるから、それで行けるか? → "PiuLento (れんと)"なら"PiuLento"になるようなので、ちょっと長いけど そうした。

Googleは翻訳自体以外も良い。: 書式が概ね保存されるし、日本語の記号が英語の対応するものになる(例: 「※」 → "*")※し、リンクやJSが それなりに動くので感心した。

※そのために却っておかしくなることがある。: 例: 「※」と"*"を両方使っている場合・・・

ただ、どうしても翻訳や仕上がりに気に入らないところがある(英語版も自サイトで見せたい)ので、もう少し ちゃんとしたいと思って候補を検討したが、どれも大変そうだった。

  • 各稿の英語版を作る。: 手間が多い。
    • 本文は自動翻訳を修正するなどして用意する。
    • 本文以外に、文章の書式を付け直したり、ページのテーマや画像などのキャプションも翻訳する必要がある。
  • 各稿の英語版を作るが、アクセス時に本文を自動翻訳する。: 翻訳精度は現状と同程度。
    • Google translate(API)は50万文字まで無料: 料金がどのくらい掛かるか不明。
    • 本文の書式は保存されるか不明(無理な気がする)。
    • ページのテーマや画像などのキャプションを個別に翻訳する必要がある。

更に、上のような手間を掛けて一見ちゃんとした英語版ページを作っても、中身が自動翻訳+αでは誤解を生むことがある(自分では分からないこともある)ので、一目で自動翻訳と分かるほうが良い。

結局、手間を掛けないなら現状が最適という日和った結論になった。

なお、Google翻訳なら多くの言語に対応可能だが、英語以外を追加し出すと厄介なことになる(例: 「なぜ、(ライバルの)*語があるのに私の言語がない?」)ので止めて、英語だけにした。それなら、「英語? 好かんけど仕方ないな」で済むはずだ。

もちろん、全部の言語の選択肢を出すなんてのは愚の骨頂だ。

あと、国旗も問題があるので、出さないことにした。: 例: 「英語」にUKまたはUSの国旗のどちらかを出すのは良くなさそうだし、正しくない(それぞれが微妙に異なる)。

例によって虫のいいことに、自動翻訳版を検索エンジンで出るようにしたいと思い、英語版の仮想サブディレクトリ(/en)をGoogle翻訳の英語版に飛ばすようにしたが、さすがに駄目な感じだった(Googleサーチコンソールで403のエラーになって居た)ので諦めた。 → その後、アクセス頻度を調べるために復活させた。 (5/4 19:37)

それで、せめて英語のキーワードで検索に引っ掛かるようにと、近頃の投稿のタグにキーワードを付けた。まあ、それでも、英語で検索したのにページが日本語だったら、英語版のリンクを探す前に、「は? 読めないし」→「そっ閉じ」な気がする。。。

他に容易にできるのは、ブラウザの言語が日本語以外の場合に直接Google翻訳版を出すことだが、それも お節介な気がする。「どっちにしますか?」のダイアログを出すのも可能だが、鬱陶しい感じがする。 → 最初の選択をクッキーなどに保存すればいいが、そこまで海外の読者が居るか?w

まあ、楽して効果を生むことは少ないので、仕方ない。

(5/5 21:09) その後、(押し付けがましくなく、大変でない範囲で)改良をした。: ブラウザの第1言語(Chromeの場合、Preferred languagesの最初)が日本語か、既に英語版(Google翻訳版)が表示されている場合にはGoogle翻訳版を表示するボタンを表示しないようにした。

そのため、ほとんどの方にはボタンが見えないはずなので、表示されている様子を下に示す。

ページ右上にGoogle翻訳を表示するボタン("→ EN")が表示されている様子

 

 

おまけ: GoogleとYandexの翻訳の比較 (5/4 14:42)

本文に書いたように両者は一長一短で、常にどちらが良いとは言えない。この稿で いかにも日本の表現の対応の違いがおもしろかったところ(「まあ、それでも、英語で検索したのに」-「そこまで海外の読者が居るか?w」)を選んで載せる(比較した箇所を下線にした)。

Googleの英訳

Well, even so, if I search in English and the page is in Japanese, I feel like "Huh? . .

Another easy thing to do is to directly publish a Google translated version if the language of the browser is not Japanese, but I feel that it is also meddlesome. It is possible to display a "Which one do you want?" dialog, but it feels annoying. → It would be nice to save the first selection in a cookie or something, but are there that many overseas readers?

Yandexの英訳

Well, still, if you search in English but the page is in Japanese, before looking for an English link, you need to ask "What?"I can't read it" → I feel like "So close"...

The other easy thing to do is to directly issue a Google translation version when the browser language is not Japanese, but it also feels like it is important."Which one do you want?"It is also possible to put out a dialog of "What is it?", but it feels depressing.→ You can save your first selection in a cookie, etc., but is there a foreign reader that far?w

比較

  • 「英語版のリンクを探す前に、「は? 読めないし」→「そっ閉じ」な気がする。。。」: Yandexが結構良い。
    • Google: かなり端折っている。: 「読めないし」と「そっ閉じ」がない。
      • 主語が"I"になって居るが、Yandexも同様なことが多い。日本語が主語を省略するためで仕方ない。
    • Yandex: なかなか頑張っている。前半は良い。
  • 「それも お節介な気がする。」、「鬱陶しい感じがする。」: Googleの勝ち。
    • Google: "but I feel that it is also meddlesome.", "but it feels annoying.": 適切
    • Yandex: "but it also feels like it is important.", "but it feels depressing.": なんか違う
      • なぜか、この辺りの「どっちにしますか?」が分散している。
  • 「そこまで海外の読者が居るか?w」: 引き分け
    • Google: 適切だけど"w"は無視w
    • Yandex: "w"をそのまま出した。
    • ここは"lol"とかにして欲しいが、難しいか・・・
  •  1
  •  0
Keys: , , , , , ,