Posts tagged ‘AI-generated images better than stock photos’

近頃はAIが手軽に使えるようになり、描画システムがいくつか出て来た。最初に記事を見たのはMidjourneyというものだが、生成された絵が陰鬱とかゴチャ付いているとか大げさな印象で気乗りがしなかった。あと、Discordで操作するらしいのも面倒そうだった。

次は名前を思い出せないシステムだが、自分のPCで動かすには ものすごいリソースが要るとあったので「関係ないな」になって印象が薄い(もちろん、クラウドで動いているものを使えばいいのだろうが、パスした)。

その次にMimicが出て来たが、そもそも上の2つと同様な手順で描画するものではないので、放置していたら終わってしまった。

3番目は、良く読んでいるまとめサイトに「Mimicは潰されたけど、中国から これが出て来た」※みたいに書かれていた、ERNIE-ViLGである。生成された画像が(Midjourneyと違って)明るくて悪くなかったので興味を持って調べたら、デモサイト(ERNIE-ViLG Demo)で手軽に描画できるようなので、試してみた。

※実際にはMimicとERNIE-ViLGは全然違う種類なので同列にするのは正しくないが、どちらもイラストを描く人に脅威になるという点で並べられていたようだ。

が、それにしても、詳しくは分からないけど、仮にMimicを潰したって同様なものは いくらでも できちゃうんだから全く無意味だ。自分の作品を真似されるのが嫌なのは分かるが、その防ぎ方が間違っている。今だって「トレパク」があるんだから、同じことではないか?

まだ開発中のようだしデモシステムなので いろいろ不具合はあるし、結構時間が掛かることがある(終わらないことも多い)が、描画させるのは楽しく、いじっているうちに数時間経つことも多かった。

「あれは(どうすれば)描ける?」のように、思い付いた題材を描かせて試して気付いたことを、以下に列挙する。

  • 固有名詞には弱い(実は知ってるのに知らん顔する、「いけず」w)。 → 描きたいものを明示的に文字で表現・指定する必要がある。
    • 有名な固有名詞(例: The Beatles(の中国語訳))を指定しても、ストレートに出ることはない。
    • 概ね字面どおりに生成する。
    • ただ、実際には学習しているようで、雰囲気が近かったり近いものが出ることもある(中国で有名で、中国語での表記がぴったりの指示をした場合?)。
      • The Beatlesは、ちゃんと4人くらいのバンドが出て来た。
  • 描画の指示は中国語が良い。
    • 一時、英語や日本語などでも可能だったが、その後、中国語だけになったようだ。
    • 今でも外国語が可能かもしれないが、おそらく機械翻訳しているだけなので、的確な中国語での指示のほうが良い。
      • 実際、 芸能人の名前を日本語で指示するより中国で使われている綴りで指定したほうが似ている度合いが高くなった。 (下の女性芸能人を参照)
      • とはいえ、僕は中国語はできないので、DeepL翻訳やGoogle翻訳を交互に使って試行錯誤している。
      • あと、英語のほうが中国語に伝わりやすい感じなので、日本語だと伝わりにくいものは英語から訳した場合もある。
  • 描画技法(水彩, 油彩など)によって、結果が かなり違う。以下、好きな順。
    • 水彩: 芸術的(風)なことが多い。
    • クレヨン: 子どもっぽいこともある(それも味があっていい)が、暖かい いい感じのこともある。
    • 油彩: リアル、写実的。
      • 油絵の具の盛り上がりなどはないから、名前が良くない気がする。
    • チョーク: 線画が主。意外に いい場合もある。人物の写真が混じることがある。
    • Cartoon: 文字通り漫画・アニメ調。楽しい・ふざけた感じになることが多い。
    • 児童画: (余り試していない)子どもっぽいが、場合によっては いい感じになる。クレヨンに近そう。
  • 描いた絵は(僕から見れば)かなり「うまい」、「芸術的」。: 本当に僕には描けないものばかり。
  • 細部が「怖い」ことがある。: 例: 腕が3本、指が6本、腕や脚がぐにゃぐにゃ・・・ (→ : 指が ちょっと多いかも?)
    • でも、パッと見ただけでは分からないことがあるし、そういう表現と考えれば受け入れられることもある。
    • 描画のあとで自分で修正するのも、いいかもしれない。
  • 一期一会: おそらく、一度描いたものを再度描かせることは不可能だろう。
    • AIの処理的に そうなっている気がするし、AI自体が随時学習しているので、同じ結果は二度と出ない気がする。
    • しかも、処理の内容を示すようなIDもないから、あとで指定することもできない。
    • そういう意味で、本当に「一品もの」、あるいは、音楽の演奏みたいなものなので、気に入ったもの(そうでないものも)は保存しておくほうが良い。

次に、今までに描かせたもののうち、気に入ったものなどを載せる。今回は まさにギャラリーだw

以下、イラストのキャプションには描画指示の元となる日本語または英語 (→ 翻案・調整したもの) → 翻訳した中国語(= 描画指示), 描画技法を示す。

手始め(お遊び): 「ショートボブの女の子」, 「ポニーテールの子」, "Larry for leader" (「(UKの猫)Larryを首相に」という動き → 残念ながらTrussになったようだ), ある女性芸能人(恥ずかしいので名前は伏せる)

「ショートボブの女の子」は随分良い感じだ。catoonが合っていたのかもしれない。「ポニーテールの子」は(ショートボブで結構期待したのに)間違っては居ないけど今一つだった。が、左上がリキテンスタインぽくて好きだ。

“Larry for leader”は指示が悪かった。固有名詞のLarryでは本物のイメージが伝わらない。ただ、「リーダーに」という指示で、どうにかそれらしいものが出た。なお、猫のイラストとしては いいものが多い。

ちなみに、指示として「Larryを首相に」のように書いたら、禁止文言でエラーになって描画できなかった。そこは中国だ。

女性芸能人を日本語で指定では ほとんど似ていないけど別の人に似ているもの(例: 右上: 卓球の元選手, 右下: 昔のアイドル歌手)があったし、左下の人間離れした顔には妙にひかれる。女性芸能人を中国語で指定は、半分くらい本人に似ている、あるいは、イメージが合っている気がする。

誰か分かっちゃった方は こっそり連絡して下さいw

歌シリーズ: 「微笑がえし」, 「半分少女」, 「真っ赤な女の子」, 「私がオバさんになっても」

「微笑がえし」は水彩が良かった。水彩のロングヘアのものは今まで描画したものの中で一番気に入っている。※ そして、微笑んでいるけど微妙に困ったような寂しいような表情が歌に合っていてすごい。その隣のペコちゃん風なのも可愛くて好きだ。これは余白の取り方が うまいと思う。他に、チョークの素朴な感じにちょっとグッと来るものがあった。例えば、左上や中央下である。

※書く必要は全くないのだが、僕はショートボブやポニーテールの人が好きなのに、これが一番いいというのは自分でも おかしい・矛盾も いいところな気がした。が、良く考えると、これは僕が描きたかったもの(「微笑がえし」)に すごくマッチしているからいい・参ったのであって、必ずしも「僕の嗜好全体を通して最高」という訳ではないというところで納得(大人的な決着)した感じだ。

「半分少女」は いかにも可愛い少女になり、昔気に入って居たアナウンサーに似ているものもあった。なお、文字通り半分だけ描画されているものがあった。さすがに歌詞の内容までは理解(学習)されていないため、題の指定では歌に近いものは なかなか出ない。「真っ赤な女の子」も同様で、文字通り赤い服の子が多かった。これは指示が悪かったので仕方ない。歌の意味やイメージを伝えるべきだった。それでも、何となく近そうなものがあったので載せた。

「私がオバさんになっても」では上の曲での経験を踏まえ、歌詞の一部を翻案して指定した。が、それでも描く対象(若い女性)やその内面を想像して描いてもらうのは難しく(それはそうだ。書いてないものは分かりようがない)、全部却下だったが、あとから見返したら何となくそれらしいものが少しあったので、載せた。「で、どうなのよ?」と すごんでそうな感じのはおもしろいし、いろいろ喋っている(ちょっと慌てて問い詰めている?)感じのは何となく宇多田ヒカルに似ているのも気に入った。

黒猫 優作

Larry the catや歌と同様に、「優作」と指示しても全く無意味なので、僕の持つイメージを指示して いくつかいいものが出来た。一番気に入ったものを加工してツイッターのアイコンにした。

優作で感心したのは、僕なんかが黒猫を描くと真っ黒になってしまいがちだが、描かれたものの多くは明るさや色を加減して ちゃんと表現していることだ。あと、どれにも言えるが、背景の色遣いが好きだ。派手だけど やり過ぎでないところが うまい。

「時をかける少女」

(映画・アニメ風)

映画に英語の題"Girl Who Leapt Through Time"があったので、最初はその中国語を指定したが、人物が子どもになってしまった。そこで、映画の主人公は高校生なので そのように指定したら、映画やアニメのイメージに近いものが描けた。

なお、"highschool"は正しくは"high school"だったが、翻訳は大丈夫そうだったw 下の中学も同様。

(原作風)

が、その後、原作では主人公は中学生であることが分かった(すっかり忘れて居たが、「そういえば」と思って調べた)ので、中学生としても描いた。この作品は、どうしても原作よりも映画(あるいはアニメ)の印象が強いが、ジュブナイルとして書かれた原作に忠実に描くとしたら最初のものが一番近い気がする。

自分

自画像的なものを描きたくて、かなり試行錯誤した。自分の属性や好みを文章にして指示した。さすがに こだわりが強く、載せた以外にもボツ稿は かなりある。が、結局、自分を人間として描くことにこだわらないもの()でもいい気がしている。もう少し試したい気がするが、キリがない。

最初の頃は「モーツァルトが好き」を指示に入れていたために、その頃の雰囲気(例: 髪型や服装)になってしまった。同様に、僕とAIで言葉のイメージが違うため、「若くない」とか「50代」とかを入れたらお爺さんになったので、「中年」にした。また、「ピアノが好き」だと演奏の光景になることが多かったし、「眼鏡を掛けた」は猫まで眼鏡になることが多かった。そもそも、「技術者」を指示すると眼鏡になることが多いようだ。

自分で見て、一番雰囲気が近そうなものや気に入ったもの4つを先頭に示した。以降は、雰囲気はいいけど近くないとか全然違うけど気に入ったものである。

「モーツァルト」を入れたものにマイケル・J・フォックスに似ているものがあったのがおもしろい。他に有名人に似ているのは、松尾貴史タモリがある。そこら辺は、本人の画像を学習して生成している気がする。

バンドシリーズ: Yellow magic orchestra, Electric light orchestra

今までに書いたように、"YMO"や"ELO"では分かってくれない。それでも、YMOは少し分かっているのか、結構3人のものがあった。やっぱりクレヨンのは可愛いので、新しいYMOにならないか(強いて言えばBABYMETAL風?)。あと、いかにも女子向けのアニメ的なのもおもしろい。

ELOも、なぜか初期のロゴ的な電球は出た。まあ字面から想像できるものではある。クレヨンのは可愛いので、新しいロゴにして欲しいが、グループ(今はムサ苦しいオジさんだけ・・・)のイメージと全然違うので無理だ。

 

終わりに

使ってみて、(いろいろ欠点はあるものの、)僕には こういうので充分だと感じた。大げさだが、このシステムにより、絵が描けない僕が描けるようになったのだ。実体はAIがいろいろな画像を合成しているのだろうが、描く内容や描き方を指示できて、気が済むまで繰り返せて、最終的に自分が「これだ」と思ったものができる(しかも、他に同じものがない(はず))なら、自分で描くのに近いと思う。

実際、ERNIE-ViLGで描いた優作をツイッターのアイコン(アバター?)に使ったし、「自分」として描いたものを このブログのロゴ画像(右上)にも使いたいと思っている。ただ、どれがいいか迷うのと今の優作の写真も捨てがたいので、ランダムに切り替え表示するようにしたいと思っている。 → とりあえず、作ってテスト中。: 右列一番下の"Random logo test": 10-20分ごとにランダムに切り替わるようにした。 (9/6 13:14) → 良さそうなので、今までの優作のロゴ画像と交換した(今までのものも出る)。 (9/6 21:11) → 処理の概要をPSに書いた。 (9/7 19:36)

それから、よくニュースの記事に ありきたりなストックフォトを載せているが、なまじ写真なので誤解することが多くて意味がない(むしろ逆効果)。※ そういうのは止めて、こういうシステムで内容にマッチしたイラストを描いて載せるべきだと思う。

※だから、写真の下に「イメージです」とか「本文とは関係ありません」とか書いてあって、すごく馬鹿らしい。

あと、記事が対象としている本人の写真だって、その時に撮影したものでないものを載せるのは誤解を生むから良くない。例えば、深刻なニュースなのに(過去の)笑っている写真を載せたら、「不謹慎だ」とか不要な反感を かうこともあるだろう。

 

そして、以前も書いたと思うが、僕には今回試したイラストの描画のように音楽を演奏できるシステムができると うれしい。以下のようなイメージだ。

AI音楽演奏システムの操作のイメージ

  1. 曲名を指定するか、楽譜を入れる。: 例: K. 488
    • フリーのものは自動で楽譜を取得する。
  2. 演奏表現の仕方や、参照する・倣う演奏者・演奏があれば指定する。: 例: 「現代的かつダイナミックかつパワフルに」、「アンスネス(2022)風」
  3. 演奏を生成する。
  4. 全体の感じやパートや部分の感じ・表現を修正・調整
    • 例: 気になるパート・箇所を、再生しながら指定、文章や声で指示、楽譜や波形をマウスなどで指定して、「もっと滑らかに」。
  5. 気に入るまで3-4を繰り返す。

修正・調整は難しそう(音楽的才能や知識が要りそう)だが、そこもAIで補助できるだろうか?

 

PS. ランダムロゴ画像の処理の概要 (9/7 19:36)

機能: このブログのロゴ画像(ページ右上)を、設定した時間ごとにランダムに変更・表示する。

構成: ロゴファイル更新プログラムとブログのロゴ表示ウィジェットからなる。

動作

  • ブログのロゴ表示ウィジェット (phpで記述)
    • ロゴ画像格納ディレクトリ内にある、仮ロゴファイル(logo.sl: 実体の画像ファイルへのsym-link)を表示する。
    • 仮ロゴファイルのsym-linkの実体のファイル名を取得して、ブログのページのHTMLで表示する。
      • 実体でないと、suffixからファイルのタイプを判別できず、表示できない場合があるため。
    • 仮ロゴファイルや実体のファイルがない場合にはデフォルトの画像を表示する。
    • 画像の注釈をファイルから読み込んで、画像の下に表示するようにした。 (なければ出さない。)
      • 注釈は、画像個別かファイル名のパターンで指定することができる。
      • [個別] 画像ファイルのbasename + ".desc"
        • 例: test.desc: test.jpg(など)の注釈になる。
      • [パターン] 画像ファイル名の先頭の文字列 + "@.desc"
        • 例: EVD@.desc: "EVD@"で始まる画像ファイル(例: EVD@Screenshot_2022-09-06_05-26-56.jpg)全部の注釈になる。
  • ロゴファイル更新プログラム: update_logo.sh: crontabで定期的(20分ごと)に実行する。
    • 仮ロゴファイル(logo.sl)の最終更新時刻から10分以内なら処理しない。
    • ロゴ画像格納ディレクトリ内にある画像をランダムに選んで、仮ロゴファイルにsym-linkする。
      • 一般的な画像(JPEG, PNG, GIF)の一般的なsuffixを持つファイルを検索する。
      • 乱数はbashの変数$RANDOMを使った。
        • どうも偏りがある気がするが、平均は中央付近なので気のせいだろうか?
          • 乱数をファイル数に丸める処理(mod)が悪いのだろうか?
          • /dev/randomなどを使っても、同様な感じだった。
      • 前回と同じファイルになった場合は再度選ぶ。

備考

ブログのロゴ表示ウィジェットで全部処理させることもできるが、表示のたびにファイル一覧取得などを行うので、多少処理が重くなりそうなので止めた。一方、そうすれば、表示のたびに異なるロゴ画像を出すことができる。が、そこまでする必要はなさそうだと思った。

画像の注釈は、画像ファイル中のEXIF, XMPなどに格納して取得することも可能だが、それを表示のたびに実行するのは無駄だし重そうなので止めた。キャッシュすることもできるが、そこまでのものではない。

なお、表示時でなく更新時に抽出すれば重くならないが、抽出したファイルの管理が増えて、ちょっと煩雑である。

また、そもそもPNGでは そういう情報を格納できないので不都合がある。また、パターンでの指定ができないので、多くのファイルに同じ注釈を設定する時には設定だけでなく変更時も煩雑になる。

  •  0
  •  0
Keys: , , , , , , , , ,