9月 13, 2024

kenmin-souko.jp

日本からの最新ニュースと特集:ビジネス、政治、解説文化、ライフ&スタイル、エンターテインメント、スポーツ。

愛好家が AI で生成された画像にカスタム フォントを挿入する方法を発見

愛好家が AI で生成された画像にカスタム フォントを挿入する方法を発見

ズームイン / 人工知能が生成した例 サイバーパンク 2077 LoRA、Flux dev を使用して導入されました。

先週、アマチュアが新しい Flux AI 画像合成モデルを実験しました 発見されました 彼らは、特別にトレーニングされたバージョンのフォントを提供することに驚くほど優れています。何十年もの間、コンピュータ フォントをレンダリングするより効率的な方法はありましたが、Flux はきめ細かいテキスト視覚化をレンダリングでき、ユーザーはカスタム フォントでレンダリングされた単語を AI 画像生成に直接挿入できるため、この新しいテクノロジーは AI 画像愛好家にとって役立ちます。 。

私たちは 1980 年代 (研究では 1970 年代) 以来、カスタム形状で正確で滑らかなコンピューター描画の線を生成するテクノロジーを持っていたため、AI を使用してクローン フォントを作成すること自体は新しいことではありません。しかし、新しいテクノロジーにより、AI が生成した、現実のレストランの黒板のメニューやロボットのキツネが持つ印刷された名刺の画像に、特定のフォントが表示されるのを見ることができるようになります。

2022 年の安定拡散のように AI フォト モンタージュ モデルが主流になった直後、一部の人々は 不思議に思うAI が生成した画像に自分の製品、衣料品、個性、スタイルを含めるにはどうすればよいですか?浮かび上がった答えの 1 つは、LoRA (低ランク適応) という手法でした。 発見されました 2021 年に、ユーザーが特別にトレーニングされたベンチマーク拡張機能を使用して AI ベース モデルの知識を強化できる AI ベース モデルが開始されました。

これらの LoRA モジュール (モジュールと呼ばれる) を使用すると、画像合成モデルが、基礎となるモデルのトレーニング データに元々存在しなかった (または不十分に表現された) 新しい概念を作成できるようになります。実際、画像合成愛好家は、これらを使用して独自のスタイルをレンダリングします (例: チョークアート)またはトピックス(の詳細画像) スパイダーマン(例えば)。各 LoRA は、ユーザーが提供するサンプルを使用して特別にトレーニングする必要があります。

Flux が登場する前は、ほとんどの AI 画像ジェネレーターはシーン内に正確なテキストを表示するのがあまり得意ではありませんでした。 Stable Diffusion 1.5 に「チーズ」というタグを表示するよう依頼すると、ナンセンスな内容が表示されます。昨年リリースされた OpenAI の DALL-E 3 は、テキスト処理をかなり適切に実行する最初の主要モデルでした。 Flux は依然として時折単語や文字の間違いを犯しますが、これは私たちがこれまでに見た中で最も有能な「テキストインワールド」(名前を付けてもよい)AI モデルです。

Flux はダウンロードとマイクロコンバージョンが可能なオープン モデルであるため、先月は初めて LoRA ライン トレーニングが意味をなす可能性がありました。まさにこれです 最近、Vadim Fedenko という名前の AI 愛好家によって発見されました (報道時点までにインタビュー要求に応じていませんでした)。 「その結果には本当に感銘を受けた」とフェデンコは書いている。 Redditで共有する「Flux は、特定のスタイル/フォントで文字がどのように見えるかを認識し、特定のフォントやスタイルなどを使用して Loras をトレーニングできるようにします。すぐにさらに多くの文字をトレーニングする予定です。」

初めての試みとして、フェデンコはスパークリングドリンクを選びました 「Y2K」スタイルのフォント 1990 年代後半から 2000 年代前半に人気を博したモデルを彷彿とさせるこのモデルは、8 月 20 日に Civitai プラットフォームで公開されました。 2 日後、「AggravatingScree7189」という名前の Civitai ユーザーが、次の LoRA フォントを投稿しました。 サイバーパンク 2077 ビデオゲーム。

「こんなことできるなんて思いつく前に、脚本があまりにもひどいものだった。」 Y2Kラインに関するフェデンコ氏の投稿に返信したレディットユーザーは、egg-benedrylに電話をかけた。別の Reddit ユーザー 「Y2K誌を拡大して見るまで、それが偽物だとは知りませんでした。」

それは誇張されていますか?

مثال على <em>サイバーパンク 2077</em> LoRA、Flux dev を使用してレンダリング。” src=”https://cdn.arstechnica.net/wp-content/uploads/2024/08/without_with_2-640×357.jpg” width=”640″ height=”357″ srcset= ” https://cdn.arstechnica.net/wp-content/uploads/2024/08/without_with_2.jpg 2x”/></a><figcaption class=
ズームイン / 好例 サイバーパンク 2077 LoRA、Flux dev を使用して導入されました。

確かに、深く訓練されたニューラル ネットワークを使用して画像を合成し、単純な背景に無地の線を表示するのは、おそらくやりすぎでしょう。おそらく、ドキュメントのデザイン中に Adob​​e Illustrator の代わりにこの方法を使用したくないでしょう。

「それはいいことのように聞こえますが、300MB の LoRA ファイルを使用してフォントのアイデアを再発明しているというのはちょっと面白いですね。」 Reddit に関するスレッドのコメント投稿者 サイバーパンク 2077 フォント。

生成 AI は環境への影響についてよく批判されますが、これは大規模なクラウド データセンターにとって当然の懸念事項です。しかし、Flux は RTX 3060 上でローカルに実行しているときに、AI で生成されたシーンにこれらの行を挿入できることがわかりました。 定量化された (サイズが縮小されました) (完全な開発モデルは RTX 3090 上で実行できます)。同じ PC でビデオ ゲームをプレイする場合と同様の電力消費量です。 LoRA:Constructor の作成についても同様です。 サイバーパンク 2077 フォント トレーナー 3090 GPU で LoRA を 3 時間で完了。

AI を利用した画像ジェネレーターの使用には、コンテンツ所有者の同意なしに収集されたデータに基づいて画像ジェネレーターをどのようにトレーニングするかなど、倫理的な問題もあります。このテクノロジーは一部のアーティストの間で意見が分かれていますが、大規模なコミュニティが毎日このテクノロジーを使用しています。 結果をオンラインで共有する Reddit のようなソーシャル メディア プラットフォームを通じて、このようなテクノロジーの新しいアプリケーションにつながります。

この記事の執筆時点では、Flux LoRA 専用の行は 2 つだけですが、これらの行を作成する際にさらに作成する計画についてはすでに聞いています。この技術はまだ初期段階にありますが、将来的に AI 画像合成がより広く導入されるようになれば、必須となる可能性があります。画像合成モデルを備えたAdobeは、今後もこの点に注目していくだろう。

READ  ソニーは、新しいイヤホンはWF-1000XM4のようなバッテリー消耗の問題に悩まされないと主張しています