11月 15, 2024

kenmin-souko.jp

日本からの最新ニュースと特集:ビジネス、政治、解説文化、ライフ&スタイル、エンターテインメント、スポーツ。

ChatGPT も画像を生成できるようになりました

ChatGPT も画像を生成できるようになりました

ChatGPT は画像を生成できるようになり、驚くほど詳細な画像が得られます。

水曜日、サンフランシスコの AI スタートアップである OpenAI は、DALL-E 画像ジェネレーターの新バージョンを少数のテスター グループにリリースし、その技術を人気のオンライン チャットボットである ChatGPT に統合しました。

DALL-E 3と呼ばれる同社は、この技術の以前のバージョンよりも説得力のある画像を生成でき、文字、数字、人間の手を含む画像に特別な才能を発揮できると述べた。

OpenAIの研究者アディティア・ラメシュ氏は、「ユーザーが求めていることを理解し、表現する能力がはるかに優れている」と述べ、このテクノロジーは英語をより正確に理解できるように設計されていると付け加えた。

最新バージョンの DALL-E を ChatGPT に追加することで、OpenAI はチャットボットを生成 AI のハブとして強化し、テキスト、画像、音声、ソフトウェア、その他のデジタル メディアを独自に生成できます。 ChatGPT が昨年急速に広まって以来、シリコンバレーの巨大テクノロジー企業の間で人工知能の進歩の最前線に立つ競争が始まっています。

Googleは火曜日、Gmail、YouTube、ドキュメントなど同社の最も人気のあるサービスの多くに接続するチャットボット「Bard」の新バージョンをリリースした。 他の 2 つのイメージ ビルダーである Midjourney と Stable Diffusion は、この夏モデルを更新しました。

OpenAI は、チャットボットを Expedia、OpenTable、Wikipedia などの他のオンライン サービスに接続する方法を長い間実証してきました。 しかし、このスタートアップがチャットボットと画像ジェネレーターを組み合わせたのはこれが初めてだ。

DALL-E と ChatGPT は、以前は 2 つの別個のアプリケーションでした。 しかし、最新リリースでは、ChatGPT を使用して、見たいものを記述するだけでデジタル画像を作成できるようになりました。 あるいは、チャットボットが生成した説明を使用して画像を作成し、グラフィックス、アート、その他のメディアの作成プロセスを自動化することもできます。

今週のデモで、OpenAI 研究者のガブリエル・ゴー氏は、ChatGPT が画像の生成に使用される詳細なテキスト説明をどのように生成できるかを実証しました。 たとえば、マウンテン ラーメンというレストランのロゴの説明を作成した後、ボットは数秒以内にそれらの説明からいくつかの画像を生成しました。

ゴー氏によると、DALL-Eの新バージョンは複数段落の説明から画像を生成でき、詳細に記述された指示に厳密に従っているという。 すべての画像生成装置や他の AI システムと同様に、それらもエラーが発生しやすいと同氏は言います。

OpenAI はテクノロジーの改善に取り組んでおり、来月まで DALL-E 3 を一般の人々と共有することはありません。 DALL-E 3 は、月額 20 ドルのサービスである ChatGPT Plus を通じて利用できるようになります。

専門家らは、画像生成技術がオンラインで大量の誤った情報を拡散するために使用される可能性があると警告している。 DALL-E 3 でこれを防ぐために、OpenAI は、露骨な性的画像や著名​​人の描写など、問題のあるトピックをブロックするように設計されたツールを統合しました。 同社はまた、DALL-Eが特定のアーティストのスタイルを模倣する能力を制限しようとしている。

ここ数カ月間、人工知能が視覚的な誤った情報の源として使用されてきました。 5月には、特に不自然で洗練されていない国防総省の爆発事故のパロディが、株価を一時的に下落させた。 投票の専門家もこのテクノロジーの可能性を懸念しています 悪意のある使用 大きな選挙の最中。

安全性とポリシーに焦点を当てている OpenAI 研究者のサンディニ・アガルワル氏は、DALL-E 3 は写実的というより様式化された画像を作成する傾向があると述べています。 しかし、監視カメラで撮影された粒子の粗い画像のような、魅力的なシーンの制作をモデルに依頼できることも認めた。

ほとんどの場合、OpenAI は、DALL-E 3 からの潜在的に問題のあるコンテンツをブロックする予定はありません。画像は、表示されるコンテキストに応じて無害にも危険にもなり得るため、このようなアプローチは「非常に広範」であるとアガルワル氏は述べました。 。

「それは実際に、それがどこで使用されるか、そして人々がそれについてどのように話すかによって決まります」と彼女は言いました。

READ  誰かが Galaxy Z Fold 4 を Windows Phone に変換しました。とてもクールです