5月 16, 2024

kenmin-souko.jp

日本からの最新ニュースと特集:ビジネス、政治、解説文化、ライフ&スタイル、エンターテインメント、スポーツ。

リアルタイム動画は、AI 技術の次の飛躍となる可能性があります

リアルタイム動画は、AI 技術の次の飛躍となる可能性があります

Runway AI というニューヨークの新興企業のソフトウェア エンジニアである Ian Sansavera は、ビデオで見たいものについて短い説明を書きました。 本「森の中の静かな川」。

2 分も経たないうちに、テスト用のインターネット サービスによって、森の中の穏やかな川の短いビデオ クリップが生成されました。 流れる川の水は、木々やシダを切り裂き、角を曲がり、岩にやさしくはねかけると、太陽の下できらめきました。

今週、少人数のテスター グループにサービスを公開することを計画している Runway は、コンピューター画面のボックスにいくつかの単語を入力するだけでビデオを作成できる人工知能技術を開発している数社の企業の 1 つです。

彼らは、Web ブラウザーと同じくらい重要なテクノロジの次の大きなものになる可能性があると一部の人が信じている、新しいタイプの AI システムを作成するための、業界の競争 (Microsoft や Google などの巨人だけでなく、はるかに小さな新興企業も含まれる競争) の次の段階を表しています。またはiPhone。

新しいビデオ作成システムは、映画製作者やその他のデジタル アーティストの作業を高速化する一方で、オンラインで検出が困難な誤った情報を作成するための新しい高速な方法となり、オンラインで何が本物かを判断することを困難にします。

これらのシステムは、生成型人工知能として知られているものの例であり、テキスト、画像、および音声を即座に生成できます。 もう 1 つの例は、サンフランシスコのスタートアップ OpenAI によって作成されたオンライン チャットボットである ChatGPT で、昨年末にその機能でテクノロジー業界を驚かせました。

Facebookの親会社であるGoogleとMetaは、 昨年、最初のビデオ生成システムを発表しました、しかし、彼らは、システムが最終的に、新たに発見された速度と効率で偽情報を広めるために使用される可能性があることを懸念していたため、それを一般に公開しませんでした.

しかし、Runway の CEO である Cristobal Valenzuela 氏は、この技術はリスクがあるにもかかわらず、研究ラボに保管するには重要すぎると考えていると語った。 「これは、過去 100 年間に私たちが構築した最も印象的なテクノロジの 1 つです」と彼は言いました。 「実際に使ってくれる人が必要です。」

もちろん、ムービーやビデオを編集および操作する機能は新しいものではありません。 映画製作者はこれを 1 世紀以上にわたって行ってきました。 近年、研究者やデジタル アーティストは、さまざまな AI テクノロジやプログラムを使用して、フェイク ビデオと呼ばれることが多いビデオを作成および編集しています。

しかし、Runway が作成したようなシステムは、編集スキルをボタン 1 つで置き換えることができるようになるでしょう。

滑走路テクノロジーは、短い説明のビデオを生成します。 開始するには、簡単なメモと同じように説明を書きます。

これは、「大都市の雨の日」や「公園で携帯電話を持った犬」など、シーンに何らかのアクションが含まれている場合に最適です。 Enter キーを押すと、システムは 1 ~ 2 分でビデオを作成します。

この技術は、敷物の上で寝ている猫などの一般的なイメージを再現できます。 または、誕生日パーティーの牛のように、異なるコンセプトを組み合わせて、奇妙に面白いビデオを作成することもできます。

動画の長さはわずか 4 秒で、よく見ると途切れ途切れでぼやけています。 画像が奇妙で、歪んでいて、邪魔になることがあります。 このシステムには、犬や猫などの動物と、ボールや携帯電話などの無生物を融合させる方法があります。 しかし正しい方向性が与えられたので、彼はテクノロジーがどこに向かっているのかを示すビデオを制作しています。

人工知能を専門とする MIT の Philip Isola 教授は、次のように述べています。

他のジェネレーティブ AI テクノロジーと同様に、Runway のシステムは数値データを分析することで学習します。この場合、写真、ビデオ、およびそれらの画像に含まれるものを説明する注釈です。 この種のテクノロジーをますます大量のデータでトレーニングすることにより、研究者は自分のスキルを迅速に向上させ、拡大できると確信しています。 すぐに、専門家は、音楽と対話を備えたプロ並みのミニ映画を作成できると信じています。

システムが現在何を作成しているのかを言うのは難しいです。 写真ではありません。 漫画ではありません。 これは、リアルなビデオを作成するために混ぜ合わされた多数のピクセルのコレクションです。 同社は、プロのアーティストの作業をスピードアップすると信じている他のツールとともに、その技術を導入する予定です。

この 1 か月間、ソーシャル メディアは、バレンシアガの白いパファー コートを着た教皇フランシスコの写真で賑わいました。 しかし、写真は本物ではありませんでした。 シカゴ出身の 31 歳の建設作業員が大きな反響を呼んだ Midjourney という人気の AI ツールを使用する.

Isola 博士は、最初はカリフォルニア大学バークレー校と OpenAI の研究者として、その後 MIT の教授として、この種のテクノロジの構築とテストに何年も費やしてきました。 教皇フランシスの完全に偽の写真。

「人々がディープフェイクを投稿しても、私をだまそうとしなかった時期がありました。あまりにも奇妙で非現実的だったからです」と彼は言いました。 「今では、オンラインで見る画像を額面どおりに受け取ることはできません。」

Midjourney は、短いプロンプトからリアルな静止画像を作成できる多くのサービスの 1 つです。 その他のアプリケーションには、Stable Diffusion と DALL-E が含まれます。これは、1 年前に発表されたときにこのイメージ ジェネレーターの波を開始した OpenAI テクノロジです。

Midjourney は、膨大な量のデータを分析してスキルを学習するニューラル ネットワークに依存しています。 何百万ものデジタル画像と、撮影された画像を説明するテキスト キャプションをくまなく調べながら、パターンを探します。

誰かがシステムのイメージを説明するとき、そのイメージが持つ可能性のある機能のリストを作成しています。 特徴の 1 つは、犬の耳の上部の曲線かもしれません。 もう一つは、携帯電話の端かもしれません。 次に、拡散モデルと呼ばれる 2 番目のニューラル ネットワークが画像を生成し、属性に必要なピクセルを生成します。 最後に、ピクセルをコヒーレントな画像に変換します。

約 40 人の従業員を擁し、9,550 万ドルを調達した Runway のような企業は、この技術を使用して動画を作成しています。 何千ものビデオ クリップを分析することで、彼らの技術は多くの静止画像を同様の一貫した方法でつなぎ合わせる方法を学習できます。

「ビデオは単なる一連のフレーム (静止画像) であり、動きの錯覚を与える方法で組み合わされています」と Valenzuela 氏は言います。 「コツは、各フレームワーク間の関係と一貫性を理解するモデルをトレーニングすることです。」

DALL-E や Midjourney などの楽器の初期バージョンと同様に、このテクニックはコンセプトとイメージを奇妙な方法で組み合わせることがあります。 バスケットボールをしているクマを注文すると、LED バスケットボールで変身するぬいぐるみのようなものをくれるかもしれません。 公園で携帯電話を持っている犬に尋ねると、エイリアンの人間の体を持った携帯電話を持った子犬を教えてくれるかもしれません。

しかし、専門家は、ますます多くのデータでシステムをトレーニングすることで、欠陥を修正できると考えています。 彼らは、テクノロジーによって最終的に動画の作成が文章を書くのと同じくらい簡単になると信じています。

「昔は、このようなことをリモートで行うには、カメラ、小道具、場所、許可が必要でした」と、ペンシルベニア州の作家兼出版社であるスーザン ボンサー氏は述べています。ジェネレーティブ ビデオ テクノロジーの初期の化身だった州は、「お金を持っているべきだった」と叫びます。 座って想像してみてください。」

READ  WhatsApp は新しいパスキー セキュリティ レイヤーを実装しています