11月 12, 2024

kenmin-souko.jp

日本からの最新ニュースと特集:ビジネス、政治、解説文化、ライフ&スタイル、エンターテインメント、スポーツ。

Googleが「プロジェクト・エルマン」を検討 ジェミニはAIを使って人生の物語を語る

Googleが「プロジェクト・エルマン」を検討 ジェミニはAIを使って人生の物語を語る

  • Elman プロジェクトは、人工知能を使用してユーザーが自分のライフ ストーリーの「全体像」を把握できるようにするという Google の内部提案です。
  • そのアイデアは、Gemini のような LLM を使用して、検索結果を取り込み、ユーザーの写真のパターンを識別し、チャットボットを作成し、人の人生についての「以前は不可能だった質問に答える」ことです。
  • チームはまた、「ChatGPT を開いたところを想像してみてください。しかし、それはすでにあなたの生活についてすべてを知っています。」という説明とともに「Ellmann Chat」を披露しました。

Googleのチームは、人工知能技術を利用して、写真や検索などのモバイルデータを使用してユーザーの生活を包括的に把握することを提案した。

伝記作家で文芸評論家のリチャード・デイビッド・エルマンにちなんで「プロジェクト・エルマン」と名付けられたこのアイデアは、ジェミニのような修士号取得者を利用して、研究結果を取り込み、ユーザーの写真のパターンを特定し、チャットボットを作成し、「以前は不可能だった質問に答える」というものだ。 Business Insiderのレポートによると」。 CNBCが見た番組の転写。 そこには、エルマンの目標は「あなたの人生のストーリーテラー」になることだと書かれています。

同社がこれらの機能をGoogleフォトやその他の製品内で実現する計画があるかどうかは明らかではない。 同社によると、Google フォトには 10 億人以上のユーザーがおり、4 兆枚の写真とビデオが存在する ブログ投稿

Ellman プロジェクトは、Google が AI テクノロジーを使用して製品を作成または改善することを提案している多くの方法の 1 つにすぎません。 Googleは水曜日、最新の「最も有能な」高度なAIモデルであるGeminiを発表したが、これは場合によってはOpenAIのGPT-4を上回る性能を発揮した。 同社は、独自のアプリケーションで使用できるよう、Google Cloud を通じてさまざまな顧客に Gemini のライセンスを供与する予定です。 Gemini の注目すべき機能の 1 つは、マルチモーダルであることです。これは、画像、ビデオ、音声など、テキストを超えた情報を処理して理解できることを意味します。

CNBCが確認した文書によると、Google Photosのプロダクトマネージャーは、最近の社内サミットでGeminiチームとともにエルマン氏のプロジェクトを紹介したという。 彼らは、チームが過去数か月を費やして、大規模な言語モデルが、人の人生の物語に対するこの総合的なアプローチを現実にするための理想的なテクノロジーであることを特定したと書いています。

エルマン氏は、伝記、前後の瞬間、残像を使用してコンテキストを描画し、「ラベルとメタデータを備えた単なるピクセル」よりもユーザーの写真をより深く説明できるとプレゼンテーションで述べています。 彼は、大学時代、ベイエリア時代、親としての時代など、一連の瞬間を正確に特定できるようにすることを提案しています。

土の中で犬と遊ぶ少年の写真の隣には、「あなたの人生を総合的に見なければ、難しい質問に答えたり、良い話をしたりすることはできません」と説明が書かれています。

「私たちはあなたの写真を調べ、そのタグと場所を調べて、意味のある瞬間を特定します」とプレゼンテーションのスライドには書かれています。 「私たちが一歩下がってあなたの人生全体を理解すると、あなたの全体的なストーリーが明らかになります。」

大規模な言語モデルは、ユーザーの子供の誕生などの瞬間を推測できる可能性があるとプレゼンテーションでは述べられている。 「この法学修士は、木のてっぺんから得た知識を利用して、これがジャックの誕生であり、彼がジェームズとジェマの最初で唯一の子供であると推測することができます。」

「LLM がこの開発アプローチにとって非常に強力である理由の 1 つは、このツリー全体のさまざまな高さすべてから非構造化コンテキストを取得し、それを使用してツリーの他の領域の理解方法を改善できることです」とスライドを読んでください。ユーザーの人生の瞬間やさまざまな「章」をイラストで表現します。

発表者は、ユーザーが最近同窓会に出席したことを特定する別の例を示しました。 「彼が卒業してからちょうど10年が経ち、10年間会っていなかった顔がいっぱいなので、おそらく同窓会になるでしょう」とチームはプレゼンテーションで締めくくった。

チームはまた、「ChatGPT を開いたところを想像してみてください。しかし、それはすでにあなたの生活についてすべてを知っています。何を質問しますか?」という説明付きの「Ellmann Chat」も披露しました。

ユーザーが「ペットを飼っていますか?」と尋ねるチャット フォームが表示されます。 彼は「はい、ユーザーは赤い毛並みの犬を飼っています」と答え、その犬の名前とよく一緒にいる家族の名前を教えてくれました。

チャットの別の例は、兄弟が最後に行った訪問についてユーザーに尋ねることです。 別の人は、引っ越しを考えているので、住んでいる場所に似た都市を挙げてほしいと頼んだ。 エルマンはその両方に答えた。

他のスライドでは、Elman がユーザーの食習慣の概要も提供していることが示されています。 「イタリア料理がお好きのようですね。パスタ料理の写真も何枚かありますし、ピザの写真もありますね。」 また、写真の 1 枚に見覚えのない料理が含まれていたため、ユーザーは新しい料理を楽しんでいたようだとも述べました。

この技術はまた、ユーザーのスクリーンショットに基づいて、ユーザーが購入を検討している製品、興味、仕事や旅行の計画も特定したとプレゼンテーションには記載されている。 彼女はまた、Google Docs、Reddit、Instagram の例を挙げて、彼らのお気に入りの Web サイトやアプリを見つけられるだろうと提案しました。

Googleの広報担当者はCNBCに対し、「Googleフォトは常にAIを活用して人々の写真やビデオの検索を支援してきたが、LLMがより有用な体験をもたらす可能性に我々は興奮している」と述べ、「これはチームがブレインストーミング中のコンセプトだ」と語った。発見段階: いつものように、私たちは時間をかけて責任を持ってこれを行い、ユーザーのプライバシーを最優先に保護します。

エルマン氏が提案したプロジェクトは、テクノロジー大手間の軍拡競争においてグーグルが、よりパーソナライズされた人生の思い出を作り出すのに役立つ可能性がある。

Google フォトと Apple フォトは長年にわたり、「思い出」を提供し、写真のトレンドに基づいてアルバムを作成してきました。

11 月の Google 発表する AI の助けを借りて、Google フォトは類似した写真をグループ化し、スクリーンショットを見つけやすいアルバムに整理できるようになりました。

Appleは6月、最新のソフトウェアアップデートに写真アプリに写真の中の人、犬、猫を認識する機能が含まれると発表した。 実は 顔を並べ替えます これにより、ユーザーは名前で検索できるようになります。

Apple はまた、次期 Journal アプリも発表しました。このアプリは、オンデバイス AI を使用してパーソナライズされた提案を作成し、ユーザーに最近の写真、場所、音楽、ワークアウトに基づいて思い出や経験を説明する文章を書くよう求めます。

しかし、Apple、Google、その他のテクノロジー大手は、画像を適切に表示および識別するという複雑な課題に依然として取り組んでいます。

たとえば、AppleとGoogleは2015年に同社が黒人をゴリラとして誤って分類していたことが判明したとの報道を受けて以来、依然としてゴリラというラベルを避けている。 ニューヨークタイムズ 調査 今年、世界中のほとんどのスマートフォンでサポートされているアップルとグーグルのアンドロイド・ソフトウェアが、人を動物に分類することを恐れて霊長類を視覚的に検索する機能をオフにしていたことが判明した。

時間の経過とともに、Google、Facebook、Apple などの企業は、不要な記憶を減らすための制御を追加してきましたが、ユーザーから時折報告がありました。 静止した表面 不要なメモリがあり、それを減らすためにユーザーはいくつかの設定を切り替える必要があります。

CNBC PRO からの次のストーリーをお見逃しなく。

READ  iPhone 15 Proのソリッドステートボタンの感度は、ケースや手袋に合わせてカスタマイズ可能