AIニュース速報!ChatGPTタスク、驚異的LLM、仮想試着ツール、そして驚愕の動画生成AI!
- 2025-01-22

ChatGPTのタスク機能:期待と現実、そして未来
今週は、様々なAI関連のリリースが目白押しです! 特に注目すべきは、ChatGPTのタスク機能、推理能力に優れたLLM、革新的な仮想試着ツール、そして映像業界を震撼させる動画生成AIです。 これらのツールを詳しく見ていきましょう!
まず、ChatGPTのタスク機能について。デスクトップアプリ(Mac版)では、この機能を効果的に活用できます。アップデートを確認し、タスクを設定することで、より効率的に作業を進められます。
しかし、この機能は「単なる通知アプリの飾り付け」という批判も受けています。確かに現状では、その有用性は限定的と言えるでしょう。 しかし、これは、より高度な機能を備えた今後のアップデートのための布石と考えられます。
ChatGPTタスク機能の限界と可能性
現状のタスク機能は、単なる通知機能の拡張版のように感じられるかもしれません。しかし、個人の文脈に合わせた活用法が秘められています。
- パーソナルコンテキストの活用: 過去のメモリーやカスタムインストラクションと連携させることで、真価を発揮します。
- 毎朝の習慣の自動化: 毎朝、励ましの言葉や今日のやるべきことを伝えるように設定できます。
- モチベーション向上: カスタムされた朝の激励スピーチで、一日をポジティブにスタートできます。
これらの使い方は、単なる通知機能を超えた、真のパーソナルアシスタントとしての可能性を示唆しています。 開発元のOpenAIは、「Operator」という新たな製品を準備しており、タスク機能はその基盤となる機能だと考えられます。 operator.chat.openai.com
というホスト名が既に確認されており、この製品が実現すれば、タスク機能の真の価値が明らかになるでしょう。
推理能力に特化したLLM:新たな競争の始まり
2024年は、GPT-4レベルのモデルがMistral、Llama、Phropicなど、多くの企業からリリースされました。 2025年は、推理能力に優れたLLMが新たな競争の舞台となります。
注目すべきは、SkyT1です。なんと、450ドル以下という驚異的な低コストでトレーニングされました。このモデルは直接使うことは少ないかもしれませんが、推理能力を持つモデルのトレーニングが、従来のゼロからのモデル構築よりも大幅に簡素化できることを示しています。 さらに、コードもオープンソース公開されており、研究開発に役立ちます。
しかし、無料の代替案としては、中国のDeepSeekが有力候補です。 ChatGPT有料プランを利用しているユーザーは、引き続きOught-1を使用するでしょう。
Ought-1の高度なプロンプトエンジニアリング
Ought-1を活用するには、高度なプロンプトエンジニアリングが重要です。Dan Mackによるフレームワークが非常に効果的です。
- 目標ベースのプロンプト: 命令型ではなく、目標を伝えることで、AIの潜在能力を引き出せます。
- フォーマットと避けたい点の指定: 出力のフォーマットを指定し、望ましくない結果を回避する指示を追加します。
- コンテキスト情報の追加: 必要な情報を追加することで、より正確な結果が得られます。
このフレームワークは、目標、フォーマット、避けたい点、コンテキストを明確にすることで、Ought-1からのより良い結果を得るための指針となります。
Ought-1活用事例:デジタルタスクリストの分析
筆者は、過去6ヶ月間のデジタルタスクリストをOught-1 Proで分析しました。 Notionで管理していたタスクを、完了後に「完了タスク」セクションに移動していました。
これらのタスクをOught-1 Proに入力し、タスクの分類システムと、ビジネスオーナーとしての業務委任計画を作成するよう指示しました。結果は驚くべきもので、業務委任計画だけでなく、ロードマップまで作成されました。
仮想試着ツール「Lefta」:AIの可能性を体感
Hugging Faceで公開されている仮想試着ツール「Lefta」は、現状で最も優れたAI仮想試着ツールと言えるでしょう。
- 多様なアイテムに対応: 事前に設定されたアイテムだけでなく、Googleなどで検索したアイテムも試着できます。
- 高い精度: 試着結果の精度は高く、自然な着こなしが再現されます。
- 画像のアップロードに対応: 自分の画像をアップロードして試着することもできます。
例えば、キアヌ・リーブスの画像にスポンジボブのパーカーを着せた例では、その精度と完成度の高さが際立っていました。 これは、友人との遊び心のあるコミュニケーションにも活用できます(もちろん、適切な関係性にある場合に限ります)。
MiniMax Ought-1:世界最長のコンテキスト保持
MiniMaxは、トップクラスのAI動画生成ツールとして知られていますが、今回LLMもリリースしました。その名称はHylioです。無料ですぐに使用できます。
このLLMは、GPT-4レベルの性能を示し、特にコンテキスト保持能力に優れています。
- 驚異的なコンテキスト保持能力:400万トークン これは、ChatGPTの128,000トークン、Google Gemini Pro(AI Studio利用時)の200万トークンを大きく上回ります。
- 高い情報保持精度: 長い文章を処理しても、情報の欠落が少ないのが特徴です。
- Needle in a Haystackベンチマークで満点: 長い文章の中に隠された情報を完璧に抽出します。
Hylioは、既存のLLMとは一線を画す、革命的なLLMと言えるでしょう。
Adobe ResearchによるTransPix2Pix:映像効果の革命
Adobe Researchが開発したTransPix2Pixは、背景が透過された映像を生成するモデルです。これは、VFX(Visual Effects)業界に革命を起こす可能性を秘めています。
- 背景透過映像の自動生成: 手動での背景削除作業を自動化します。
- VFX制作効率の劇的向上: 炎や爆発などのエフェクトを、テキストプロンプトだけで作成できます。
- 高コストなアセットの削減: 高価なアセットを購入したり、3Dモデリングする必要がなくなります。
背景の透過処理は、動画編集において非常に困難な作業ですが、TransPix2Pixはこの作業を大幅に簡素化します。 今後、ComfyUIなどのツールに統合されることが期待されます。
TransPix2Pix:現状の課題と将来性
現状では、生成結果は必ずしも安定しているとは言えず、まだ改良の余地があります。 しかし、将来的には、動画や映画制作において不可欠な技術となる可能性を秘めています。
Hylioの新しい機能:自分自身をAI動画に入れる!
Hylioの動画生成機能に、**「Subject Reference」**という画期的な機能が追加されました。 これにより、自分の画像を使ってAI動画を作成できます。
- 自分自身をAI動画に出演: 様々なシーンやキャラクターに自分自身を登場させることができます。
- クリエイティブな表現の拡大: 想像力を掻き立てる新たな表現方法を提供します。
- 手軽な操作性: 自分の画像をアップロードするだけで、簡単に動画を生成できます。
この機能を使えば、Mad MaxやJohn Wickの世界に自分自身を登場させるなど、これまでにないクリエイティブな動画制作が可能です。
Kokoro:驚くべき高速テキスト読み上げAI
Kokoro(発音:ココロ)は、オープンソースのテキスト読み上げソフトウェアです。
- オープンソースかつ高速: 高速で高品質な音声合成を実現します。
- ElevenLabsレベルの音質: オープンソースながら、ElevenLabsに匹敵する高品質な音声を実現しています。
- 低レイテンシ: 驚くほど短い待ち時間で音声が出力されます。
Hugging Faceの共有GPU環境を使用しているため、状況によってはさらに高速に処理されます。 このソフトウェアは、様々なソフトウェアやハードウェアに組み込むことが可能です。
まとめ:AIの進化は止まらない!
今週紹介したAIツールは、いずれも大きな可能性を秘めています。 これらの技術は、私たちの生活をより豊かにし、クリエイティブな表現をさらに広げる力となるでしょう。 今後の発展に期待しましょう!