米OpenAIは4月21日(現地時間)、画像生成モデルの新版「ChatGPT Images ...
2026年4月16日、テンセント(Tencent)はマルチモーダル3Dワールドモデル「HY-World 2.0」の技術レポートおよび一部コードをオープンソースで公開しました。テキスト・単眼画像・複数視点画像・動画など多様 […] ...
「GPT-image-2」は、OpenAIが2026年4月21日(米国時間)に発表した最新の画像生成AIモデルです。従来のモデルでは、生成画像内に日本語テキストを正確に表示することが課題でしたが、「GPT-image-2」では、文字の描画精度と多言語 ...
米Adobeは10月28日(日本時間)、同社の生成AI「Adobe Firefly」の機能アップデートを発表した。画像生成では、最新モデル「Adobe Firefly Image Model 5」を追加し、テキストプロンプトによる画像編集に対応。また、新機能として「サウンドトラックを生成」および ...
米Googleは4月15日(現地時間)、最新のテキスト読み上げ(Text-to-Speech)モデル「Gemini 3.1 Flash TTS」を発表した。「Gemini API」や「Google AI Studio」(開発者向け)、「Vertex ...
Metaがテキストや視覚的なサンプルをプロンプトとして使用し、画像やビデオ内のオブジェクトを検出、分割、追跡するための統合モデル「Meta Segment Anything Model 3(SAM 3)」を発表しました。 Introducing Meta Segment Anything Model 3 and Segment Anything Playground https://ai.meta ...
会員(無料)になると、いいね!でマイページに保存できます。 Inception Labsが開発したMercury 2は、拡散モデルに基づいて設計された世界最速クラスの推論LLMである。従来のLLMが1トークンずつ順番にデータを処理する自己回帰型のシーケンシャルデコードを ...
中国テンセント(Tencent)社は9月25日(木)、3Dアセット生成AI「Hunyuan3D」の応用技術「Hunyuan3D-Part」をオープンソース(独自ライセンス)で公開した。3Dモデル全体を一度に生成するだけでなく、テキストプロンプトの指示により、特定のパーツだけを自由に ...
- 音声対応LLM、リアルタイム音声対話、TTS、ビジョンエンコーダの4モデルを公開 - ビジョンエンコーダは既存モデルを使わずスクラッチから学習 (株)KRAFTON(代表取締役 キム・チャンハン)は、新たにAIモデルブランド『Raon』(ラオン)を発表しました。 音声対応 ...
4種類のAIモデルをオープンソースで公開、音声・マルチモーダル領域を強化 音声対応LLM、リアルタイム音声対話、TTS、ビジョンエンコーダの4モデルを公開 ビジョンエンコーダは既存モデルを使わずスクラッチから学習 (株)KRAFTON(代表取締役 キム・チャン ...
OpenAIが音声の文字起こしが可能なAIモデル「gpt-4o-transcribe」および「gpt-4o-mini-transcribe」をリリースすると同時に、テキストを読み上げる音声生成モデル「gpt-4o-mini-tts」もリリースしました。無料でgpt-4o-mini-ttsを試せるデモが用意されているので使ってみました。