马斯克 (Elon Musk) 的 xAI 宣布推出具有多模式功能的 Grok-1.5 Vision-ChatGPT国内镜像中文交流-IntelliRealm

Elon Musk 的 xAI 宣布推出 Grok-1.5 Vision 或 Grok-1.5V。
rok-1.5V 是该公司的首款多模式模型，很快将向早期测试者和现有 Grok 用户提供。
rok-1.5V 可以处理文本和视觉信息。

Elon Musk 在Google 推出 Gemini 1.5几天后推出了 Grok-1.5 LLM 。虽然马斯克的 xAI 声称其模型接近 GPT-4 性能，但它不具备多模态能力。然而，该公司最近发布的 Grok-1.5 Vision 没有这个限制，因为它可以处理文本和视觉信息。

什么是 Grok-1.5 Vision (Grok-1.5V)？何时推出？

Grok-1.5V 是 xAI 的第一代多模态模型，旨在连接数字世界和物理世界。该公司在博客文章中表示：“Grok 在衡量现实世界空间理解的新 RealWorldQA 基准测试中表现优于同行。 ”此外，Grok-1.5V 可以“处理各种视觉信息，包括文档、图表、屏幕截图和照片”。

例如，它可以做的一些令人兴奋的事情包括从图表中编写代码、计算卡路里、根据图画制作睡前故事、帮助您理解模因等等。 xAI 声称，在 RealWorldQA 基准测试中，Grok-1.5V 的表现优于其竞争对手 LLM，包括 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro。

xAI 强调说：“在我们新的 RealWorldQA 基准测试中，Grok 的表现优于同行，该基准测试衡量现实世界的空间理解。”

Grok-1.5V 目前尚未推出，但很快就会向早期测试者和现有 Grok 用户提供预览版。虽然 xAI 尚未具体说明发布日期，但它承诺进一步推进“多模态理解”和“生成能力”，并对图像、音频和视频等各种模态带来改进。