- Elon Musk 的 xAI 宣布推出 Grok-1.5 Vision 或 Grok-1.5V。
- rok-1.5V 是该公司的首款多模式模型,很快将向早期测试者和现有 Grok 用户提供。
- rok-1.5V 可以处理文本和视觉信息。
Elon Musk 在Google 推出 Gemini 1.5几天后推出了 Grok-1.5 LLM 。虽然马斯克的 xAI 声称其模型接近 GPT-4 性能,但它不具备多模态能力。然而,该公司最近发布的 Grok-1.5 Vision 没有这个限制,因为它可以处理文本和视觉信息。
什么是 Grok-1.5 Vision (Grok-1.5V)?何时推出?
Grok-1.5V 是 xAI 的第一代多模态模型,旨在连接数字世界和物理世界。该公司在博客文章中表示:“Grok 在衡量现实世界空间理解的新 RealWorldQA 基准测试中表现优于同行。 ”此外,Grok-1.5V 可以“处理各种视觉信息,包括文档、图表、屏幕截图和照片”。
例如,它可以做的一些令人兴奋的事情包括从图表中编写代码、计算卡路里、根据图画制作睡前故事、帮助您理解模因等等。 xAI 声称,在 RealWorldQA 基准测试中,Grok-1.5V 的表现优于其竞争对手 LLM,包括 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro。
xAI 强调说:“在我们新的 RealWorldQA 基准测试中,Grok 的表现优于同行,该基准测试衡量现实世界的空间理解。”
Grok-1.5V 目前尚未推出,但很快就会向早期测试者和现有 Grok 用户提供预览版。虽然 xAI 尚未具体说明发布日期,但它承诺进一步推进“多模态理解”和“生成能力”,并对图像、音频和视频等各种模态带来改进。