GPT-4o 对设计师意味着什么-ChatGPT国内镜像中文交流-IntelliRealm

OpenAI 宣布了 GPT-4o。我观看了 OpenAI 的直播活动和发布的演示。

虽然大多数更新的功能（例如实时音频和视频）尚未发布，但我将用这篇文章来谈谈我对 GPT-4o 潜力的初步印象。

1. 多模式功能开辟了一系列令人兴奋的应用。

GPT-4o 中的“o”代表“omni”（拉丁语中意为“全部”）。它接受任意组合的文本、音频和图像输入，并生成任意组合的文本、音频和图像输出。

处理听到和看到的内容的速度和质量比 GPT-4 有了显著提升。对于 GPT-4 来说，音频转文本、文本转文本和文本转音频是三个独立的模型。它们之间不可避免地存在滞后，某些信息可能会丢失。

GPT-4o 是一个新训练的单一模型，它将文本、视觉和音频连接起来，所有输入和输出都由同一个神经网络处理。它甚至可以检测音调、多个说话者和背景噪音。

这种简化的多模式交互让我想到了一些以前不可能实现的设计师用例。

场景1——用户访谈分析

https://www.youtube.com/watch?v=kkIAeMqASaY

当我观看这个演示视频时，我想到了我过去进行过的用户访谈。

如果 ChatGPT（使用 GPT-4o 模型）可以充当现场用户访谈中的会议助手，那么这将开辟一个新世界。它不仅可以做笔记，还可以检测面部表情和语调等细微的东西。这些非语言信息很有价值。

例如，我不必花时间多次重看用户测试录像，只为了记录谁说了什么以及他们怎么说。此外，检测到的情绪可以作为访谈报告的一部分。

场景 2——设计评审

同样，在用户访谈中，如果 GPT-4o 可以处理视觉和声音并提供实时反馈，它也可以作为设计评审的合作伙伴。

想象一下，如果 ChatGPT 可以观察设计并聆听设计师之间的对话。ChatGPT 可以提供实时设计反馈并总结对话中的要点。

场景 3 - 实时设计协助

该演示视频展示了使用 GPT-4o 模型的 ChatGPT 如何处理视觉效果并与用户进行实时对话。

如果 ChatGPT 可以观察我的设计并提供指导，那就太棒了。例如，当我在 Figma 中创建线框时，ChatGPT 可以与我进行实时对话，提供建议和调整。

2.反馈明显更快。

虽然 GPT-4o 的视觉和音频功能还没有发布，但至少我的账户中的文本到文本模型已经更新了。

我切换到 GPT-4o 并测试它与 GPT-4 相比的表现如何。

我在网上随便找了一个应用程序设计的草稿，并让 ChatGPT（使用 GPT-4o 模型）为我提供一些改进 UI 设计的建议。

然后我切换到 GPT-4 并询问同样的提示。

结果如下 — — 质量相似，但信息量比 GPT-4o 少。

然而，GPT-4 的速度比 GPT-4o 慢得多。GPT-4o 至少比 GPT-4 快 2 倍。

然后，我要求 ChatGPT（GPT-4o）给我提供一些布局与我提供的 UI 类似的真实示例。

令人惊讶的是，所有示例都与专注于“课程”和“作业”的移动应用有关。这表明 ChatGPT 检测到我提供的 UI 是针对与课程相关的移动应用的。

最后，我切换到 GPT-4 并提出同样的后续问题。

结果的质量不如 GPT-4o 的好——只有一个例子，Google Classroom，是一款课程主题的应用程序。其他例子只关注简洁的布局，但与 GPT-4o 的建议不太相关。

概括

GPT-4o 明显比 GPT-4 快。

GPT-4o 的文本到文本生成质量略优于 GPT-4。

GPT-4o 的多模式功能为设计师开辟了巨大的潜力。

GPT-4o 的新功能将在未来几个月内持续推出。