Swyx
一边为即将在 aiDotEngineer Singapore 登台的嘉宾与 NanoClaw 相关安排造势,一边抛出一个更偏产品观察的问题:想看 codex 某种使用模式的占比变化,并把它视为 agent 采用度与 alignment 的侧面指标。
以下内容来自今日建造者在 X/Twitter 的公开发言,以及新播客节目。
这期围绕 ElevenLabs 联合创始人 Mati Staniszewski 展开。按转录内容看,最值得记住的主线有三条:第一,ElevenLabs 的起点来自波兰配音体验很差这一现实问题,因此他们一开始就把“保留情绪和语调的跨语言语音”当成长期方向;第二,他们认为 audio 在 2022 年仍是被低估的赛道,模型更小、算力需求相对不同,因此可以用更聚焦的团队切进去并快速商业化;第三,语音的终局不只是 TTS,而是从转录、翻译、配音到实时 voice agent 的整条链路,未来 voice 会成为人与设备、甚至人与 agent 互动的主要接口之一。节目里还提到一些更具体的判断,比如小团队扁平管理、让非技术团队也嵌入工程能力,以及 voice agent 在客服之外,正在向销售、政务、教育与医疗等场景延展。
一边为即将在 aiDotEngineer Singapore 登台的嘉宾与 NanoClaw 相关安排造势,一边抛出一个更偏产品观察的问题:想看 codex 某种使用模式的占比变化,并把它视为 agent 采用度与 alignment 的侧面指标。
今天只有一条很短的转发式表态,强调某篇内容“极其重要”,但没有展开更多具体观点。
(OpenAI VP Science)
集中在一个很实用的提醒:别让 AI 持续生成 markdown / html 后再彼此引用,最初 5% 的“slop”会逐步累积成难以维护的内容堆;另外他也吐槽 Claude Code 有时长时间无反馈,缺少进度沟通。
(Roblox 产品人)
今天只发了一条非常简短的表情帖,没有更多可提炼的产品或行业观点。
(Vercel CEO)
他的核心判断是,agent 会显著降低进入复杂领域的门槛,但真正有经验的人反而会因为判断力、历史语境和纠错能力而更有优势。换句话说,AI 会扩大参与面,也会继续放大专家产出,而不是简单抹平差距。
(Box CEO)
重点是 GBrain v0.31.1 上线 MCP thin client,开始走向 client-server 形态;他还分享了一个使用心得:让 agent 先把系统画成 ASCII 图,再不断追问,有助于理解复杂问题。
(Y Combinator President & CEO)
她的观点很鲜明:在 AI 负责“操作”的时代,输出格式应该从方便人工编辑,转向更适合人类消费;因此 HTML 这类可视化、可交互的产物会比纯文本更重要。
一条偏行业观察,一条偏实操建议。前者调侃创始人和 VC 都觉得“只要说到做到就已经是前 10%”;后者建议把模型的计划与估时改成“按模型自己执行的单位来算”,明确区分模型可完成部分与必须由人完成的阻塞项。
(FPV Ventures partner)
连续展示了几条“codex 真能干活”的例子,包括让 codex 在 PR review 中关注 social signals、借助改进后的 Windows terminal 处理能力完成 gifgrep 的端到端修复,以及把 Spotify CLI 工作流做得更顺手。
他对“故意把工具用差来证明它不行”的科学或媒体做法很不以为然;同时也提醒,benchmark 不只是在测模型能力,还在测人类是否找到了能把模型能力激发出来的 prompt,这本身就是一种高技能劳动。
(Every CEO)
今天的几条帖子都围绕 codex 与“5.5”展开:他把 5.5 形容为能力很强但命名品味奇怪,也说并行丢出一批 codex 任务、带孩子出门后回来发现都做完了,这种体验让他对未来非常乐观。