『State of AI Report 2024』（4）- LLM 関連

论LLM对股价的影响

Meta 在公共市场上引发了巨大的“气场”转变，他们果断放弃了巨额的元宇宙投资，转而全力投入开源 AI 领域，推出了 Llama 模型。马克·扎克伯格俨然成为开源 AI 领域的“领军人物”，与 OpenAI、Anthropic 和 Google DeepMind 分庭抗礼。最近一次听开复老师分享，他的总结很有意思，这么多年，扎克伯格有一招鲜：免费🆓！

以下是 Meta 相关的重要时间节点：

2021年10月28日：宣布元宇宙投资计划。
2022年11月9日：大规模裁员，逐步削减元宇宙投资。
2023年2月24日：发布 Llama 1 模型。
2023年7月18日：发布 Llama 2 模型。
2024年4月18日：发布 Llama 3 模型。
2024年7月23日：发布 Llama 3.1，参数达到 405B。
2024年9月25日：发布 Llama 3.2 模型。

质量、速度、价格的（不）可能三角

模型变得更便宜

AI 编程：兵家必争之地

在夏季，Anthropic 和 Vercel 相继推出了他们的聊天代理 Claude 和 V0，能够在浏览器中打开编程环境，编写并运行代码以解决用户需求。这一突破将以往静态的代码片段“活化”，让用户能够与代理进行实时迭代，极大降低了软件产品开发的门槛。毫无疑问，社交媒体上的 GenAI 粉丝对此欢欣鼓舞！以下是 Claude Artifacts 和 V0 从单一提示生成可玩的扫雷游戏的示例。

Github 目前依然是最广泛使用的 AI 开发者工具，其核心产品 Copilot 的年增长率高达 180%，年营收现已达到 20 亿美元（是 2022 年数据的两倍）。Copilot 现占 Github 收入的 40%，仅它一项业务的规模就已超越了微软收购 Github 时的整体业务。然而，它只是众多 AI 编程公司中的一员，其中一些公司正在进行巨额融资（如下图）。

Cognition 在今年三月推出了 Devin，这款被称为“首个 AI 软件工程师”的产品，引发了广泛关注。它旨在规划和执行需要成千上万个决策的任务，能自动修复错误并在过程中学习。

这一产品引起了用户的两极分化，有的用户成为了忠实粉丝，而另一些人则批评它缺乏足够的安全保障，仍然需要人工干预。不管怎样，投资者对其前景十分看好，在发布六个月内，Devin 公司的估值就达到了 20 亿美元。

Devin 还有一个开源竞争对手 OpenDevin，后者在软件工程基准测试 (SWE-bench) 中比 Devin 高出 13 个百分点。

Meta 的 TestGen-LLM 在短短四个月内从论文走向产品，并成功整合到 Qodo 的 Cover-Agent 中，显示出极快的研发速度。（这个前天的分享提到了这个研究：《State of AI Report 2024》（3）- 游戏Agent、代码测试、企业自动化领域的AI研究）

AI 搜索

Perplexity 凭借筹集的 1.65 亿美元资金，成为最受关注的 AI 搜索挑战者之一，而 Google 也在推出其搜索摘要功能。这两家公司都发现，生成的结果质量取决于信息来源的准确性。

自成立仅18个月，Perplexity 的估值就达到了 10 亿美元，甚至有传闻称其目标是将估值再翻两番。该 LLM（大语言模型）通过分析用户输入，从网络搜索或其知识库中获取响应信息，并生成带有内嵌引用的摘要。

Google 则通过推出摘要框，展示其 Gemini 模型提升传统搜索体验的潜力。然而，这两项服务在可靠性上都面临挑战。Gemini 被发现使用讽刺性 Reddit 帖子作为建议来源（例如，建议用户每天吃一块石头），而 Perplexity 也面临与其他 LLM 服务相同的“幻觉”问题。回到Google 做AI搜索，开复老师分享中也提到，感觉对 Google 冲击很大，就是要革自己的命。

OpenAI 也开始测试其原型搜索功能——SearchGPT，未来将整合到 ChatGPT 中。尽管技术细节尚未公布，但从宣传图片来看，SearchGPT 的用户体验可能与 Perplexity 相似。

最近我还看到的另一个新产品 Beago 也表现得非常出色，值得关注。