Grok 3 (xAI的AI模型)

关键要点

Grok 3 是一款由 xAI 开发的个人助理 AI，2025 年 2 月发布，擅长网络搜索和回答问题。
Grok 3 在数学、科学和编码基准测试中表现优异，声称超过 GPT-4o 和 Gemini。
目前通过 X 平台 Premium+ 订阅或 SuperGrok 计划可访问，短期内对所有 X 用户免费。
未来计划包括语音模式和 API 访问，社区反应总体积极但对幽默感有争议。

Grok 3 简介

Grok 3 是一款由 xAI 开发的先进大型语言模型（LLM），由埃隆·马斯克于 2023 年创立的公司开发。它于 2025 年 2 月发布，旨在作为个人助理 AI，能够执行网络搜索和其他操作，以准确回答用户问题。研究表明，Grok 3 在推理、问题解决和实时信息提供方面表现出色，特别是在数学、科学和编码领域。

图片来源：yahoo

Grok 3的发展与访问

编辑

Grok 3 是 xAI 系列模型的最新版本，前身包括 2023 年发布的 Grok 和后续的 Grok-2。它使用 200,000 个 GPU 训练，计算能力是前代模型的 10 倍，目前可通过 X 平台的 Premium+ 订阅（每月 40 美元）或 SuperGrok 计划（每月 30 美元）访问。意外的是，截至 2025 年 3 月 8 日，Grok 3 短期内对所有 X 用户免费开放，增加了其普及度。

Grok 3的功能与表现

编辑

Grok 3 的独特功能包括高级推理能力、实时网络搜索、多模态图像理解和生成，以及“Think 模式”和“Big Brain 模式”以处理复杂问题。它在 AIME 2025 数学测试中得分 93.3%，Chatbot Arena 评分为 1402，声称超过 OpenAI 的 GPT-4o 和 Google's Gemini。然而，一些用户报告在复杂编码任务中表现不一。

Grok 3 的未来和对AI领域的影响

编辑

未来计划包括几周内添加语音模式，通过 API 平台提供访问，并计划开源 Grok-2。社区反应总体积极，专家如 Andrej Karpathy 称其推理模式为“最先进的”，但对幽默感和伦理敏感性有争议。Grok 3 被视为 AI 领域的重要竞争者，可能影响就业和伦理讨论。

发展历史

编辑

xAI 成立于 2023 年，旨在通过 AI 加速人类科学发现，其旗舰产品 Grok 系列模型体现了这一愿景。Grok 首次于 2023 年推出，随后是 Grok-2，Grok 3 是最新版本，于 2025 年 2 月 17 日发布。训练过程利用了位于孟菲斯的 Colossus 超级计算机，配备 200,000 个 NVIDIA H100 GPU，计算能力是前代模型的 10 倍，训练时间仅需 92 天。这种大规模计算资源的使用使其在推理和问题解决方面表现出色。

xAI 还筹集了超过 120 亿美元的资金，最近一次是在 2024 年 12 月 23 日由 Fidelity、BlackRock 和 Sequoia Capital 支持的 60 亿美元融资轮。这表明公司有能力持续投资于 AI 研究和模型开发。

Grok 3 的核心功能

编辑

高级推理

通过“Think 模式”和“Big Brain 模式”，Grok 3 能够逐步解决复杂问题，特别是在数学、科学和编码领域。用户可以通过点击“Think”按钮查看其推理过程。

网络搜索集成

配备 DeepSearch 工具，Grok 3 可以实时搜索网络，提供最新的信息，例如苹果发布传闻或股票激增的动态，类似于 OpenAI 的 Deep Research。

多模态能力

Grok 3 支持图像理解和生成，特别是在视觉数学推理和文档问题回答方面表现出色。

高效性

训练规模使其处理速度快，响应时间通常在几秒内完成复杂查询。

访问性

初期通过 X 平台的 Premium+ 订阅（每月 40 美元）和 SuperGrok 计划（每月 30 美元）提供，SuperGrok 包括无限图像生成和额外推理查询。

意外的是，2025 年 2 月 20 日，xAI 宣布 Grok 3 短期内对所有 X 用户免费开放，增加了其普及度，但免费用户可能面临服务器限制。

Grok 3 性能比较

编辑

Grok 3 在多个基准测试中表现出色：

AIME 2025 数学测试：得分 93.3%，超过 GPT-o1 的 79%。
Chatbot Arena：评分为 1402，超过 Gemini 2.0 Flash Thinking 的 1385。
编程推理：在编程任务中得分 79，超过 DeepSeek-R1 的 65。

然而，性能并非完美无缺。Andrej Karpathy 在 X 上指出，Grok 3 在复杂编码任务中不如 GPT-4o 和 Claude，尤其是在 Unicode 表情符号谜题挑战中失败，而 DeepSeek-R1 表现更好。此外，一些用户报告其在处理细微复杂的逻辑问题时不一致，可能影响高风险场景的可靠性。

图片来源：www.analyticsvidhya.com

以下是与主要竞争对手的比较表

编辑

模型	AIME 2025 (%)	Chatbot Arena (ELO)	编程推理得分	优势领域
Grok 3	93.3	1402	79	数学、科学、实时搜索
GPT-4o	79	-	-	语言理解、创意写作
Gemini 2.0	54	1385	-	多模态处理、文档分析
DeepSeek-V3	75	-	65	编程、逻辑推理

Grok 3 的访问方式

编辑

免费访问：2025 年 2 月 20 日起，短期内对所有 X 用户免费，但可能受服务器限制。
Premium+ 订阅：每月 40 美元，提供增加的使用限制和早期功能访问，如 Voice Mode。
SuperGrok 计划：每月 30 美元或每年 300 美元（根据泄露信息），包括无限图像生成和额外推理查询。
独立平台：通过 Grok.com 网站和移动应用访问，需订阅 SuperGrok。
用户可以通过 LMArena.ai 的“Direct Chat”模式免费测试早期版本，但功能可能有限。

未来计划与发展

编辑

xAI 为 Grok 3 规划了多项未来更新：

语音模式

预计几周内推出，赋予 Grok 3 合成语音功能，增强交互性。

API 访问

几周内通过 xAI 的 API 平台提供 Grok 3 和 Grok 3 mini，供企业用户使用。

开源计划

计划在未来几个月内开源 Grok-2，当 Grok 3 成熟稳定后执行。

持续开发

Grok 3 的训练仍在进行，每 24 小时更新以改善性能，特别是在可扩展监督和对抗鲁棒性方面。

社区反应与影响

编辑

Grok 3 的发布引发了广泛讨论，总体反应积极。Andrej Karpathy 在 X 上称其“Think 模式”为“最先进的”，特别是在解决 Settlers of Catan 编程任务和复杂数学问题方面。然而，他也批评其幽默感“过于敏感”，在伦理问题上表现保守。

用户测试显示，Grok 3 在文化参考分析和实时研究方面表现出色，例如解释 90 年代冷门情景喜剧的黑色幽默，但创意写作和幽默生成方面稍逊于竞争对手。社区对免费访问的短期开放表示欢迎，但对 Premium+ 订阅价格从 22 美元涨至 40 美元的调整有争议。

Grok 3 被视为 AI 领域的重大竞争者，可能影响就业市场，特别是内容创作和客户支持领域，同时引发伦理讨论，如 AI 决策的透明度和潜在偏见。

关键引用

编辑

百科词条作者：小小编，如若转载，请注明出处：https://glopedia.cn/382120/