分享好友 资讯首页 资讯分类 切换频道

工程院院士与DeepSeek过了一招 究竟是怎么过招的?

2025-03-03 10:48130鼎巢网上观新闻
 【工程院院士与DeepSeek过了一招】近日,DeepSeek的出现引发了全球科技领域的广泛关注和深入讨论。中国科协会刊《科技导报》2025年第3期刊发了中国计算机学会原理事长李国杰院士的文章《DeepSeek引发的AI发展路径思考》,探讨了DeepSeek背后所蕴含的AI发展路径问题。

工程院院士与DeepSeek过了一招
工程院院士与DeepSeek过了一招

李国杰是中国工程院院士、发展中国家科学院(TWAS)院士,研究方向涵盖计算机体系结构、并行算法、人工智能等多个领域。

DeepSeek的横空出世是人工智能发展史上的标志性事件。短短7天内,用户增长超过1亿,打破了用户增长速度的世界纪录。与此同时,英伟达股价单日暴跌17%,市值缩水5890亿美元,创下美国上市公司单日最大损失纪录。这表明,高算力和高投入不再是发展人工智能的唯一途径,集成电路制程优势也不再等于人工智能技术霸权。DeepSeek引领行业进入以算法和模型架构优化为主的新时期,同时高度重视数据质量和规模,并理性提高算力。此外,DeepSeek标志着中国科技公司从“追赶者”变为“规则改写者”,在全球人工智能领域展现出颠覆性创新。

全球人工智能龙头企业纷纷拥抱DeepSeek,微软最早宣布将其R1模型添加到Azure AI Foundry,亚马逊云科技(AWS)、英伟达、超威半导体(AMD)等也相继部署DeepSeek V3和R1模型。上亿用户和众多大公司根据性价比和亲身体验主动融入DeepSeek生态。DeepSeek推出的高效率、低成本推理模型和开源商业模式,引领了人工智能行业新潮流。

V3和R1模型受欢迎的原因在于其在模型算法和系统软件层次的重大创新。V3模型参数量高达6710亿,但采用混合专家模型(MoE)架构后,每次调用仅激活约370亿个参数,显著降低了训练计算成本。改进的多头潜在注意力机制(MLA)减少了键值缓存开销,将显存占用降至其他大模型的5%~13%,提升了运行效率。R1模型摒弃传统监督微调(SFT),提出群组相对策略优化(GRPO),通过强化学习激发推理能力,简化了训练流程。这些发明虽非首次提出,但DeepSeek通过努力将技术做到极致,在前人成果基础上登上新的技术高峰。

第3波人工智能兴起后,美国政府、AI龙头企业和投资界认为高算力是发展人工智能的关键。特朗普签署法案启动星际之门计划,投资5000亿美元打造基础设施。然而,DeepSeek的成功揭示了真相,即推理模型开发比想象中简单,各行各业都能参与。初生牛犊不怕虎的中国科技工作者戳破了纸老虎,展示了其实力。

2020年,OpenAI发表论文提出规模法则,认为增加模型规模、数据量和计算资源可以显著提升性能。但规模法则并非科学定律,而是经验归纳。近几年大模型训练效果表明,要获得线性增长需高指数性增加投入,这种模式难以持久。理查德·萨顿指出,虽然规模法则有效,但它不是解决所有问题的万能钥匙,AI系统还需具备持续学习、适应环境等能力。

DeepSeek的出现迫使AI界重新思考技术路线:是继续追求高算力还是在算法优化上下功夫?DeepSeek标志着从外延式发展阶段转向集约化系统优化阶段。尽管成功并未否定算力的重要性,但绿色发展和降低能耗成为重要目标。

通用人工智能是一个模糊概念,OpenAI追求的是多个领域处理复杂问题的能力。莫拉维克悖论指出,复杂问题易解而简单问题难解。因此,学术界更关注智能系统的持续学习和自我改进能力。实现通用智能是渐进过程,不会因某项技术突然到来。

DeepSeek和OpenAI都以通用人工智能为目标,但路径不同。OpenAI通过扩大模型规模希望先做出通用基础模型再蒸馏出垂直模型。DeepSeek则走“由专到通”的道路,通过模型算法和工程优化探索受限资源下的通用智能。未来可能是通专融合,形成智能时代产业新生态。

科技界公认图灵是人工智能奠基人,他提出了计算模拟人类智能的假说。迄今为止,人工智能成果离不开计算,但高算力是否本质需求值得深思。人脑高效低功耗是因为分布式模拟计算。深度学习奠基人辛顿提出“凡人计算”,采用与人脑相同的存算一体模拟计算方式,追求高算效和高能效,这是正确方向。

斯坦福大学华裔科学家团队基于阿里通义千问模型,结合谷歌AI推理模型Gemini 2.0 Flash Thinking Experimental,使用16个英伟达H100 GPU进行了26分钟训练,以不到50美元费用成功训练出s1模型,性能超越高端模型。低成本模型显示出巨大潜力。

过去几年,开源大模型性能始终落后于闭源大模型,但DeepSeek改变了这一局面,增强了开源社区信心。杨立昆认为开源模型正在超越闭源模型,改变发展模式比单项技术突破更重要。DeepSeek彻底开源模式破解了企业数据安全难题,真正实现了技术民主化。

长期以来,美国AI龙头公司夸大开源AI的安全风险,抑制开源AI发展。事实上,开源模型对全球AI供应链至关重要,尤其是发展中国家。若美国继续设置障碍,中国有望在开源AI全球供应链中占据核心地位。真正的AI竞争不仅是技术和模型的竞争,更是生态系统、商业模式和价值观的竞争。开源战略将证明谁拥抱开源,谁就能赢得未来。

有人认为ChatGPT是0到1的突破,而DeepSeek只是1到N的扩展,但这不符合人工智能发展历史。中国企业在应用创新和商业模式创新方面表现出色,但原创能力逐渐增强。DeepSeek可能标志着中国AI产业从“技术跟跑”向“技术并跑和领跑”迈进。

尽管中国在人工智能基础研究和核心技术上仍与美国有差距,但在论文发表总数和专利授权数量上超过美国。近年来中国进步迅速,根据统计,中国作者在过去四年增长了8倍。人工智能产业具有不对称性,一个小企业可以挑战市值上万亿的龙头企业。中国已有52家人工智能独角兽企业,占全球18%。这表明中国已有一批创新型小企业进入世界前列。

DeepSeek的成功说明算法优化和系统级工程优化不可或缺,优秀工程师发挥着重要作用。良好的工程教育体系和庞大的工程师队伍是中国的优势。年轻一代正成为科研主力,有信心在人工智能研究和应用上走在前面。

实现人工智能自立自强不仅靠国家规划和资金支持,更要做好人才使用培养和产业生态构建。DeepSeek创始人梁文锋强调自信,选择初出茅庐的年轻人,拒绝经验丰富的人才。这种用人理念为公司带来创新动力,对传统教育和聘用模式提出警示。

构建自主可控的产业生态是最困难的任务。英伟达的CUDA软件生态是其护城河,DeepSeek冲击了这一生态但未完全绕过。长远来看,需要开发一套自主可控的AI软件工具系统,重构AI软件生态。这需要周密规划和长期努力,相关部门应组织全国力量完成这一任务。

资金投入虽非决定因素,但中国投资市场规模急剧萎缩值得关注。2023年美国AI投资达到672亿美元,是中国的8.7倍。风险投资和私募基金对科创产业极为重要,中美科创市场曾并驾齐驱,但2023年中国投资额仅相当于美国的8%。政府和资本界需合力构建健康的科创金融生态,为创新提供动力。

产业生态形成需市场牵引,国家应通过政策引导推广AI应用,增强国产硬件和软件市场占有率。重视芯片设计和大模型开源战略,争取中国在全球人工智能开源系统中的主导作用。通过算法和软件协同创新,充分发挥硬件性能,力争中国人工智能科研和应用走在世界前列。

收藏 0
打赏 0
澳总理称将建立枪支回购计划 自1996年来最大规模
澳大利亚总理阿尔巴尼斯于19日上午在堪培拉召开新闻发布会,宣布联邦政府将启动全国枪支回购计划。该计划将是自1996年以来规模最大的一次回购行动。政府将通过立法支持此计划,并与各州共同提供资金支持,联邦警察负责销毁回收的枪支

0评论2025-12-1912

欧盟峰会动用俄资产援乌谈判陷入僵局 磋商愈发困难
欧盟外交与安全政策高级代表卡拉斯15日表示,欧盟本周围绕对乌克兰援助融资安排的讨论进入关键阶段,但关于动用俄罗斯被冻结资产来支持乌克兰的相关磋商将愈发困难

0评论2025-12-1911

欧盟峰会聚焦俄资产援乌内部分歧难消 博弈持续数年
欧盟峰会将于12月18日至19日在布鲁塞尔举行,讨论动用俄罗斯被冻结资产援助乌克兰的问题。自2022年2月乌克兰危机升级以来,西方国家冻结了俄罗斯中央银行约3000亿美元的海外资产,其中大部分位于欧洲

0评论2025-12-1910

英韩敲定自贸协定升级 放宽汽车出口限制
韩国产业通商资源部宣布,韩国和英国签署了一项升级版的自由贸易协定(FTA),旨在放宽韩国汽车和消费品的原产地规则,并向韩国开放英国的高速铁路和网络游戏市场

0评论2025-12-1813

日本搞窥视邻居的勾当 部署雷达监视中国
18日,外交部发言人郭嘉昆主持例行记者会。有记者提问称,据报道,消息人士透露,为应对中方军事行动,日本防卫省15日签署土地租赁协议,拟在冲绳最东端岛屿部署移动雷达装置,监视中方航母、飞机在冲绳岛和宫古岛间海域活动

0评论2025-12-1813