黄仁勋:英伟达是世界唯一的 AI 公司;山姆阿尔特曼:GPT-5 将免费开放,DeepSeek给了我们警醒|AIGC日报

2025-03-21 21:55:35
收藏

1)OpenAI 推出新一代语音模型 API

今日凌晨,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。

新产品的核心亮点概述如下:

gpt-4o-transcribe(语音转文本):单词错误率(WER)显著降低,在多个基准测试中优于现有 Whisper 模型。采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性,并更适用于处理口音多样、环境嘈杂、语速变化等挑战场景;

gpt-4o-mini-transcribe(语音转文本):gpt-4o-transcribe 的精简版本,基于 GPT-4o-mini 架构,通过知识蒸馏技术从大模型转移能力,速度更快、效率更高,适合资源有限但仍需高质量语音识别的应用场景;

gpt-4o-mini-tts(文本转语音):首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」。具体而言,开发者可以预设多种语音风格,并能根据指令调整语音风格。

值得关注的是,gpt-4o-transcribe 与 gpt-4o-mini-transcribe 这两款模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper v2 和 v3 模型,尤其在英语、西班牙语等多种语言上表现突出。

价格方面,gpt-4o-transcribe 与之前的 Whisper 模型价格相同,每分钟 0.006 美元;而 gpt-4o-mini-transcribe 则是前者的一半,每分钟 0.003 美元;gpt-4o-mini-tts 为每分钟 0.015 美元。目前,所有全新音频模型已向全球开发者开放。

2)Sam Altman :GPT-5 将免费开放,DeepSeek给了我们「警醒」

最近,硅谷知名分析师 Ben Thompson 最近与 OpenAI CEO  Sam Altman 进行了一场深度对谈。

访谈中,Sam Altman 提到,DeepSeek 的出现是一个「警醒」,促使 OpenAI 重新考虑免费层策略,10亿日活用户比最先进的模型更具价值。同时,他还暗示 GPT-5 即将推出,而且免费用户也可以体验GPT-5。

3)Manus 国内产品完成登记

最近爆火出圈的 Manus 国内产品 Monica 在京完成生成式人工智能服务登记。据了解,「Monica」号称一站式 AI 助手,该 AI 插件早期以海外市场为主,用户规模破百万,其整合了 OpenAI o3-mini、GPT-4o、Gemini2.0 等模型。后续推出独立 App,并接入 DeepSeek-R1,支持用户记忆等功能。

4)快手搜索AI升级:DeepSeek R1全面接入

快手近期宣布其搜索功能全面接入DeepSeek R1大模型,这一举措旨在显著提升搜索效果和用户体验,推动用户活跃度的增长。同时,快手还在积极探索智能搜索场景的商业化潜力。通过整合DeepSeek,快手的AI内容创作平台“可灵AI”在视频和图片生成领域变得更加高效,用户能够更精细地控制创作过程,极大丰富了创作的可能性。

5)Claude推出网络搜索功能,提供实时信息与来源引用

Anthropic公司正在为其AI助手Claude添加网络搜索功能,以提供更及时的信息。与传统搜索引擎不同,Claude将搜索结果转化为对话式回答,并精确标注信息来源。这一功能目前仅向美国付费用户开放,并计划未来推广至其他国家和免费账户。

6)字节推出文生图框架InfiniteYou

字节跳动推出的InfiniteYou(InfU)是一款创新的图像生成工具,能够根据用户的文字描述生成高质量的个性化图像。其核心技术InfuseNet通过精细的训练策略,确保生成的图像在保留用户身份特征的同时,灵活变换场景与内容。

7)字节跳动自研“Manus”,仅为内部自用

据特工宇宙获悉,字节内部 Dev Infra 团队开发了一款公司内部使用的 Dev Agent 智能体产品,功能类似Manus,该 Agent 通过集成内网知识库和多种内部工具实现调研、开发、数据分析等任务。

目前该项目处于实验阶段,仅面向该部门员工进行内测,属于内部工具,不支持外部用户使用。

8)黄仁勋:英伟达是世界唯一的 AI 公司

近日,英伟达 CEO 黄仁勋在 GTC2025 交流会中回答记者问题,其中他结合公司发展、个人观点以及市场环境,分享了自己在 AI 方面的各路看法。其中黄仁勋提到,目前英伟达已经成为了 AI 基础设施公司、AI 世界工厂和许多企业的 AI 技术基础平台。而上述的三个转变,也是英伟达近几年发生的重大变化,也因此让英伟达能够成为历史上第一个一次性宣布四代产品的科技公司。黄仁勋还强调,公司拥有完整的 AI 链条,并且构建上游的原始技术,因此英伟达也是世界唯一的 AI 公司。

值得关注的是,黄仁勋还在本次回答中分享了自己对中国 AI 研究的看法及未来。黄仁勋指出,中国的 AI 相关研究者数量遥遥领先于其他国家,全球 50% 的 AI 研究人员来自中国。基于中国庞大的 AI 研究人员数量,黄仁勋强调,中国在 AI 研究方面的巨大贡献是可以理解的,并希望中国能继续保持这种培养优秀计算机科学家的模式。

9)前 TikTok 算法负责人创立新公司「言创万物」

据 AI 科技评论获悉,前 TikTok 算法负责人陈志杰离职创业后,已成立新公司「言创万物」,创业方向明确聚焦于 AI Coding。据天眼查信息显示,言创万物目前有两位联合创始人,分别为陈志杰和刘晓春。其中陈持股比例为 52.5%,刘持股比例为 47.5%。

知情人士透露,刘晓春为原百度电商研发负责人,M 序列高管;而陈志杰曾为百度 T 序列高管,也是是百度凤巢最早的强化学习工程师之一。

2020 年 12 月,陈志杰投身字节跳动,担任技术高级总监,负责 TikTok 的推荐算法和数据科学团队,覆盖视频、直播、电商等业务线的算法赋能与增长推动。但在 2024 年 4 月,经历了一轮职级调整的陈志杰提出离职创业。

10)AI搜索Perplexity计划融资10亿美金

知情人士透露,Perplexity AI 正在早期洽谈中,计划通过新一轮融资将其估值翻倍至 180 亿美元。这家初创公司正在开发一款人工智能搜索引擎,旨在与谷歌竞争。

据透露,该公司讨论在此轮融资中筹集高达 5 亿至 10 亿美元的资金。目前谈判仍处于初期阶段,具体细节可能会有所变动。

The Information 此前报道称,Perplexity 曾以 150 亿美元的估值获得融资报价。

Perplexity 成立于 2022 年,已成为利用生成式人工智能重构,核心互联网服务的杰出初创公司之一。2024年,Perplexity 的估值从 10 亿美元跃升至 30 亿美元,短短数月后又再次翻三倍,这反映出投资者对人工智能领域的高度关注。此次 180 亿美元的新估值将包括本轮融资所筹集的资金。

11)Pruna AI开源模型压缩"工具箱",已完成种子轮融资650万美元

欧洲初创公司 Pruna AI 一直在研究 AI 模型的压缩算法,该公司的优化框架将于周四开源。Pruna AI 在几个月前完成了 650 万美元的种子轮融资。参与此次初创公司投资的包括 EQT Ventures、Daphni、Motier Ventures 以及 Kima Ventures。

Pruna AI 一直在构建一个框架,该框架将多种效率方法应用于给定的 AI 模型,如缓存、蒸馏等。“我们还标准化了压缩模型的保存和加载,应用这些压缩方法的组合,并在压缩后评估你的压缩模型,”Pruna AI 联合创始人兼 CTO John Rachwan 告诉 TechCrunch。

Pruna AI 的框架能够评估模型压缩后,是否存在显著的质量损失,以及所获得的性能提升。

关联标签
相关内容转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权或其它疑问请联系平台跟进,谢谢。