富士康与优必选达成长期战略合作,将共同推动人形机器人在智能制造领域的应用。双方将联合打造试点应用场景,测试人形机器人在搬运、分拣等环节的落地应用,并成立联合攻关项目,致力于提升人形机器人的运动、感知和决策能力,推动其在智能制造行业的解决方案落地。此外,双方还将建立专注于智能制造业的人形机器人联合实验室,探索和推动人形机器人在制造产业中的应用。富士康选择优必选作为其唯一人形机器人合作伙伴,旨在加速人形机器人的大规模应用并降低制造成本。
OpenAI推出了ChatGPT的新功能“Tasks”,标志着AI开始具备执行能力,可以帮助用户完成各种任务。用户可以通过在聊天界面中选择“4o with scheduled tasks”模式来设置任务,包括任务内容和执行时间,系统会通过网页、桌面和移动设备发送通知。该功能目前处于Beta测试阶段,面向Plus、Pro和Teams用户开放,最终将提供给所有ChatGPT用户。OpenAI的这一举动被认为是其向AGI迈出的重要一步,使其从之前的Level 1(Chatbots)发展到了Level 3(Agents)级别, 还有传言OpenAI可能会发布更高级别的 “operator”和 “Caterpillar”项目。
清华、复旦、斯坦福等研究者联合推出了名为Eko的开源Agent开发框架,该框架允许开发者使用简洁代码和自然语言快速构建可用于生产的“虚拟员工”,这些Agent可以接管用户的电脑和浏览器完成多种任务。Eko的核心创新包括混合智能体表示,跨平台Agent框架和生产级干预机制,支持浏览器、电脑和插件等多种环境,并允许在智能体工作流中进行人工干预。Eko还提出了层次化感知框架,将任务拆分为规划和执行层,并引入了视觉-交互要素联合感知技术,提高了在复杂网页中的任务精度。此外,Eko还提供了多层级的钩子系统,允许开发者在工作流的各个阶段进行监控和调整,增加了系统的灵活性和可控性。
清华大学SuperBench团队使用2025年考研数学真题对多个国内外大语言模型的数学推理能力进行了测评。结果显示,OpenAI的GPT-o1模型以显著优势位居第一,国产模型中智谱的GLM-Zero-Preview和阿里的QwQ紧随其后。深度推理模型整体表现优于基础模型,表明其在数学问题解决方面具有更强能力。测评还发现各模型在不同题型上存在共性错误,GPT-o1在各方面都表现出顶尖水平。深度推理模型的出现显著提升了大型语言模型在数学方面的推理能力,国内模型正在缩小与OpenAI的差距。
一项Netflix和康奈尔大学的研究表明,常用的余弦相似度在衡量高维对象语义相似度时可能产生任意且无意义的结果,尤其是在正则化的线性模型中,该模型中嵌入的缩放自由度会影响相似度计算。研究发现,不同的正则化方法和参数选择会导致余弦相似度的结果不可预测,并且可能无法反映真实的相似性,尤其是在深度学习模型中。该研究建议不要盲目使用余弦相似度,而应该考虑诸如欧几里得距离、点积、软余弦相似度等替代方案,或直接针对余弦相似度训练模型,并在应用余弦相似度之前归一化嵌入。机器学习社区也开始重新评估余弦相似度作为默认相似性度量的有效性,并提倡根据具体应用场景定制相似性指标。
华为诺亚方舟实验室提出了名为“思维森林”(FoT)的新型大模型推理框架,旨在提升大型语言模型(LLM)的高阶推理能力。FoT通过整合多个推理树,利用稀疏激活和动态自校正策略,在推理过程中扩展计算规模,提高效率和准确性。实验结果表明,在24点游戏、GSM8K和MATH等多个基准测试中,FoT均展现出优于现有方法的性能,尤其在推理树数量增加时,准确率显著提升。FoT无需反向传播或微调,就能有效解决复杂问题,具有广泛的应用前景,有望在金融、医疗、法律等领域发挥重要作用,并推动大模型更智能的发展。
多伦多大学等机构的研究团队推出了AC3D模型,旨在提升视频生成中摄像机控制的效率和质量。研究发现,摄像机运动具有低频特性,并存在于扩散过程的早期阶段,因此AC3D调整了训练和测试条件调度,限制摄像机信息在网络特定层注入,减少了干扰并提高了训练速度。此外,研究人员构建了包含动态场景和静态摄像机的数据集,增强了模型区分摄像机运动与场景运动的能力。通过这些改进,AC3D在摄像机控制的生成视频建模方面达到了新的技术水平,并能生成高质量、可控的视频内容。