百川智能发布了国内首个全场景深度思考模型Baichuan-M1-preview,该模型在语言、视觉和搜索推理方面表现出色,并在多个评测中超越其他模型,尤其在数学和医疗领域展现出强大的推理能力。该模型解锁了“医疗循证模式”,通过自建的医疗知识库和证据分级系统,为用户提供专业可靠的医疗解答,并在临床、科研和患者方面都有广泛应用。百川同时开源了其14B小尺寸版本Baichuan-M1-14B,该模型在医疗评测中表现优异,其训练过程包含数据收集、合成、多阶段训练和对齐等创新思路,充分利用了深度思考来解决复杂医疗推理问题,这推动了大模型技术在医疗领域的应用。
贾佳亚团队与Adobe团队合作,提出了名为GenProp的通用视频编辑框架,它利用生成模型的优势,将单帧修改传播到整个视频。GenProp通过选择性内容编码器和掩码预测解码器,在保留原始视频内容的同时,实现了物体移除、替换、插入、背景替换等多种编辑任务,并能处理传统方法难以解决的物体阴影和反射等side effects。该模型通过合成数据进行训练,虽然数据有限,却能实现对各种编辑任务的“无限”应用,例如特效编辑和视频外绘。此外,GenProp还提出了区域感知损失,以区分编辑区域和原始内容,引导模型生成新的内容。
阿里云通义千问团队的研究发现,目前混合专家模型(MoE)训练中的负载均衡损失(LBL)主要基于局部批次,限制了专家特异性的发展。研究提出了一种新的方法,通过轻量通信将局部均衡放松为全局均衡,显著提升了MoE模型的性能和专家特异性。实验证明,在更大均衡范围内训练模型,性能明显提升,且全局均衡的核心在于纳入更多样化的领域信息。此外,研究还发现添加少量局部均衡损失能提高模型效率,并对现有相关研究进行了比较和讨论,证实了全局均衡的优越性。该研究为MoE模型的优化提供了新的视角,并有助于构建更有效的模型。
上海人工智能实验室启动“AI4S攀登者行动计划”,面向全球开放申请,旨在推动下一代具有领域变革潜力的人工智能科学研究技术发展。该计划聚焦目标导向,鼓励开放技术研究,并构建有组织的科研模式,解决现有研究模式中存在的资源分散和重复投入问题。行动计划将为入选团队提供包括算力、数据、专家支持和生态网络等多维度的科研创新支持体系,并鼓励研究团队提出尚未被充分探索的高价值问题。首批申请截止日期为2月28日,主要支持创新突破科学、共性技术和产业标杆三大方向。
滑铁卢大学和中原AI院团队提出了DeepSearch,这是一种基于深度学习的端到端串联质谱数据库搜索方法,用于蛋白质组学中的肽段鉴定。DeepSearch利用对比学习框架下的Transformer架构,以数据驱动的方式进行肽谱匹配评分,无需传统的离子间匹配。该方法在多种数据集上验证了准确性和稳健性,包括不同物种和富含修饰的数据集,能够进行零样本可变翻译后修饰分析。DeepSearch通过跨模态余弦相似性进行评分,提高了计算效率,并能在1%伪发现率下报告与最先进数据库搜索引擎相当数量的肽段,具有跨物种的稳健性。该研究成果发表在《Nature Machine Intelligence》。
OpenAI发布了名为Operator的研究预览版智能体,该智能体基于新的计算机使用智能体(CUA)模型,能够访问互联网并自动执行各种任务。Operator可以“查看”和“交互”浏览器,无需定制API集成即可在Web上执行操作,并具备自我纠错能力。CUA模型通过处理像素数据了解屏幕内容,利用虚拟鼠标和键盘完成操作,并在感知、推理和行动的迭代循环中工作。OpenAI计划将Operator集成到ChatGPT中,并已与多家企业和服务合作,同时强调了其安全机制和数据隐私管理方式。
百度文心智能体平台在春节推出34个省级行政区方言AI智能体,用户可通过百度APP搜索体验,这些智能体不仅能进行旅游攻略规划,还能进行语音通话,并支持实时字幕和方言交流。百度利用其语音大数据挖掘和语音合成大模型技术,实现了方言音色的快速定制,大幅提高了产出效率,用户甚至可以DIY自己的方言智能体。此外,百度的语音技术在数字人直播、有声小说和车载场景等领域也有广泛应用,通过智能工牌、大模型迁移等技术,提升了用户体验,旨在重塑智能语音技术的边界。