微软研究院联合多家机构推出了轻量开源的多模态模型LLaVA-Rad,旨在自动生成高质量的胸部X光放射学报告。该模型专注于胸部X光成像,使用包含近70万对放射学图像-报告的数据集进行训练,并在结构化标签不足时利用GPT-4合成报告。 LLaVA-Rad的架构设计独特,通过单模态预训练和轻量级跨模态学习,实现了卓越的性能,并且在关键指标上超越了Med-PaLM M等大型模型。相较于其他类似规模的模型,LLaVA-Rad在多个数据集上均表现出优异性能,即使在测试未见过的数据时也是如此,同时它也具备低计算成本的优势,可以在单个V100 GPU上进行推理,更易于部署。
一项新的研究表明,许多广泛使用的小分子机器学习数据集未能充分覆盖生物分子结构,这可能会限制模型的预测能力。德国研究团队通过分析大规模数据集,发现现有数据集在生物分子结构上存在覆盖偏差,即数据集中缺少某些类型的分子结构。为了解决这个问题,研究人员提出两种新方法,评估训练数据集与已知分子分布的差异,以指导未来数据集的创建,提高模型性能。该研究团队使用最大公共边子图计算了距离,并使用UMAP绘制可视化生物分子结构的世界的二维图。研究强调,在训练用于预测分子特性的大规模端到端模型时,需要考虑训练数据的分布,否则,即使使用更复杂的机器学习模型,性能改进也可能不明显。
山东大学药学院团队在《Science Advances》发表研究,提出了一种结合潜在扩散模型(LDM)与分子动力学模拟的新型抗菌肽(AMP)设计方法,旨在解决抗生素耐药性日益严重的问题。该方法通过潜在空间降维和条件约束机制,提高了生成肽序列的多样性,相似度低至0.5686。实验结果表明,生成的AMP-29对耐药性白色念珠菌具有显著的抑制效果,且体内疗效良好。研究团队通过构建双阶段Transformer架构和多物理场筛选体系,实现了AMP的定向生成和活性验证的闭环。
马里兰大学的研究人员提出了一种新型的深度循环语言模型架构,该模型通过在潜在空间中进行循环推理,无需生成大量“思考”token,即可在复杂推理任务上实现高性能。该模型无需定制化训练数据,并且能以较小的上下文窗口捕获不易用文字表示的推理类型。实验结果表明,仅用 35 亿参数的模型,在推理基准测试中,尤其是在数学和编程问题上,最高可达到 500 亿参数的计算负载。通过深度循环,该模型还支持测试阶段的零样本自适应计算、零样本 KV 缓存共享和零样本连续思维链等功能。研究团队的分析表明,模型在递归过程中并非采用线性推理,而是利用高维空间实现了更丰富的几何模式。
近期DeepSeek模型因其开源免费特性,被部分商家在淘宝、拼多多等平台打包出售安装包、教程等资源,甚至包括免费的清华大学教程,从中牟利,反映了DeepSeek模型引发的本地部署热潮。文章介绍了本地部署DeepSeek-R1的多种益处,包括数据隐私安全、低延迟、长期成本更低、可离线使用和可定制性强等,但同时也指出了硬件成本高、难以处理大规模任务、有一定部署门槛和维护成本等缺点。文章提供了两种本地部署DeepSeek-R1的方法,分别是基于Ollama和LM Studio,前者需要少量代码操作,后者则可零代码部署,用户可根据自身情况选择。
字节跳动、北京大学等机构的研究者提出了Sa2VA,这是一个结合SAM-2和LLaVA-like的视频多模态大模型,旨在实现时空细粒度的理解。Sa2VA通过统一的指令微调格式,整合了五种任务和超过20个数据集进行联合训练,在视频和图像理解、指代分割等任务上取得了领先效果。该模型主要包括多模态大语言模型和SAM-2模型两部分,通过微调"[SEG]"令牌连接两者,实现图像、视频的感知、对话和分析等任务。研究者还提出了一个新的Benchmark,Ref-SAM-v以及对应的训练数据集,Sa2VA在多个数据集和开放场景测试中表现出强大的性能。
北京大学aiXcoder团队开源的自研代码大模型 aiXcoder-7B 旨在将代码的抽象语法树(AST)结构与大规模预训练结合,提升模型对代码结构和上下文的理解能力,已被软件工程领域顶级会议ICSE 2025收录,标志着该模型在学术界获得权威肯定。该模型通过数据预处理、结构化 FIM和多文件排序等方法优化预训练,提升了其在代码数据上的理解与生成能力,在代码补全任务中表现出更好的跨文件上下文理解能力和准确判断语法结构的能力。研究团队将继续探索如何充分利用软件工程经验,将代码大模型应用于实际软件开发场景,实现软件开发自动化。
普林斯顿大学和北京大学联合团队推出了名为ReasonFlux的多层次LLM推理框架,该框架通过构建结构化的思维模板库和设计新的层次化强化学习算法,实现了一种高效且可解释的推理方式。ReasonFlux仅用500个通用思维模板即可解决各类数学难题,并且仅使用32B参数和少量GPU资源进行强化训练,在多个数学推理基准测试中表现出色,性能媲美更大的模型。ReasonFlux的核心技术包括结构化的思维模板抽取、多层次强化学习和新型Inference Scaling系统,通过多轮交互机制,能根据问题灵活调整推理策略,提高准确性和效率。ReasonFlux通过缩小搜索空间、降低探索成本,实现更高效的推理,具有广泛的应用潜力。