大语言模型周报

EchoInk-R1：通过强化学习探索多模态 LLM 中的视听推理(EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning)

Python编程杰哥

1163人浏览 · 2025-06-19 20:27:52

Python编程杰哥 · 2025-06-19 20:27:52 发布

多模态

EchoInk-R1：通过强化学习探索多模态 LLM 中的视听推理(EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning)

图1 使用基于组的策略优化（GRPO）对 EchoInk-R1-7B 进行训练的动态过程。（a）准确率奖励随时间稳步提升。（b）完成内容的长度先增长，然后稳定在一个更简洁的水平。

The Chinese University of Hong Kong和Shanghai Artificial Intelligence Laboratory等单位的研究人员提出了一种名为EchoInk-R1的多模态大语言模型强化学习框架，针对音频-视觉跨模态推理不足的难题，通过GRPO（Group Relative Policy Optimization）算法优化Qwen2.5-Omni-7B模型，并构建AVQA-R1-6K数据集训练同步音频-图像多选问答能力。实验表明，该方法仅需562次训练步骤即可将验证集准确率提升至85.77%（较基准提升5.24%），并涌现“顿悟时刻”现象——模型在模糊输入下通过自修正机制更新推理路径。该框架首次实现开放式音频-视觉-文本多模态统一推理，为复杂决策场景提供轻量化强化学习优化路径。

R1-reward：通过稳定的强化学习训练多模态奖励模型（R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning）

论文链接：https://arxiv.org/pdf/2505.02835

图2 在三个基准测试上R1奖励在推理时的性能随规模变化情况：（a）多模态强化学习人类反馈（MM-RLHF）奖励基准测试，（b）视觉语言（VL）奖励基准测试，以及（c）多模态奖励基准测试。当推理样本数量（K）增加时，准确率通过两种聚合策略来衡量：“多数表决”和“任一正确”。“任一正确”策略（只要K个样本中有一个正确就算成功）对K值高度敏感，而“多数表决”策略显示出更为渐进的性能提升。性能会与每个基准测试的先前最先进结果进行比较。

中国科学院自动化研究所（CASIA）和清华大学等单位的研究人员提出了一种名为R1-Reward的多模态奖励模型训练框架，针对强化学习在多模态奖励建模中的训练不稳定与推理不一致问题，通过改进预剪裁（Pre-CLIP）和优势过滤（Advantage Filter）策略，结合一致性奖励机制，提出StableReinforce算法。该方法构建了200K规模的R1-Reward-200K数据集，并引入多数投票策略优化推理性能。实验表明，R1-Reward在VL Reward-Bench和Multimodal Reward Bench基准测试中分别以71.92%和83.3%的准确率超越现有最优模型（提升8.4%和14.3%），且在推理时通过15次采样投票将准确率提升至86.47%，为多模态对齐任务提供了高效稳定的强化学习优化路径。

SEFE：多模态持续教学调优的肤浅和基本遗忘消除器（SEFE: Superficial and Essential Forgetting Eliminator for Multimodal Continual Instruction Tuning）

论文链接：https://arxiv.org/pdf/2505.02486

图3 RegLoRA（正则化低秩适应）概述。在每个过往的低秩适应（LoRA）中，权重更新矩阵中的较大值被识别为关键元素。在训练新的低秩适应（LoRA）时，这些关键位置会被纳入到一个正则化掩码中，以实施有针对性的约束。

香港城市大学和山东大学等单位的研究人员提出了一种名为SEFE的多模态持续指令调优框架，针对模型增量学习中的表面遗忘（响应格式偏差）与本质遗忘（知识丢失）问题，通过答案风格多样化（ASD）策略统一多任务响应格式，并结合正则化低秩适应（RegLoRA）算法稳定关键知识参数。该方法构建了CoIN-ASD基准数据集，通过多格式数据转换缓解表面遗忘，并通过动态约束权重更新矩阵保留核心能力。实验表明，SEFE在CoIN-ASD基准测试中平均准确率达73.29%（较基线提升32.7%），遗忘率（BWT）降低至-4.69%，在8项视觉语言任务中性能超越现有最优方法，为多模态持续学习提供了高效的灾难性遗忘消除方案。

DriveAgent：使用 LLM 和多模态传感器融合进行多智能体结构化推理，实现自动驾驶（DriveAgent: Multi-Agent Structured Reasoning with LLM and Multimodal Sensor Fusion for Autonomous Driving）

论文链接：https://arxiv.org/pdf/2505.02123

图4 架构概述由四个模块（M1至M4）组成，其中多模态传感器输入（摄像头、惯性测量单元（IMU）、全球定位系统（GPS）和激光雷达（LiDAR））可实现环境层面的任务（如信息检索、环境变化检测和推理）以及车辆层面的任务（如车辆状态分析、运动评估和行为模式识别）。

长安大学和新加坡科技研究局等单位的研究人员提出了一种名为DriveAgent的多模态自动驾驶框架，针对多传感器融合与动态环境理解难题，通过模块化多Agent协同架构整合大型语言模型（LLM）推理能力与相机、LiDAR、GPS等多模态数据，结合层次化感知、车辆诊断与因果分析策略，实现环境动态解析与决策优化。该方法构建了涵盖标准、典型及挑战场景的三级自动驾驶数据集，并通过自研视觉语言模型（VLM）微调策略提升目标检测精度。实验表明，DriveAgent在车辆状态诊断（LiDAR异常检测准确率69.9%）和环境推理任务（准确率65.71%）中超越GPT-4o等基线模型，F1-score达71.62%，为自动驾驶系统提供了可解释、鲁棒的多模态融合解决方案。

数据集和基准

OmniGIRL：用于解决 GitHub 问题的多语言和多模式基准（OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution）

论文链接：https://arxiv.org/pdf/2505.04606

图5 GitHub问题解决评估流程概述。

中山大学和华为云计算技术有限公司等单位的研究人员提出了一种名为OmniGIRL的多语言多模态GitHub问题解决基准，针对现有基准单语言覆盖、领域局限及模态单一等不足，通过整合Python、JavaScript、TypeScript和Java四种编程语言的15个高活跃仓库（涵盖代码质量、Web开发等8个领域），构建包含959个任务实例的三级数据集，融合文本、图像及网站链接等多模态信息。实验表明，现有大语言模型整体表现有限（最佳模型GPT-4o问题解决率仅8.6%），且在图像理解任务中表现尤弱（Claude-3.5-Sonnet解决率10.5%）。通过揭示模型失败原因（如格式解析偏差、跨文件修改能力不足），该方法为多语言代码修复与多模态推理任务提供了首个综合性评测基准与优化路径。

YABLoCo：长上下文代码生成的又一个基准（YABLoCo: Yet Another Benchmark for Long Context Code Generation）

论文链接：https://arxiv.org/pdf/2505.04406

图6 每个阶段筛选的函数数量情况。

Innopolis大学人工智能研究所和华为诺亚方舟实验室等单位的研究人员提出了YABLoCo基准测试，针对C/C++大型代码仓库的长上下文代码生成评估难题，通过构建包含215个函数样本的数据集，设计分层依赖分类（stdlib、file、package、project），并开发高效评估流程及可视化工具。该基准支持百万级代码规模的上下文分析，在实验中验证了添加“oracle”上下文可显著提升模型性能（如CodeLlama和DeepSeekCoder的pass@k指标分别提升至29.4%和36.2%），为长上下文代码生成研究提供了标准化评测方案。

揭开画布的面纱：图像生成越狱和 LLM 内容安全的动态基准（Unmasking the Canvas: A Dynamic Benchmark for Image Generation Jailbreaking and LLM Content Safety）

论文链接：https://arxiv.org/pdf/2505.04146

图7 针对格罗克（Grok）模型，基于图像成功实现越狱的示例。该模型给出了违反政策的输出内容。（已做内容删减处理）。

罗格斯大学新布朗斯维克分校和Groq公司等单位的研究人员提出了Unmasking the Canvas基准测试（UTCB），针对图像生成模型的安全漏洞评估难题，通过构建包含6772个多语言混淆提示（如祖鲁语、盖尔语、Base64编码）的动态数据集，设计分层标注体系（Bronze未验证、Silver模型辅助、Gold人工验证），并开发自动化评估流程。实验表明，模型易受Base64混淆提示攻击（风险评分达0.79），Grok等平台生成违规图像成功率显著。该基准支持零样本/回退策略测试、风险评分及访问控制接口，为多模态模型安全研究提供可扩展评估框架，揭示LLM生成对抗提示的低成本滥用风险。

MedArabiQ：对阿拉伯语医疗任务的大型语言模型进行基准测试（MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks）

论文链接：https://arxiv.org/pdf/2505.03427

图8 MedArabiQ 概述。我们构建了七个新的基准数据集，并在这些数据集上对五个最先进的大语言模型进行了评估。

纽约大学阿布扎比分校和Altibbi医疗平台等单位的研究人员提出了MedArabiQ基准测试，针对阿拉伯语医疗任务中大型语言模型（LLM）评估难题，通过构建包含700个样本的多样化临床数据集（涵盖多选题、填空题及真实医患对话），并设计多维度评估框架。该研究评估了GPT-4o、Gemini 1.5 Pro等先进模型，发现专有模型在结构化任务中表现更优（如Gemini在选择题中准确率达57.5%），但开源模型Qwen在生成式问答任务中BERTScoer达85.2。实验揭示了模型在文化偏见场景下的脆弱性（如Claude 3.5在文化偏见下准确率下降17.4%），并提出基于少样本提示的缓解策略。数据集开源并支持动态扩展，为阿拉伯语医疗NLP研究提供标准化评测基础。

智能体

通过共享任务抽象隐式地调整人类和自主代理（Implicitly Aligning Humans and Autonomous Agents through Shared Task Abstractions）

论文链接：https://arxiv.org/pdf/2505.04579

图9 展示了“过载烹饪”（Overcooked）游戏中的一个场景，其中一个智能体正在与一位新队友合作。该智能体可以选择一种比其他个体策略更高效的协作策略，但如果无法达成合作，就有失败的风险。成功的临时组队不仅需要能够执行多种策略，还需要知道何时应用不同的策略。当前最先进（SotA）的方法将这些决策纳入到一个单一的黑箱中；相比之下，我们提出采用一种结构化的方式来做出这些决策会带来显著的益处。

科罗拉多大学博尔德分校和美因茨大学等单位的研究人员提出了HA²分层强化学习框架，针对自主代理在协作任务中零样本协调能力不足的难题，通过构建分层任务抽象结构（Manager规划高层策略、Worker执行子任务），在Overcooked协作游戏中验证其有效性。实验表明，HA²与未知代理协作时性能提升18.3%（如HA²-FCP平均得分157分vs基线133分），与人类协作时任务得分提升37.5%且被评价为更流畅、可信。该框架还展现出10.5倍的环境布局泛化能力，为人类-AI协作系统提供了高效的分层架构范式。

RLMiniStyler：用于生成任意顺序神经样式的轻量级 RL 样式代理（RLMiniStyler: Light-weight RL Style Agent for Arbitrary Sequential Neural Style Generation）

论文链接：https://arxiv.org/pdf/2505.04424

$图10 RLMiniStyler模型概述。上方：状态(y_t)由内容图像(I_c)和风格图像(I_s)初始化。潜在动作(x_t)从高维高斯分布中采样，并与评判器的输出相连接。它由策略(Pκ)估计：(x_t)服从(Pκ(x_t|y_t))。预测的动态图像(I_{m}^{t + 1})由构建器(Bτ)生成。“拉”和“推”分别指最小化和最大化两个特征图之间的距离。请注意，预训练的VGG网络仅用于在训练期间提取特征以计算奖励和损失。下方：执行者（actor）和构建器的结构。并且“Sign1、2、3、4”指从风格特征计算中得出的风格信号。网络中的不同颜色代表不同的网络架构，网络结构的详细信息可在补充材料中找到。$ 图10 RLMiniStyler模型概述。上方：状态(y_t)由内容图像(I_c)和风格图像(I_s)初始化。潜在动作(x_t)从高维高斯分布中采样，并与评判器的输出相连接。它由策略(Pκ)估计：(x_t)服从(Pκ(x_t|y_t))。预测的动态图像(I_{m}^{t + 1})由构建器(Bτ)生成。“拉”和“推”分别指最小化和最大化两个特征图之间的距离。请注意，预训练的VGG网络仅用于在训练期间提取特征以计算奖励和损失。下方：执行者（actor）和构建器的结构。并且“Sign1、2、3、4”指从风格特征计算中得出的风格信号。网络中的不同颜色代表不同的网络架构，网络结构的详细信息可在补充材料中找到。

成都信息工程大学和普渡大学等单位的研究人员提出了RLMiniStyler轻量级强化学习风格迁移框架，针对传统方法计算成本高、需手动调参的难题，通过构建统一策略网络（整合内容与风格编码）和分层强化学习机制，实现任意艺术风格的序列化生成。该框架采用Actor-Builder-Critic协同架构，引入不确定性感知多任务学习策略自动平衡内容保留与风格化程度，并设计分层风格对比损失（HSRCL）增强风格表达。实验表明，模型参数量仅0.37M（存储1.47MB），在256×256分辨率下内容损失低至1.1684，用户偏好度达20.3%，支持4K高分辨率实时生成10级风格渐变序列，在SSIM、风格损失等指标上超越现有SOTA方法。

具有多智能体强化学习的自适应和稳健的 DBSCAN（Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning）

论文链接：https://arxiv.org/pdf/2505.04339

图11 通过单个智能体进行参数搜索所面临的挑战。在数据密度各异的复杂情形下，找到点过程（P ts）中参数(epsilon)和(M)的最优组合是很困难的。灰色的顶点表示未聚类的噪声点。

北京航空航天大学和伊利诺伊大学芝加哥分校等单位的研究人员提出了一种名为“ARDBSCAN”的聚类框架，针对DBSCAN算法在处理不同密度数据集时的挑战，通过基于结构熵的智能体分配、多智能体深度强化学习自动参数搜索和递归搜索机制，有效提升了聚类性能，在多个数据集实验中表现优异。

CompileAgent：使用工具集成的基于 LLM 的代理系统实现自动化的真实世界存储库级编译（CompileAgent: Automated Real-World Repo-Level Compilation with Tool-Integrated LLM-based Agent System）

论文链接：https://arxiv.org/pdf/2505.04254

图12 检索增强生成（RAG）技术的细节。

中国科学技术大学和奇安信科技研究院等单位的研究人员提出了名为“CompileAgent”的基于大语言模型（LLM）的代理框架，针对开源项目手动编译繁琐易错问题，通过集成五个工具和采用基于流程的代理策略，有效提升了仓库级编译成功率，在多种大语言模型上表现优异。

RAG

独立于 LLM 的自适应 RAG：让问题自己说话（LLM-Independent Adaptive RAG: Let the Question Speak for Itself）

论文链接：https://arxiv.org/pdf/2505.04253

图13 TriviaQA和2WikiMultiHopQA（2wiki）数据集不同特征组的热力图。右上方的三角形表示TriviaQA上的绝对相关关系，左下方的部分表示2WikiMultiHopQA上的绝对相关关系。

Skoltech和AIRI等单位的研究人员提出了一种名为“LLM-Independent Adaptive RAG”的轻量级自适应检索增强方法，针对现有技术依赖大语言模型（LLM）不确定性估计导致的效率瓶颈，通过构建7组共27个外部信息特征（如实体流行度、问题类型、知识图谱结构等），实现无需LLM参与的检索决策。该方法在6个问答数据集上验证表明，其性能与复杂LLM方法相当，同时显著降低计算开销（如LLM调用次数减少至1次/问题），并在复杂问题场景下表现更优，为高效知识增强提供了新思路。

使用 LLM 生成能力驱动的技能：一种基于 RAG 的重用现有库和接口的方法（Capability-Driven Skill Generation with LLMs: A RAG-Based Approach for Reusing Existing Libraries and Interfaces）

论文链接：https://arxiv.org/pdf/2505.03295

图14 通过检索相关资源接口并将它们与用户输入相结合来为大语言模型构建提示，从而利用基于检索增强生成（RAG）技术进行技能生成。

Helmut Schmidt University和Ruhr University等单位的研究人员提出了一种名为LLMCap2Skill的自动化技能生成方法，针对工业系统中技能开发效率低下的难题，通过整合能力本体描述、自然语言用户输入及检索增强生成（RAG）技术，结合ROS 2等现有接口库，实现跨编程语言的技能代码自动合成。实验表明，该方法生成的技能代码在结构完整性和执行正确性上表现优异，支持移动机器人导航、避障等复杂任务，大幅减少手动编码工作量，为工业自动化系统的模块化开发提供了高效解决方案。

RAG-MCP：通过检索增强生成减轻 LLM 工具选择中的提示膨胀（RAG-MCP: Mitigating Prompt Bloat in LLM Tool Selection via Retrieval-Augmented Generation）

论文链接：https://arxiv.org/pdf/2505.03275

图15 推理过程中多模态对比预测（MCP）和基于检索增强生成的多模态对比预测（RAG-MCP）之间的比较。

Beijing University of Post and Communications和Queen Mary University of London等单位的研究人员提出了一种名为RAG-MCP的检索增强框架，针对大语言模型（LLM）在调用海量外部工具时面临的提示膨胀与选择效率低下问题，通过动态检索最相关的工具描述并过滤冗余信息，将提示令牌量减少超50%，同时结合语义检索技术提升工具匹配精度。实验表明，该方法在MCP压力测试中将工具选择准确率提升至43.13%（较基线13.62%），有效缓解模型决策负担，为LLM扩展工具生态提供了高效的动态筛选机制。

知道你不知道：通过自我练习学习何时继续搜索多轮 RAG（Knowing You Don’t Know: Learning When to Continue Search in Multi-round RAG through Self-Practicing）

论文链接：https://arxiv.org/pdf/2505.02811

图16 推理时的 SIM-RAG 概述，包含三个主要部分：（1）答案生成，推理器生成一个答案以及推理依据；（2）充分性检查，评判器决定所生成的答案是否可接受，或者是否触发优化；（3）信息检索，如果认为答案不充分，会生成一个查询，从语料库中检索额外的文档以更新上下文。这个迭代过程会持续进行，直到评判器认为答案充分，或者达到最大检索轮数为止。橙色线条代表信息收集路径，而蓝色线条代表答案生成路径，直观呈现各组件之间的信息流。

University of California Santa Cruz和Google DeepMind等单位的研究人员提出了一种名为SIM-RAG的多轮检索增强框架，针对大语言模型（LLM）在多轮检索中过度自信或冗余检索的问题，通过自训练生成合成数据并训练轻量级Critic模型，动态评估信息充分性以决策检索终止时机。实验表明，该方法在TriviaQA、HotpotQA等基准测试中，准确率较基线提升超200%（如GPT-4版本F1达52.2%），提示令牌量减少50%以上，显著缓解模型决策负担，为复杂多跳问答任务提供了无需人工标注的高效解决方案。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

Flutter for OpenHarmony 技术博客阅读器APP

😩所以我决定用 Flutter for OpenHarmony 做一款程序员专属的技术博客阅读器，主打这些功能：✅ 聚合各大技术平台博客文章，一键下拉刷新✅ 应用内直接打开 WebView 阅读，支持 JS 交互✅ 安全加密存储你的书签和阅读进度，再也不怕丢✅ 响应式数据流，状态管理丝滑到飞起✅ 离线阅读功能，地铁上也能看技术文章这款 APP 完美适配 OpenHarmony 鸿蒙系统，利用四大

开源鸿蒙跨平台开发者社区

【maaath】Flutter for OpenHarmony 宠物社区应用实战开发

宠物社区应用是一款面向宠物爱好者的社交类应用，用户可以在平台上分享自家宠物的日常照片、参与宠物问答讨论、浏览萌宠内容等。该应用需要具备良好的用户体验，支持图片瀑布流展示、流畅的下拉刷新和上拉加载功能，以及直观的底部导航交互。1. 网络权限配置在2. 页面路由配置在"src": [3. 入口 Ability 配置在if (err!return;});

开源鸿蒙跨平台开发者社区

【maaath】Flutter for OpenHarmony 实战：旅游攻略应用开发指南

开源鸿蒙跨平台开发者社区

所有评论(0)

查看更多评论

Python编程杰哥

@xx_nm98

已为社区贡献14条内容

大语言模型周报

Python编程杰哥

多模态

EchoInk-R1： 通过强化学习探索多模态 LLM 中的视听推理(EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning)

R1-reward：通过稳定的强化学习训练多模态奖励模型（R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning）

SEFE：多模态持续教学调优的肤浅和基本遗忘消除器（SEFE: Superficial and Essential Forgetting Eliminator for Multimodal Continual Instruction Tuning）

DriveAgent：使用 LLM 和多模态传感器融合进行多智能体结构化推理，实现自动驾驶（DriveAgent: Multi-Agent Structured Reasoning with LLM and Multimodal Sensor Fusion for Autonomous Driving）

数据集和基准

OmniGIRL：用于解决 GitHub 问题的多语言和多模式基准（OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution）

YABLoCo：长上下文代码生成的又一个基准（YABLoCo: Yet Another Benchmark for Long Context Code Generation）

揭开画布的面纱：图像生成越狱和 LLM 内容安全的动态基准（Unmasking the Canvas: A Dynamic Benchmark for Image Generation Jailbreaking and LLM Content Safety）

MedArabiQ：对阿拉伯语医疗任务的大型语言模型进行基准测试（MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks）

智能体

通过共享任务抽象隐式地调整人类和自主代理（Implicitly Aligning Humans and Autonomous Agents through Shared Task Abstractions）

RLMiniStyler：用于生成任意顺序神经样式的轻量级 RL 样式代理（RLMiniStyler: Light-weight RL Style Agent for Arbitrary Sequential Neural Style Generation）

具有多智能体强化学习的自适应和稳健的 DBSCAN（Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning）

CompileAgent：使用工具集成的基于 LLM 的代理系统实现自动化的真实世界存储库级编译（CompileAgent: Automated Real-World Repo-Level Compilation with Tool-Integrated LLM-based Agent System）

RAG

独立于 LLM 的自适应 RAG：让问题自己说话（LLM-Independent Adaptive RAG: Let the Question Speak for Itself）

使用 LLM 生成能力驱动的技能：一种基于 RAG 的重用现有库和接口的方法（Capability-Driven Skill Generation with LLMs: A RAG-Based Approach for Reusing Existing Libraries and Interfaces）

RAG-MCP：通过检索增强生成减轻 LLM 工具选择中的提示膨胀（RAG-MCP: Mitigating Prompt Bloat in LLM Tool Selection via Retrieval-Augmented Generation）

知道你不知道：通过自我练习学习何时继续搜索多轮 RAG（Knowing You Don’t Know: Learning When to Continue Search in Multi-round RAG through Self-Practicing）

如何学习大模型 AI ？

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

所有评论(0)

温馨提示：您尚未绑定手机号

Python编程杰哥

EchoInk-R1：通过强化学习探索多模态 LLM 中的视听推理(EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning)

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】