添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
豪爽的花生  ·  java date ...·  1 月前    · 
帅呆的黄瓜  ·  Vue之ant ...·  1 年前    · 
听话的棒棒糖  ·  Logtail ...·  1 年前    · 

语言模型中的多通道思维链推理

Zhuosheng Zhang,Aston Zhang,Mu Li,Hai Zhao,George Karypis,Alex Smola-- 2023-02-02

摘要:大型语言模型在复杂问题上表现出了令人印象深刻的性能 通过利用思维链(COT)提示进行推理 中间推理链作为推理答案的理论基础。然而, 现有的COT研究大多孤立于LLMS的语言情态, 在这些地方,LLM很难部署。为了在多通道中引发COT推理,一个 可能的解决方案是通过融合愿景来微调小语言模型 和语言功能来执行COT推理。关键的挑战是那些 语言模型往往会产生幻觉推理链,从而误导 回答推理。为了减轻此类错误的影响,我们建议 多模式-在分离的训练中结合视觉特征的COT 框架。该框架将理论基础的生成和答案分开 推理分为两个阶段。通过在两个阶段中结合视觉特征, 该模型能够生成有助于回答以下问题的有效理由 推论。在多模式COT下,我们的模型在10亿个参数下 比之前最先进的LLM(GPT-3.5)高出16%(75.17%->91.68%) 在Science QA基准上,甚至超过了人类的表现。代码是 可通过此HTTPS URL公开获取。

用于精确三维原子系统建模的分子几何感知转换器

Zheng Yuan,Yaoyun Zhang,Chuanqi Tan,Wei Wang,Fei Huang,Songfang Huang-- 2023-02-02

摘要:分子动力学模拟在计算物理中占有重要地位, 化学、材料和生物。基于机器学习的方法已经表明 预测分子能量和性质的能力很强,而且 比DFT计算更快。分子能量至少与原子有关, 键、键角、扭角和非键原子对。上一首 变压器模型仅使用原子作为输入,这缺乏对 上述因素。为了缓解这一限制,我们提出了Moleform,一个 采用节点(原子)和边(键和边)的新型变压器架构 非键原子对)作为输入,并使用 旋转和平移不变几何感知空间编码。 建议的空间编码计算相对位置信息,包括 节点和边之间的距离和角度。我们在OC20上对Moleform进行了基准测试 QM9数据集,我们的模型在初始状态上达到了最先进的水平 OC20的能量松弛预测和QM9在预测上很有竞争力 量子化学性质与其他变压器和图形神经网络的比较 网络(GNN)方法,证明了所提方法的有效性 Moleformer中的几何感知空间编码。

利用去噪扩散概率模型进行图像修复的理论证明

Litu Rout,Advait Parulekar,Constantine Caramanis,Sanjay Shakkottai-- 2023-02-02

摘要:我们为扩散回收样品提供了理论依据。 基于线性模型设置中的图像修复。虽然大多数修复工作 算法需要对每个新的掩码进行重新训练,我们证明了基于扩散的 修复可以很好地推广到看不见的面具上,而不需要重新培训。我们分析了一个 最近提出了一种流行的基于扩散的修复算法--重绘 (Lugmayr等人,2022),并表明它由于未对齐而具有偏差 即使在双态扩散过程中也阻碍了样品的回收。受我们的激励 通过分析,我们提出了一种改进的重绘算法,我们称之为重绘+ 可证明地恢复了潜在的真实样本,并享有线性速率 融合。它通过纠正存在的未对准误差来实现这一点 反向过程的漂移和弥散。据我们所知,这是 是基于扩散的图像修复的第一个线性收敛结果

基于多尺度特征对齐的无标记域连续学习

Kevin Thandiackal,Luigi Piccinelli,Pushpak Pati,Orcun Goksel-- 2023-02-02

摘要:无监督领域自适应(UDA)方法有助于提高算法的性能 深度神经网络在无任何标记数据的不可见区域上的性能。 特别是在组织病理学等医学学科中,这一点至关重要,因为 带有详细注释的大型数据集很少。虽然大多数人 现有的UDA方法侧重于从标签源到单个标签源的自适应 未标记的目标域、许多生命周期较长的实际应用程序 涉及多个目标域。因此,顺次适应的能力 多个目标域变得至关重要。在设置中,数据来自 例如,由于数据保护,无法存储以前看到的域 上述规定,成为一个具有挑战性的持续学习问题。至 为此,我们提出使用产生式特征驱动的图像重放 与双重用途鉴别器相结合,不仅使 生成具有逼真特征的图像用于回放,也促进 领域自适应过程中的特征对齐。我们评估我们的方法 广泛地研究了组织类型的三个组织病理学数据集的序列 分类,实现最先进的结果。我们为您呈现详细的 烧蚀实验研究了我们提出的方法的组成部分,并演示了 基于无监督补丁的连续UDA方法的可能用例 给出了高分辨率组织图像的分割任务。

扩散模型容易受到成员推理攻击吗?

Jinhao Duan,Fei Kong,Shiqi Wang,Xiaoshuang Shi,Kaidi Xu-- 2023-02-02

摘要:基于扩散的生成模型在图像领域显示出巨大的潜力 综合,但缺乏对安全和隐私风险的研究 他们可能会摆姿势。在本文中,我们研究了扩散的脆弱性。 成员身份推断攻击(MIA)的模型,这是一个常见的隐私问题。我们的 结果表明,现有的为GAN或VAE设计的MIA在很大程度上 在扩散模型上无效,或者由于不适用的场景(例如, 需要Gans的鉴别者)或不适当的假设(例如,CLOSER 合成图像和成员图像之间的距离)。为了解决这一差距,我们 提出了一种逐步误差比较隶属度推理(SecMI)--黑盒MIA 这是通过评估前向过程后验匹配来推断成员资格 每个时间步长的估计值。SecMI遵循常见的过拟合假设 成员样本通常具有较小估计误差的MIA,与 坚持下去的样品。我们考虑了两种标准扩散模型,例如DDPM, 以及文本到图像的扩散模型,例如,稳定扩散。实验 结果表明,我们的方法能够准确地推断隶属度,具有较高的隶属度。 对六个不同数据集的两种情况的置信度

NFRsTDO V1.2的术语、属性和关系--顶级领域非功能需求本体

Luis Olsina,María Fernanda Papa,Pablo Becker-- 2023-02-02

摘要:本预印本规定并定义了所有术语、属性和 NFRsTDO(非功能需求顶域本体)的关系。 NFRsTDO V1.2,其UML概念化如图1所示,是一个略微 其前身的更新版本,即NFRsTDO v1.1。NFRsTDO是一个本体论 主要致力于质量(非功能)需求和质量/成本观点, 它被放置在多层上下文中的顶级域级 称为FCD-OntoArch(基础、核心、域和 例如科学的本体论架构)。图2描绘了它的五个 层,包括基础层、核心层、顶层、低层和实例层。 每个级别都填充了本体论组件,或者换句话说, 本体论。同一级别的本体可以相互关联,但 在基础级别,其中只有ThingFO(事物基础本体) 找到了。此外,本体在较低级别的术语和关系可以是 由来自更高层次的本体的术语和关系丰富的语义 级别。NFRsTDO的术语和关系主要从 ThingFO,SituationCO(情景核心本体),Procedco(流程核心) Ontology)和FRsTDO(功能需求顶层领域本体)。 刻板印象是丰富NFRsTDO术语的常用机制。请注意 从先前版本(NFRsTDO v1.1)到当前版本的更新注释 其中一个(1.2版)可在附录A中找到。

食物概念和食谱的预定义领域特定嵌入:基于异类食谱数据集的案例研究

Gordana Ispirova,Tome Eftimov,Barbara Koroušić Seljak-- 2023-02-02

摘要:虽然现在食谱数据很容易得到,但要想得到真的很难 查找完整的食谱数据集--包含成分、营养值的列表 按配料、按食谱、过敏原等。食谱数据集通常是 收集自社交媒体网站,用户在网站上发布和发布食谱。 通常写得很少甚至没有结构,使用标准化和 非标准化计量单位。我们收集了六种不同的食谱 公开提供的不同格式的数据集,其中一些数据包括 不同的语言。将所有这些数据集转换为所需的格式 应用机器学习(ML)管道进行营养预测[1],[2], 包括使用基于词典的命名实体识别的数据标准化 (NER)、基于规则的NER以及使用外部域特定的转换 资源。根据配料列表,创建特定于域的嵌入 对所有食谱使用相同的嵌入空间-一个配料数据集是 已生成。这个标准化过程的结果是两个语料库--一个是 预定义的配料嵌入和预定义的配方嵌入。在……上面 所有六个配方数据集,对ML管道进行评估。由此产生的结果是 用例还确认使用域启发式合并嵌入 产生比基线更好的结果。

知识图补全的双置换等式

Jianfei Gao,Yangze Zhou,Bruno Ribeiro-- 2023-02-02

摘要:给出了一类新的知识图的形式化描述 我们表示双重可交换属性图的图,其中节点和 成对(联合2节点)表示必须与的排列等变 节点ID和边(&node)属性(关系和节点特征)。 双置换等变KG表示开辟了一个新的研究方向 单位:公斤。我们证明了这种等方差强加了一个结构化的表示 允许神经网络执行复杂逻辑推理的关系 任务(以公斤为单位)。最后,我们介绍了此类等变量的总体蓝图。 一种简单的基于GNN的双置换等变量的表示和测试 神经体系结构在两个测试中都达到100%命中率@10%测试精度 WN18RRv1和NELL995v1感应式KG完成任务,并能准确 执行任何现有方法都无法执行的逻辑推理任务, 据我们所知。

FV-MGNET:用于可解释时间序列预测的全连接V周期MGNet

Jianqing Zhu,Juncai He,Lian Zhang,Jinchao Xu-- 2023-02-02

文摘:通过研究约束线性模型的迭代方法,我们提出了 一类新的用于长期时间序列的全连通V-循环管理网 预测,这是预测中最困难的任务之一。管理网络是 提出一种基于多重网格的CNN图像分类模型 (Mg)解离散化偏微分方程组的方法。我们 中的完全连通运算替换卷积运算。 然后将其应用于预测问题。动力来自于 在MG的V-循环结构的基础上,我们进一步提出了一种新的V-循环结构--FV-MgNet 全连接的管理网,用于分层提取特征。通过评估 FV-MgNet在流行数据集上的性能及其与 最先进的模型,我们表明FV-MGNet通过 内存使用更少,推理速度更快。此外,我们还开发了消融技术 实验证明,FV-MgNet的结构是最佳选择 在众多变种中。

平均约束策略优化

Akhil Agnihotri,Rahul Jain,Haipeng Luo-- 2023-02-02

摘要:带约束的强化学习(RL)是一种日益成熟的学习方法 对于各种应用来说都是一个重要的问题。通常,平均标准是 更合适。然而,平均标准受限的MDP的RL仍然是 具有挑战性的问题。折扣约束RL问题的算法设计 通常在平均CMDP设置下表现不佳。在这篇文章中,我们 引入一种新的(可能是第一个)策略优化算法 用平均值标准约束MDP。平均数约束策略 优化(ACPO)算法的灵感来自著名的PPO类算法 基于信赖域方法。我们发展了平均灵敏度的基本理论 MDPS,然后在设计算法时使用相应的界。我们 为其性能提供理论保障,并通过广泛的 在各种具有挑战性的MuJoCo环境中进行实验工作,展示优势 与其他最先进的算法相比,该算法的性能 适用于平均CMDP设置。

基于贴片奖励的视觉模仿学习 Minghuan Liu,Tairan He,Weinan Zhang,Shuicheng Yan,Zhongwen Xu--2023-02-02 摘要:视觉模仿学习使强化学习智能体能够学习 从视频或图像序列等专家视觉演示中表现出来, 没有明确、明确的奖励。之前的研究要么采用了 监督学习技术或从以下方面获得简单和粗略的标量回报 像素,忽略了图像演示中包含的密集信息。 在这项工作中,我们建议衡量不同地区的专业知识 图像样本,或称为纹理{Patches},并恢复多维 \textit{补丁奖励}。补丁奖励是一种更精确的奖励 作为细粒度的专业知识测量和视觉的表征 可解释性工具。具体地说,我们提出了对抗性模仿学习 使用Patch Rewards(PatchAIL),它使用基于补丁的鉴别器来 根据给定的图像衡量不同地方的专业知识,并提供 补丁奖励。基于补丁的知识也被用来规则化 累积奖励,稳定训练。我们对我们的方法进行评估

关于变压器高效培训的调查与思考 Bohan Zhuang,Jing Liu,Zizheng Pan,Haoyu He,Yuetian Weng,Chunhua Shen--2023-02-02 摘要:变形金刚的最新进展带来了巨大的需求 计算资源,突出开发高效的重要性 培训技术,使变压器培训更快,成本更低,并 通过有效地使用计算和内存资源来提高精度。这 调查提供了第一个系统概述有效的培训 《变形金刚》,介绍了加速算法和 硬件,重点放在前者。我们分析和比较了节省成本的方法 训练期间中间张量的计算和内存成本 硬件/算法协同设计的技术。我们最后讨论了挑战 以及未来研究的有前景的领域。 原文链接 合成物理角色-场景交互 Mohamed Hassan,Yunrong Guo,Tingwu Wang,Michael Black,