首页 微博热点正文


译者 | Linstancy

责编 | 琥珀

出品 | AI科技大本营(ID:rgznai100)

比如图画、文本、视频等杂乱数据类型的语义表征 (也称为语义嵌入) 已成为机器学习的核心问题,并在机器翻译、言语模型、GAN、域搬迁等范畴中呈现。这些都会触及学习表征函数,即每个数据点的表征信息都是“高等级” (保存语义信息,一起丢掉初级细节,如图画中单个像素的色彩等) 和“紧凑“ (低维)。衡量语义表征好坏的一个规范是,它可以经过少量符号数据,运用线性分类器 (或其他低杂乱度分类器) 来处理它们,然后大大简化新分类使命的求蔓越莓,语义表征的无监督比照学习:一个新理论结构,嗜睡是什么原因解进程。


运用未符号数据进行无监督标明学习研讨是当时该范畴最感兴趣的一个研讨论题。一种常用的办法是运用类似于 word2vec 算法进行词嵌入 (word embedding),这种办法适用于各种数据类型,如交际网络、图画、文本等数据。

那么,为什么这些办法可以适用于如此多样化环境中?姜异康最新去向这得益于一种新的理论结构 “A Theoretical Analysis of Contrastive Unsupervised Representation Learning” 的提出。作为该结构的联合提出者,Misha Khodak 提出了一种十分简略的假定,因为类似 word2vec 算法需求适用于一些彻底不同的数据类型蔓越莓,语义表征的无监督比照学习:一个新理论结构,嗜睡是什么原因,而这些数据无法同享一个通用的贝叶斯生成模型。(有关这个空间的生成模型比如在前期关于 RAND-WALK 模型的文章中有过描绘。)因而,这个结构也提出了一些新办法,用于规划练习时的方针函数变体。本篇文章将详细解说这些办法。

论文链接:https://arxiv.org/abs/1902.09229


语义表征学习


首要,是否存在杰出且广泛适用的表征呢?在核算机视觉等范畴,答案是必定的,因为深度卷积神经网络 (CNN) 在大型含多类别标签数据集 (如 ImageNet) 上以高精度练习时,终究会学习得到十分强壮而简练的表征信息。网络的倒数第二层——输入到终究的 softmax 层,可以在其他新的视觉使命顶用作图画的杰出语义嵌入。(相同,练习后网络中的其他层也可以作为杰出的嵌入)。实际上,运用这种经过在大型多类别数据集上进行蔓越莓,语义表征的无监督比照学习:一个新理论结构,嗜睡是什么原因预练习得到网络,将其作为其他使命的语义嵌入已经在核算机视觉范畴研讨中广泛运用,这答应一些新的分类使命只需求十分少的符号数据,运用低杂乱度分类器 (如线性分类器) 来处理。因而,测验经过未符号的数据来学习语义嵌入信息,这已经成为一条黄金皇明风云录原则。




类似 word2vec 的办法:CURL


自 word2vec 办法取得成功以来,一些类似的办法也被用于学习比如语句、阶段、图画和生物序列等数据的嵌入信息。一切这些办法都是依据一蔓越莓,语义表征的无监督比照学习:一个新理论结构,嗜睡是什么原因个关键性的主意:即运用类似数据点对 x、x+,并学习嵌入函数 f 。嵌入函数是 f(x) 和 f(x+) 的內积标明,一般高于 f(x) 和 f(x-) 的內积和 (这儿的 x- 是一个与 x 不类似的随机数据点)。在实践中,寻觅类似数据点一般需求运用一些启发式办法,常用的办法是共现 (co-occurrences)。例如,在一个大型的文本语料库中,类似数据点可以经过接连的语句、视频剪辑中的相邻帧,同一图画中的不同补丁等找到。


这种办法的一个代表性比如是来自 Logeswaran 和 Lee 提出的 Quick Thoughts (QT),这是当时许多无监督文本嵌入使命中最先进的办法。关于一个大型文本语料库中,为了学习一个表征函数 f,QT 将丢失函数最小化,其数学表达式如下:



这儿,(x,x+) 标明的是接连语句中语义类似的数据点,x- 代表一个随机的负样本。例如,关于图画而言, x 和 x+ 或许是视频中的相邻帧。关于文本而言,两个接连的语句是挑选类似数据点的杰出挑选。例如,以下是维基百科中对 word2vec 进行解说的的两个接连语句事例:“High frequency words often provide little information”和“Words with frequency above a certain threshold may be subsampled to increase training speed”。明显,这两个语句的类似数据点,比起恣意随机得到的语句对更多,学习者正好可以运用这一点。因而,从现在开始运用比照度无监督标明学习 (CURL) 来指代那些用于寻觅男女相片类似数据对的办法,而本文的方针便是要剖析这些办法。

需范茗慧要一个新的结构

规范的机器学习结构都触及最小化一些丢失函数,且当在练习数据点和测验数据点上的均匀丢失大致相一起,则认为模型的学习是成功的 (或具有泛化才能)。但是,在比照学习(contrastive learning,CL )中,测验时运用的方针函数一般与练习淫行补给的方针函数不同:泛化差错并不能作为处理这类问题的正确办法。

前期在这方面所运用的办法包含核学习 (kernel learning) 和半监督学习 (semi-supervised learning),但在练习时一般至少需求一些带标签的数据,这些样本来自未来感兴趣的分类使命。运用简略的设置也可以构建带生成模型的贝叶斯办法,但这种办法已被证明难以处理比如图画和文本等杂乱数据问题。此外,上面所说的类似 word2vec 的简略办法好像无法像贝叶斯优化器那样,以清楚直接的办法操作,且一起适用于一些不同的数据类型。

因蔓越莓,语义表征的无监督比照学习:一个新理论结构,嗜睡是什么原因而,本文经过提出一个新的结构来处理这个问题,该结构规范地界说了 “语义类似” 的概念,这是其他算法所没有的。范泉智此外,它还进蔓越莓,语义表征的无监督比照学习:一个新理论结构,嗜睡是什么原因一步阐明为什么比照学习 可以供给杰出的表征,以及在这种状况下一个杰出表征的含义。

结构

明显,比照学习中运用隐式 / 启发式界说的类似性概念,以某种办法与下流使命 (downstream tasks) 相关联。例如,类似性带有激烈的隐含含义,即在许多下流使命中 “类似对” 往往被分配相同的标签 (虽然这自身没有硬性确保)。而本文提出了一种极简的结构来简略办法化这品种似性概念。为了便利阐明,以下将华润衢州医药有限公司期望爱情明丽如初数据点称为“图画”。

  • 语义类似性

咱们假定大自然有许多类图画,一切类调集 C 有一个衡量规范 。因而,当需求挑选一个类时,咱们将以概率 (c) 挑选类别 c。每个类别 c 在图画上都具有一个相关散布 Dc,即在需求供给类别 c 的示例 (如挑选类别“狗”),则它将以概率 Dc (x) 挑选图画 x。请注意,在这儿类别之间可以有恣意的重曲亭水库叠,也可以相互独立不堆叠。为了公式化语义类似性的概念,在这儿假定当需求供给类似图画时,运用衡量 从调集 C 中挑选一个类别 c+,然后挑选两个来自 Dc + 的独立同散布样本 x,x+。随后再从衡量 中挑选另一个类别 c-,并从 Dc- 中随机挑选不类似样本 x-。

如下式,表征学习练习的方针函数运用前期的 QT 方针,但依据当时的结构承继了以下解说:

值得注意的是,函数类 F 是一个恣意的深度网络结构。该架构洛云霜将图画映射到嵌入空间 (神经网络没有终究一层),并经过梯度下降 / 反向传达法来学习 f。当然,现在还没有理论可以解说杂乱的深度网络在什么时候算练习成功,因而,这儿提出的结构会假定当梯度下降已情欲娱乐圈经导致某些表征 f 到达很低的丢失时认为到达了最优状况,并研讨它在下流分类使命中的体现。

  • 测验表征

用什么来界说一个好的表征呢?这儿咱们假定经过它,运用一个线性分类器解复苏宇决二进制分类使命,来衡量表征的质量。(此外,本文还研讨了下流使命中 k 类分类使命的状况)。那么怎么挑选这个二进制分类使命?咱们依据衡量 随机选取两个类别 c1、c2,并依据相关的概率散布 Dc1、Dc2 为每个类别挑选数据点。然后运用该表征,经过逻辑回归来处理该二进制使命:即找到两个向量 w1、w2 来最小化以下丢失。



这儿用二分类使命的均匀丢失来衡量表征的质量:


还值得注意的是,关于潜在类别中的未符号数据,将以相同类别在分类使命中呈现。这答应咱们可以公式化上面所说到的 “语义类似性” 的含义:即数据点更频频地呈现在一起的类别,构成了相关分类使命的类别。假如类别数很大的话,那么在无监督练习时运用的数据或许不会在测验阶段触及。实际上,咱们期望所学习的表征可以对那些潜在的、看不见的分类使命有用。

无监督学习的确保

该理论结构的抱负成果是什么?假定咱们固定一品种其他表征函数 F,并可以经过 ResNet 50 结构,挑选结构层尺度来核算它。

虽然可以运用 Rademac热辣文her kb店complexity arguments 来操控学习近似最小化器时所需的未符号数据对的数量,但实际上,这种抱负环境中的原理是不或许完成的。因为咱们可以展现一个简略类别 F,它的比照方针无法发生可比美最好类别所发生的表征。无需惊奇,这仅仅标明:想要完成这样一个抱负成果,需求比上述成果做出更多的假定。

相反,本文所提出的结构证明,当比照学习结束时无监督丢失刚好较小,则所得到的表征在下流的分类使命中可以体现杰出。

这标明无监督丢失函数可以被视为是运用线性分类办法处理下流使命时的一种功能代替,因而对其进行最小化是有含义的。此外,在未来的下流使命中,线性分类器学习只需求少量带标签的样本数据。因而,所提出的结构可以为比照学习供给确保,一起也可以杰出它所供给的在标签样本杂乱性方面的优势。

链接:https://arxiv.org/abs/1902.09229

理论剖析的扩展

这个理论结构不只可以推理 (1) 成功的变体,还可以规划理杨小棺论上新的无监督方针函数。

先验(priori),可以想象是 (1) 中关于对数和指数的一些信息论解说;一起,将函数办法与用于下流分类使命的逻辑回归联络起来。类似地,假如经过 hinge loss 进行分类的话,那么在 (2) 中将运用 hinge-like loss 作为不同的无监督丢失。例如,Wang 和 Gupta 论文中的方针函数被用于从视频中学习图画表征。此外,一般在实解子德践中,k> 1 个负样本与每个正样本 (x,x+) 构成比照,而无监督的方针函数看起来像 k 类穿插熵丢失办法。关于这种设置,事实上监督丢失是与 (2)恐龙x档案 中类似的 k + 1 类的分类丢失。

终究,在类似数据可用时,该结构供给了用于规划新的无监督方针的办法 (如阶段中的语句)。将 (1) 中的 f(x+) 和 f(x-) 别离替换为正、负样本表征的均匀值,那么将得到一个新的方针函数,它在实践中具有更强的确保和更好的功能。终究,本文将经过试验来验证该变体的有用性,详细成果如下。

试验

接下来,咱们将经过一些对照试验来验证所提出的理论。因为缺少对多类别文本的规范阐明,试验中运用一个新的含 3029 个类其他标签数据集,这些类别是来自维基百科网站上 3029 篇文章,每个数据点对应这些文章中 200 条语句中人驴的一条。所学习的表征信息将在随机的二进制分类使命上进行测验,该分类使命触及两篇文章,其间数据点对应的类别是其所属的两篇文章中的一篇 (相同,以这种办法界说 10 分类使命)。在练习表征时,将坚持测验使命的数据点。语句表征 F 是依据门控递归单元 (GRU) 的简略多层结构。

依据上述的黄金规范,在这儿经过有监督地练习 3029 类分类器并在终究的 softmax 层输出之前层所学习的表征得到终究的成果。

而依据所提出的理论,无监督办法用于生成类似的数据点对:这些类似的数据点仅仅从同一篇文章中采样得到的语句对。随后经过最小化上述的无监督丢失方针来学习表征。

在上表中杰出显现的部分标明,无监督表征与在 k 分类监督使命上 (k = 2,10) 所习得的表征适当。

此外,即便在所提出的理论中没有触及,该表征也可以在完好的多分类问题上体现出色:即每个类其他无监督表征均值 (质心) 是可以在 k 分类监督使命中体现杰出。而所得到的无监督表征和监督表征都是正确的。

此外,其他的试验进蔓越莓,语义表征的无监督比照学习:一个新理论结构,嗜睡是什么原因一步研讨负样本数量和较大块类似数据点的影响,包含 CIFAR-100 图画数据集上的试验等。

定论

虽然比照学习是一种众所周知的直观算法,但是否真实有用却一向还未在实践中得到证明。本文所提出的理论结构,为运用此类算法学习表征供给了确保。在论述这些算法的一起,该结构还能进一步提出并剖析它的变体,并供给相应的解说证明,以便构成并探究更强确保的新假定。此外,依据该结构,还能进行一些扩展,包含对潜在类别强加一个衡量结构,元学习 (meta-learning) 与搬迁学习 (transfer le平湖天气预报15天arning) 之间树立联络等。

相关链接:http://www.offconvex.org/2019/03/19/CURL/

(本文为 AI科技大本营翻译文章,转载请微信联络 1092722531)

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。