被譽為神經計算和機器學習領域兩大頂級會議之一的 NIPS 于近日揭曉收錄論文名單,此次為第 32 屆會議,將于 12 月 3 日至 8 日在加拿大蒙特利爾舉辦。
騰訊 AI Lab 第三次參加 NIPS,共有 20 篇論文入選,其中 2 篇被選為亮點論文(Spotlight),涵蓋遷移學習、模仿學習、半監督學習等多個研究主題,去年我們入選論文 8 篇,含 1 篇口頭報告(Oral)。
此外,在今年的多個頂級學術會議中,騰訊 AI Lab 也入選多篇論文,位居國內企業前列,包括計算機視覺領域頂會 CVPR(21 篇)和 ECCV(19 篇)、機器學習領域頂會 ICML(16 篇)、NLP 領域頂會 EMNLP(16 篇),以及語音領域頂會 Interspeech(8 篇)等。
我們將在下文一一解析本次騰訊 AI Lab 入選論文,也邀請大家在 NIPS 的現場跟我們進一步交流與討論。

SPIDER-SFO

新提出的模型結構及其訓練連接如上圖所示。該模型由一個語句定位器和一個描述生成器組成。在訓練過程中,模型可使用視頻及其所有的事件描述。首先語句定位器會使用視頻和其中一個事件描述來獲得一個時間片段預測,然后描述生成器會使用這個時間片段來生成一個描述語句。
8. 基于可配置熵約束的半監督學習
Semi-Supervised Learning with Declaratively Specified Entropy Constraints
論文地址:https://arxiv.org/abs/1804.09238
這項研究由卡耐基梅隆大學(CMU)與騰訊 AI Lab 合作完成,提出了一種新的聲明式列舉規則的半監督學習的方法,可用于定制化半監督學習。這種方法可以組合多個半監督學習策略,同時可以結合多個協議(agreement)約束和熵正則化(entropic regularization)約束。此外,這種方法還可以用于模擬其它常見的模型,比如聯合訓練和針對全新域的啟發式方法。除了表征單個的半監督學習啟發式方法,研究者還表明可以使用貝葉斯優化將多種啟發式方法組合到一起。在多個數據集上的實驗結果表明這種方法能穩定地優于其它方法,并在一個較困難的關系抽取任務上得到了當前最佳的結果。

新提出的去卷積網絡的架構,其中通過廣義低秩近(GLRA)使用大量模糊核(blur kernel)的可分離過濾器來初始化第 1 層和第 3 層的參數,并使用為每個模糊核估計的 M 來固定第 2 個卷積核中的參數。另外還堆疊了額外的 3 個卷積層來去除偽影。
10. 超越二次指派模型:圖匹配形式化的一個推廣
Generalizing Graph Matching beyond Quadratic Assignment Model
這項研究由騰訊 AI Lab、上海交通大學、美國亞利桑那州立大學等合作完成。圖匹配在過去幾十年間一直受到持續觀注,該問題往往可以被形式化成一個二階指派問題。研究者在本文中展示:通過引入一系列在本文中被稱為可分離的函數,并調整近似控制參數,可以在連續域中對離散的圖匹配問題進行漸進的近似。研究者對該近似模型的全局最優解性質進行了研究,并進一步設計了凸/凹性質保持下的擴展算法,而該類似策略在傳統 Lawler 二次指派模型上亦被廣泛采用。從理論上,研究者進一步論證了所提出的框架在為圖匹配新算法與技術設計帶來的巨大潛力。最后,通過兩個具體的可分離函數形式,研究者設計了相關求解算法,并在公開數據集上進行了驗證。
11. 基于蒸餾 Wasserstein 學習的單詞嵌入與主題建模
Distilled Wasserstein Learning for Word Embedding and Topic Modeling
論文地址:https://arxiv.org/abs/1809.04705
這項研究由 InfiniaML, Inc. 和美國杜克大學主導,與騰訊 AI Lab 合作完成。本文提出了一種具有蒸餾機制的 Wasserstein 學習方法,實現了單詞嵌入與文本主題的聯合學習。該方法的依據在于不同主題單詞分布的 Wasserstein 距離往往是建立在單詞嵌入的歐式距離的基礎之上的。因此,該方法采用了一個統一的框架用以學習主題模型對應的單詞分布,單詞分布之間的最優傳輸,以及相應的單詞嵌入模型。在學習主題模型時,研究者利用模型蒸餾的方法平滑距離矩陣,用以更新主題模型和計算主題之間的最優傳輸。這種蒸餾機制為下一步單詞嵌入的更新提供了具有魯棒性的指導,改進了學習過程的收斂性。針對采用疾病和手術 ICD 編碼的病人入院記錄,研究者的方法在構建疾病相關性網絡,死亡率預測,和治療方案推薦等應用上取得了比現有方法更好的結果。

上圖展示了新提出的往復式學習算法總覽。該算法會首先在前向過程中計算給定訓練樣本的分類分數,然后在后向過程中通過取該分類分數相對該樣本的偏導數來得到顯著性響應圖。之后再將這個響應圖作為正則化項與分類損失結合起來用于訓練分類器。測試階段不會生成響應圖,而是由分類器直接預測目標位置。
13. 基于學習的多任務學習框架 L2MT
Learning to Multitask
論文地址:https://arxiv.org/abs/1805.07541
這項研究由香港科技大學與騰訊 AI Lab 合作完成,提出了學會多任務學習(L2MT)的框架,能夠自動發掘對于一個多任務問題最優的多任務學習模型。為了實現這個目標,L2MT 充分利用了歷史的多任務學習經驗。每個多任務學習經驗是一個三元組,包括一個由多個任務組成的多任務問題、一個多任務學習模型以及該模型在該多任務問題上的相對測試錯誤率。以歷史的多任務學習經驗作為訓練集,L2MT 首先使用層式圖神經網絡(layerwise graph neural network)學習每個多任務問題里所有任務的特征表示。其次,L2MT 會學習一個估計函數來預測相對測試錯誤率,該估計函數基于多任務問題的特征表示以及多任務學習模型。如此一來,給定一個新的多任務問題,通過最小化該估計函數(等價于最小化相對測試錯誤率)可以確定一個合適的多任務模型。在標準數據集上的實驗證明了 L2MT 的有效性。

可判別式通道剪枝(DCP)示意圖
15. M-Walk: 圖游走的蒙特卡洛樹狀搜索學習方法
M-Walk: Learning to Walk in Graph with Monte Carlo Tree Search
論文地址:https://arxiv.org/abs/1802.04394
這項研究由微軟研究院與騰訊 AI Lab 合作完成,提出了一種可用于知識圖譜推理的蒙特卡洛樹狀搜索學習方法 M-Walk。在知識庫完成等應用中,給定一個輸入查詢和一個源節點,學習在圖中到達目標節點是一個很重要的研究問題。這個問題可通過一個已知的狀態轉移模型而形式化為一個強化學習問題。為了克服獎勵稀疏的難題,研究者開發出了一種能在圖中游走的智能體 M-Walk——由一個深度循環神經網絡(RNN)和蒙特卡洛樹搜索(MCTS)構成。RNN 會對狀態(即游走過的路徑的歷史)進行編碼,并將其分別映射成一個策略、一個狀態值和狀態-動作 Q 值。為了能使用稀疏獎勵有效地訓練該智能體,研究者將 MCTS 與這個神經網絡策略結合到了一起,可以生成能產生更多積極獎勵的軌跡。通過 Q 學習方法(其會通過參數共享來修改 RNN 策略),神經網絡能使用這些軌跡以一種離策略的方式得到改進。研究者提出的強化學習算法可以反復應用這一策略改進步驟,從而學習得到整個模型。在測試時間,MCTS 仍然會與神經策略結合起來預測目標節點。研究者在多個圖游走基準上進行了實驗,結果表明 M-Walk 能夠學會比其它基于強化學習的方法(主要基于策略梯度)更好的策略。M-Walk 的表現也優于傳統的知識庫完成基準。

耦合變分貝葉斯算法
17. 常數迭代復雜度的隨機經驗誤差最小化方法
Stochastic Primal-Dual Method for Empirical Risk Minimization with O(1) Per-Iteration Complexity
這項研究由香港中文大學、騰訊 AI Lab、加州大學戴維斯分校與羅切斯特大學合作完成,提出了一種可用于快速求解基于廣義線性模型的經驗誤差最小化問題的方法。該方法的特點是每輪迭代只需要 O(1) 的常數計算量,與問題的維度以及數據的大小無關。研究者還發展了該方法的一種方差減小的變種,在強凸條件下可以證明它具有線性收斂性。研究者使用 logistic 損失函數進行了求解分類問題的數值實驗,結果表明新方法在高維問題上的收斂速度優于 SGD、SVRG、SAGA 等經典算法。

使用了方差縮減的 SPD1
18. 方差縮減的隨機期望最大化算法
Stochastic Expectation Maximization with Variance Reduction
論文地址:https://ml.cs.tsinghua.edu.cn/~jianfei/semvr-nips2018.pdf
這項研究由清華大學主導完成,騰訊 AI Lab 和牛津大學也有參與。論文提出了一個受方差縮減的隨機梯度下降算法啟發的基于方差縮減的隨機 EM(sEM-vr)算法。研究表明 sEM-vr 具備和批 EM 相同的指數收斂速率,且 sEM-vr 只需要常數步長,從而能降低調參的負擔。研究者在高斯混合模型和 PLSA 上比較了 sEM-vr 和批處理 EM、隨機 EM 及其它算法,結果表明 sEM-vr 比其它算法收斂明顯更快。該方法在對訓練精度要求較高時能顯著提升隨機 EM 算法的收斂速度。
19. 通信有效分布式優化的稀疏梯度方法
Gradient Sparsification for Communication-Efficient Distributed Optimization
論文地址:https://arxiv.org/abs/1710.09854
這項研究由賓夕法尼亞大學、騰訊 AI Lab、芝加哥大學與羅切斯特大學合作完成,提出了一種可用于提高大規模分布式機器學習模型訓練的通信速度的方法?,F代大規模機器學習一般使用分布式環境下的隨機優化算法,傳播梯度的通信成本是其中一大重要瓶頸。為了降低通信成本,研究者提出了一種基于凸優化的方法來減小編碼長度,并使用了一些簡單快速的近似算法來有效求解最優的稀疏化方法,該方法能提供基于稀疏程度的理論保證。另外,研究者也在 L2 正則化 logistic 回歸、支持向量機和卷積神經網絡等凸模型和非凸模型上驗證對新提出的算法進行了驗證。
20. 去中心化的壓縮算法
Decentralization Meets Quantization
論文地址:https://arxiv.org/abs/1803.06443
這項研究由羅徹斯特大學、蘇黎世聯邦理工學院與騰訊 AI Lab 合作完成,提出了兩種適用于去中心化網絡的壓縮方法(外推壓縮和差異壓縮)。對于大規模并行計算,去中心化的網絡設計和傳輸信息的壓縮對于解決網絡延時十分有效。然而,與中心化的并行計算不同,理論分析表明,直接將去中心化網絡與壓縮算法結合將會造成訓練結果不收斂。研究者為解決該問題而提出的兩種壓縮方法能達到與中心化壓縮算法相同的運算效率。研究者也實驗了這兩種算法,結果表明它們大幅優于只用去中心化網絡或只用壓縮的算法。

DCD-PSGD:差異壓縮去中心化并行隨機梯度下降算法
一分鐘了解 NIPS
NIPS 全稱為 Annual Conference and Workshop on Neural Information Processing Systems,于 1986 年在由加州理工學院和貝爾實驗室組織的 Snowbird 神經網絡計算年度閉門論壇上首次提出。會議固定在每年 12 月舉行。今年是第 32 屆,將于 12 月 3 日到 8 日在加拿大蒙特利爾舉辦。
計算機學科由于成果更新迅速,更愿意通過會議優先發表成果,因此該類頂級會議大多比期刊更具權威性與影響力。NIPS 和 ICML 是機器學習領域最受認可的兩大頂會,是中國計算機學會 CCF 推薦的 A 類會議及 Google 學術指標前五名。(見如下)

質檢
推薦