Ilya Sutskever推荐的涵盖当前90%人工智能技术知识的学习清单

0 60

Ilya Sutskever 是 OpenAI 的联合创始人兼首席科学家，他整理的机器学习研究文章清单在网络上引起了广泛关注。这份清单被认为涵盖了人工智能领域当前90%的重要内容，涉及的主题包括 transformer 架构、循环神经网络（RNN）、长短期记忆网络（LSTM）和神经网络的复杂度等。例如，他推荐了2015年他与 Wojciech Zaremba 发表的论文《Recurrent Neural Network Regularization》，以及谷歌在2017年发表的《Attention Is All You Need》，后者是 transformer 架构的开山之作。此外，还有对《The Annotated Transformer》的推荐，这是一篇对原论文进行逐行注释和整理的博客文章。这份清单为那些希望快速了解 AI 领域发展现状和掌握必要基础知识的行业从业者和基础科学研究者提供了宝贵的资源。
清单地址：https://arc.net/folder/D0472A20-9C20-4D3F-B145-D2865C0A9FEE

学习清单上一共罗列了23篇论文、2篇博客文章、1本书籍和1门课程：
【1】论文《The Annotated Transformer》
核心内容：该论文提供了对”Attention Is All You Need”论文中提出的Transformer模型的详细解读和注解。它深入分析了模型的各个组成部分，包括编码器和解码器的结构、注意力机制、位置编码以及训练细节等，旨在帮助读者更好地理解和实现Transformer模型。
论文链接：https://nlp.seas.harvard.edu/annotated-transformer
【2】论文《The First Law of Complexo Dynamics》
核心内容: 理论计算机科学家Scott Aaronson在其博客文章中探讨了物理系统中复杂性随时间的增长趋势，这与热力学第二定律描述的熵增相反。文章分析了复杂性在自然过程中先减小后增大的现象，指出在系统演化的早期和末期复杂性接近零，但在中间阶段会有所增加，这种现象在量子计算和其他物理模型中都有体现。
论文链接：https://scottaaronson.blog/?p=762
【3】博文《The Unreasonable Effectiveness of Recurrent Neural Networks》
核心内容: 文章探讨了循环神经网络（RNNs）的高效性，展示了它们如何学习生成文本，并在多种任务上表现出色，包括文本生成、图像描述和机器翻译等。通过训练和实验，说明了RNNs的强大功能和在自然语言处理中的广泛应用。
博文链接：https://karpathy.github.io/2015/05/21/rnn-effectiveness
【4】博文《Understanding LSTM Networks》
核心内容: 这篇文章深入解释了长短期记忆网络（LSTMs）的工作原理，它们是循环神经网络（RNNs）的一种特殊类型，能够学习到数据中的长期依赖关系。文章通过直观的图解和例子，阐述了LSTMs如何解决传统RNNs的梯度消失或爆炸问题，并介绍了LSTMs的关键组件：遗忘门、输入门和输出门。此外，作者还讨论了LSTMs在各种序列任务中的应用，包括语言模型、机器翻译等。
博文链接：https://colah.github.io/posts/2015-08-Understanding-LSTMs
【5】论文《Recurrent Neural Network Regularization》
核心内容: 本文介绍了一种针对具有长短期记忆（LSTM）单元的循环神经网络（RNNs）的简单正则化技术。Dropout作为神经网络中最成功的正则化技术，并不适用于RNNs和LSTMs。本文展示了如何在LSTMs中正确应用Dropout，并证明了其在多种任务上显著减少了过拟合，这些任务包括语言建模、语音识别、图像字幕生成和机器翻译。
论文链接：https://arxiv.org/pdf/1409.2329
【6】论文《Keeping the neural networks simple by minimizing the description length of the weights》
核心内容：本文讨论了最小化神经网络权重描述长度以简化网络的方法。提出通过增加高斯噪声控制权重信息量，并优化网络误差与权重简洁性的平衡。介绍了在非线性隐藏层网络中有效计算信息量和误差的方法，以及基于最小描述长度原理的权重编码策略。
论文链接：https://www.cs.toronto.edu/~hinton/absps/colt93.pdf
【7】论文《Pointer Networks》
核心内容：本文提出了指针网络（Ptr-Net），一种新型神经网络架构，用于处理输出序列长度可变的问题。Ptr-Net利用神经注意力机制，通过训练学习解决几何问题，如凸包、Delaunay三角剖分和旅行商问题。模型展示了对未见长度的泛化能力，证明了数据驱动方法在解决复杂组合优化问题中的潜力。
论文链接：https://arxiv.org/pdf/1506.03134
【8】论文《ImageNet Classification with Deep Convolutional Neural Networks》
核心内容：本文描述了使用深度卷积神经网络在ImageNet LSVRC-2010比赛中对1.2百万图像进行分类的研究，达到了37.5%的top-1和17.0%的top-5错误率，优于先前技术。网络结构包含五层卷积和三层全连接，采用ReLU单元和Dropout减少过拟合，通过GPU加速训练。在ILSVRC-2012比赛中，变体模型获得了15.3%的top-5错误率，赢得比赛。
论文链接：https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
【9】论文《Order Matters: Sequence to sequence for sets》
核心内容：论文探讨了在监督学习中，序列（sequence）到序列（seq2seq）框架的局限性，尤其是在处理无法自然表达为序列的可变大小输入和输出时。作者指出，输入和输出数据的排列顺序在学习底层模型时具有重要意义。论文提出了一种扩展的seq2seq框架，用于原则性地处理输入集合，并提出了一种在训练过程中搜索可能的顺序以解决输出集合缺乏结构的问题的损失函数。通过在语言建模、解析任务以及人工任务（如数字排序和估计未知图形模型的联合概率）上的实验，验证了关于排序的论点以及对seq2seq框架的修改。
论文链接：https://arxiv.org/pdf/1511.06391
【10】论文《GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism》
核心内容：GPipe 是一个流水线并行库，允许通过微批处理高效扩展大型神经网络。它通过在多个加速器上分配网络层，实现了模型的高效扩展和训练，同时保持了硬件的高利用率和训练稳定性。在图像分类和多语种机器翻译任务中，GPipe 展示了其灵活性和有效性，成功训练了具有数亿参数的模型。
论文链接：https://arxiv.org/pdf/1811.06965
【11】论文《Deep Residual Learning for Image Recognition》
核心内容: 论文提出了深度残差网络，通过学习输入的残差函数来简化训练过程，解决了传统深层网络训练难题。在ImageNet数据集上，残差网络达到3.57%的低错误率，赢得ILSVRC 2015冠军。此外，在COCO数据集上，深层网络的表征能力带来了28%的性能提升。
论文链接：https://arxiv.org/pdf/1512.03385
【12】论文《Multi-Scale Context Aggregation by Dilated Convolutions》
核心内容：文章介绍了一种针对密集预测任务的新型卷积网络模块，该模块使用扩张卷积来有效聚合多尺度上下文信息，而不损失分辨率。这种设计允许网络在保持高分辨率输出的同时，捕获更广泛的上下文信息，从而提高了语义分割等任务的性能。通过在Pascal VOC 2012数据集上的实验，展示了这种模块在提高语义分割准确性方面的有效性。
论文链接：https://arxiv.org/pdf/1511.07122
【13】论文《Neural Message Passing for Quantum Chemistry》
核心内容：本文提出了一种新的神经网络模型——消息传递神经网络（MPNNs），用于量子化学中的分子属性预测。MPNNs通过学习分子图上的消息传递和聚合过程来计算输入图的函数。作者将现有的模型整合到MPNN框架下，探索了此框架内的新变体，并在QM9数据集上实现了最先进的结果，这些结果强到足以促使未来的研究应聚焦于更大分子或更精确的真实标签数据集。此外，作者还开发了一种在不增加计算时间或内存的情况下训练具有更大节点表示的MPNNs的通用方法。
论文链接：https://arxiv.org/pdf/1704.01212
【14】论文《Attention Is All You Need》
核心内容：本文提出了一种新型的神经网络架构——Transformer，它完全基于注意力机制，不再依赖于传统的循环神经网络（RNN）或卷积神经网络（CNN）。Transformer模型通过自注意力机制捕捉输入和输出之间的全局依赖关系，能够实现更高的并行化，并显著减少了训练时间。在WMT 2014英德和英法机器翻译任务上，Transformer模型均取得了优于现有最佳结果的性能，同时在训练成本上也更低。此外，Transformer还被成功应用于英语成分句法分析任务，证明了其在其他任务上的泛化能力。
论文链接：https://arxiv.org/pdf/1706.03762
【15】论文《Neural Machine Translation by Jointly Learning to Align and Translate》
核心内容：本文提出了一种新的神经机器翻译方法，通过联合学习对齐和翻译来克服传统编码器-解码器架构中固定长度向量的局限性。该方法允许模型在生成目标词汇时，自动搜索源句中与预测目标词相关的部分，而无需显式地将这些部分形成硬分割。实验结果表明，该方法在英法翻译任务上达到了与现有最先进的基于短语的系统相当的性能，并且定性分析显示模型发现的（软）对齐与我们的直觉相符。
论文链接：https://arxiv.org/pdf/1409.0473
【16】论文《Identity Mappings in Deep Residual Networks》
核心内容：本文分析了深度残差网络（ResNets）背后的传播公式，强调了使用恒等映射作为跳跃连接和后加激活时，正向和反向信号可以直接从一个块传播到任何其他块的重要性。一系列消融实验支持这些恒等映射的重要性。基于此，本文提出了一种新的残差单元，简化了训练并提高了泛化能力。使用1001层ResNet在CIFAR-10和CIFAR-100上取得了改进的结果，以及在ImageNet上使用200层ResNet取得了改进的结果。
论文链接：https://arxiv.org/pdf/1603.05027
【17】论文《A simple neural network module for relational reasoning》
核心内容：本文介绍了一种称为关系网络（Relation Networks，RNs）的简单神经网络模块，用于解决依赖于关系推理的问题。RNs作为一个即插即用模块，被测试应用于三个任务：使用CLEVR数据集的视觉问答（VQA），在该任务上实现了超越人类的表现；基于bAbI套件的文本问答；以及关于动态物理系统复杂推理。此外，使用Sort-of-CLEVR数据集展示了强大的卷积网络没有解决关系问题的一般能力，但当增强了RNs后可以获取这种能力。研究表明，配备RN模块的深度学习架构能够隐式地发现并学习推理实体及其关系。
论文链接：https://arxiv.org/pdf/1706.01427
【18】论文《Variational Lossy Autoencoder》
核心内容：本文提出了一种结合变分自编码器（VAE）和神经自回归模型（如RNN、MADE和PixelRNN/CNN）的方法，用于学习全局表示，该表示能够捕捉观察数据的某些方面，同时丢弃不相关或不重要的信息，例如2D图像中的细节纹理。通过设计架构，可以控制全局潜在代码学习的内容，使其仅以有损方式“自动编码”数据。此外，利用自回归模型作为先验分布p(z)和解码分布p(x|z)，可以显著提高VAE的生成建模性能，在MNIST、OMNIGLOT和Caltech-101 Silhouettes密度估计任务上取得了新的最佳结果，并在CIFAR10上取得了有竞争力的结果。
论文链接：https://arxiv.org/pdf/1611.02731
【19】论文《Relational Recurrent Neural Networks》
核心内容：本文探讨了记忆型神经网络在处理时间序列数据时是否具备执行复杂关系推理的能力。作者首先确认了标准记忆架构在涉及实体连接方式理解的任务上可能存在困难，即关系推理任务。为了解决这个问题，提出了一种新的内存模块——关系记忆核心（Relational Memory Core, RMC），它使用多头点积注意力机制让记忆之间能够交互。RMC在一系列可能从更强关系推理能力中受益的顺序信息任务上进行了测试，并在强化学习领域（例如Mini PacMan）、程序评估和语言建模等方面取得了显著的性能提升，在WikiText-103、Project Gutenberg和GigaWord数据集上达到了最先进的结果。
论文链接：https://arxiv.org/pdf/1806.01822
【20】论文《Quantifying the Rise and Fall of Complexity in Closed Systems: The Coffee Automaton》
核心内容：本文尝试量化封闭系统中复杂性的增减模式，使用二维元胞自动机模拟咖啡与奶油混合过程，探究了“表观复杂性”作为复杂性的度量，并发现其在粒子相互作用时达到最大，而在非相互作用时保持较低。
论文链接：https://arxiv.org/pdf/1405.6903
【21】论文《Neural Turing Machines》
核心内容：本文提出了一种新型神经网络架构——神经图灵机（Neural Turing Machines, NTM），它通过将神经网络与外部记忆资源相结合，通过注意力机制进行交互，扩展了神经网络的能力。这种组合系统类似于图灵机或冯·诺依曼架构，但是可以端到端微分，允许使用梯度下降进行有效训练。初步结果表明，NTM能够从输入输出示例中推断出简单的算法，如复制、排序和关联回忆。
论文链接：https://arxiv.org/pdf/1410.5401
【22】论文《Deep Speech 2: End-to-End Speech Recognition in English and Mandarin》
核心内容：Deep Speech 2利用深度学习实现英语和普通话的端到端语音识别，通过神经网络优化和HPC技术提高识别速度和准确性，与人类转录员表现相当，并能高效部署于在线服务。
论文链接：https://arxiv.org/pdf/1512.02595
【23】论文《Scaling Laws for Neural Language Models》
核心内容：本文研究了神经语言模型在交叉熵损失上的经验缩放规律。研究发现，损失与模型大小、数据集大小和训练所用计算量呈幂律关系，这些趋势跨越了七个数量级以上。其他架构细节，如网络宽度或深度，在广泛的范围内影响最小。文章提供了简单的方程来管理过拟合与模型/数据集大小的依赖关系，以及训练速度与模型大小的依赖关系。这些关系允许确定固定计算预算下的最佳分配。较大的模型显著提高了样本效率，最优的计算效率训练涉及在相对较少的数据上训练非常大的模型，并在显著未达到收敛前停止。
论文链接：https://arxiv.org/pdf/2001.08361
【24】论文《A tutorial introduction to the minimum description length principle》
核心内容：本教程提供了Rissanen最小描述长度（MDL）原则的概览和介绍。第一章提供了一个概念性的、完全非技术性的介绍，为第二章中给出的技术性介绍奠定了基础，在第二章中，所有第一章中的观点都进行了精确的数学表述。本教程将作为《最小描述长度：理论与实践进展》[Grünwald, Myung, 和 Pitt 2004]一书的前两章，由MIT出版社出版。
论文链接：https://arxiv.org/pdf/math/0406077
【25】论文《Machine Super Intelligence》
核心内容：本文深入探讨了智能的本质，包括其测量方法和理论基础，并对机器超级智能（Machine Super Intelligence, MSI）的概念进行了详细分析。文章讨论了通用人工智能（AGI）的未来发展，评估了它对社会的潜在影响，以及我们如何准备迎接这些变化。
论文链接：https://www.vetta.org/documents/Machine_Super_Intelligence.pdf
【26】书籍《Kolmogorov Complexity and Algorithmic Randomness》
核心内容：本书全面介绍了算法复杂性理论的核心概念，特别是Kolmogorov复杂性理论。书中不仅详细阐述了Kolmogorov复杂性的数学定义和性质，还探讨了其在算法随机性分析、不可压缩性证明以及计算复杂度估计等领域的应用。通过丰富的实例和严谨的论证，本书为读者提供了深入理解算法复杂性与随机性的宝贵资源，是该领域研究者和学生的必读之作。
书籍链接：https://www.lirmm.fr/~ashen/kolmbook-eng-scan.pdf
【27】课程《CS231n: Convolutional Neural Networks for Visual Recognition》
核心内容：斯坦福大学CS231n课程专注于卷积神经网络(CNN)在视觉识别领域的应用。课程内容包括图像分类、kNN、SVM、Softmax、全连接神经网络等基础概念，以及CNN架构、卷积/池化层、网络可视化、迁移学习、微调等高级主题。课程还涵盖了PyTorch框架的使用和网络可视化技巧。
课程链接：https://cs231n.github.io