主页

机器学习基础(四):最大似然估计和贝叶斯统计

本文内容摘取自 《Deep Learning》,部分内容有修改。 在《机器学习基础(三)》估计一节中我们已经看过常用估计的定义,并分析了它们的性质,但是这些估计是从哪里来的呢?我们希望有些准则可以让我们从不同模型中得到特定函数作为好的估计,而不是猜测某些函数可能是好的估计,然后分析其偏差和方差。 最常用的准则是最大似然估计。 最大似然估计 考虑一组含有 $m$ 个样本的数据集 $\mathbb{X} = {\boldsymbol{x}^{(1)}, . . . , \boldsymbol{x}^{(m)}}$,独立地由未知的真实数据分布 $p_{\text{data}}(\boldsymbol{x})$ 生成。令 $p_{\text{model}}(\boldsymbol{x...

阅读更多

机器学习基础(三):交叉验证和参数估计

本文内容摘取自 《Deep Learning》,部分内容有修改。 超参数和验证集 大多数机器学习算法都有超参数来控制算法行为,超参数的值不是通过学习算法本身学习出来的。有时一个选项被设为超参数是因为它太难优化了,更多的情况是该选项不适合在训练集上学习。例如在训练集上学习控制模型容量的超参数,这些超参数总是趋向于最大可能的模型容量,导致过拟合。 为了解决这个问题,我们需要一个训练算法观测不到的验证集 (validation set) 样本。 早先我们讨论过和训练数据相同分布的样本组成的测试集用来估计学习器的泛化误差,其重点在于测试样本不能以任何形式参与到模型的选择中 (包括设定超参数)。基于这个原因,测试集中的样本不能用于验证集,因此我们总是从训练数据中构建验证集。 我们将训...

阅读更多

机器学习基础(二):容量、过拟合和欠拟合

本文内容摘取自 《Deep Learning》,部分内容有修改。 在先前未观测到的输入上表现良好的能力被称为泛化 (generalization)。通常当我们训练机器学习模型时,我们目标是降低在训练集上的训练误差 (training error),同时我们也希望泛化误差 (generalization error) 很低。当我们只能观测到训练集时,我们如何才能影响测试集的性能呢?统计学习理论 (statistical learning theory) 提供了一些答案。 通常,我们会做一系列被统称为独立同分布假设 (i.i.d. assumption) 的假设。该假设是说,每个数据集中的样本都是彼此相互独立的 (independent),并且训练集和测试集是同分布的 (identi...

阅读更多

机器学习基础(一):学习算法

本文内容摘取自 《Deep Learning》,部分内容有修改。 机器学习算法是一种能够从数据中学习的算法。Mitchell (1997) 提供了一个简洁的定义:“对于某类任务 $T$ 和性能度量 $P$,一个计算机程序被认为可以从经验 $E$ 中学习是指,通过经验 $E$ 改进后,它在任务 $T$ 上由性能度量 $P$ 衡量的性能有所提升。” 任务 $T$ 通常机器学习任务定义为机器学习系统应该如何处理样本 (example)。样本是指我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征 (feature) 的集合。我们通常会将样本表示成一个向量 $\boldsymbol{x} \in \mathbb{R}^n$,其中向量的每一个元素 $x_i$ 是一个特征。 ...

阅读更多

一张烈士证明书引发的死刑

转载自人间《一张烈士证明书引发的死刑》,作者:竹子 领导已下定决心为郭浩申报追烈,而主管追烈部门的意图他们已经领会:郭浩评烈士,刘向必须死。不久以后我就发现,我最初的忧虑果然成了谶语。 这是20年前我在日记中记录一桩刑事案件的片段: 面对狩猎者的枪口,青年民警毫不犹豫地向前跨出一步。沉闷的枪声打破暗夜的沉寂,一条火蛇瞬间将青年民警击倒,身中48粒铁砂弹,22粒洞穿心脏。一个年轻的生命如含苞绽放的花蕊一般凋谢了,永远定格在18周岁生日的夜晚。 1 小时候,在我的家乡,几乎每个男人们都喜欢玩猎枪。在一个个分散的乡间集市,自制的猎枪就像其它的农村手工制品一样,在暗地里悄然流传。 参军之前,我有一杆自制的“瘸把枪”,枪管是一根两米来长的无缝钢管,底部镶嵌一块坚硬的弯头木板,枪托后...

阅读更多

那些被送进戒网瘾学校的孩子:正义可能会迟到 但永远不会缺席

转载自人间《进了那些学校,孩子再没回来》,作者:《今日说法》栏目记者倪伟 2017年11月,我再次来到济南,“山东科技防卫专修学院”的旧址。 一年前我来到这里的时候,操场上还有一百来个学生,穿着迷彩服。男生们打篮球,女生跳皮筋,到处都是一片欢声笑语。仅仅一年多时间,操场上只剩一大片芦苇随着风摇摆,晃得人失神。偌大的地方,如今只有一个22岁的娃娃脸男兵看守着——这块地是部队的军产,在我来的一个月前,部队要求原来租用这里的“山东科技防卫专修学院”腾退。 学校搬走,招牌取下,一片狼藉。我从一楼走到六楼,每层过道的尽头是一个“静”字,每个房间我都进去看了看,觉得这里更像是一家废弃的医院:学生宿舍的墙是惨白色,一个房间外写着“处置室”,床前还有呼唤铃。 可曾住在这里的,却不能算是病人。...

阅读更多

浅谈 NLP 中的 Attention 机制

(本文于 2020 年 6 月 14 日更新) 如今 NLP 领域,Attention 大行其道,当然也不止 NLP,在 CV 领域 Attention 也占有一席之地(Non Local、SAGAN 等)。众多 NLP&CV 的成果已经充分肯定了 Attention 的有效性。 背景 2017 年中,有两篇类似并且都算是 Seq2Seq 上的创新的论文,分别是 FaceBook 的《Convolutional Sequence to Sequence Learning》和 Google 的《Attention is All You Need》。本质上来说,它们都是抛弃了 RNN 结构来做 Seq2Seq 任务。 本文将首先对《Attention is All...

阅读更多

从 loss 的硬截断、软化到 focal loss:通过 Loss 函数缓解数据不平衡问题

转载自《从loss的硬截断、软化到focal loss》,作者:苏剑林。 前言 今天在 QQ 群里的讨论中看到了 focal loss,经搜索它是 Kaiming 大神团队在他们的论文《Focal Loss for Dense Object Detection》提出来的损失函数,利用它改善了图像物体检测的效果。不过我很少做图像任务,不怎么关心图像方面的应用。本质上讲,focal loss 就是一个解决分类问题中类别不平衡、分类难度差异的一个 loss,总之这个工作一片好评就是了。大家还可以看知乎的讨论: 《如何评价kaiming的Focal Loss for Dense Object Detection?》 看到这个 loss,开始感觉很神奇,感觉大有用途。因为在 NLP 中,...

阅读更多