主页

灾后北川残酷一面:汶川大地震最好的记录和纪念

我必须向两位作者致敬,十年后读他们的文字,震撼感仍不减当年。我同时有些伤感,他们所在的那个群星璀璨的新闻团队已经星流云散,他们所在的那个激情燃烧的行业已经面目全非 ——编者 李海鹏 陈江 文 转载自财经十一人《灾后北川残酷一面 汶川大地震最好的记录和纪念》,原文作者:李海鹏 陈江。原载2008年5月22日南方周末,转载自李海鹏博客 声音在消失 死亡的气味是在5月15日下午开始在北川县城里弥漫开来的。那是一种甜、臭和焦糊的味道。地震在北川为害最烈,由于缺少尸袋,仍有大量遗体被摆放在街道上废墟的空隙间等待处理。废墟下面可能仍埋有上万人之多,正在不断死去。几千名军警和消防队员已经又饿又累。傍晚,成都军区某集团军坦克团的士兵们在河边广场上集结,开始吃这一天的第一顿饭:火...

阅读更多

决策树:信息增益、增益率和基尼指数

基本流程 决策树 (decision tree) 是一类常见的机器学习方法,它基于树结构来进行决策。例如,我们要对“这是好瓜吗?”这样的问题进行决策时,通常会进行一系列的判断或“子决策”,如下图所示: 一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶结点的路径对应了一个判定测试序列。 决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的“分而治之” 策略。决策树学习基本算法如下所示 输入:训练集 $D={(\boldsymbol{x}_1,y_1),(\bol...

阅读更多

无约束优化:梯度下降、牛顿法和拟牛顿法

许多机器学习模型的训练过程就是在求解无约束最优化问题,梯度下降法 (gradient descent)、牛顿法 (Newton method) 和拟牛顿法 (quasi Newton method) 都是求解这类问题的常用方法。其中梯度下降法实现简单,而牛顿法和拟牛顿法收敛速度快。 梯度下降法 假设 $f(\boldsymbol{x})$ 是 $\mathbb{R}^{n}$ 上具有一阶连续偏导数的函数。要求解的无约束最优化问题是 \[\min_{\boldsymbol{x} \in \mathbb{R}^n} f(\boldsymbol{x}) \tag{1.1}\] $\boldsymbol{x}^*$ 表示目标函数 $f(\boldsymbol{x})$ 的极小点。 梯...

阅读更多

朴素贝叶斯分类器:假设所有属性相互独立

贝叶斯决策论 贝叶斯判定准则 假设有 $N$ 种可能的类别标记,即 $\mathcal{Y} = {c_1,c_2,…,c_N}$,$\lambda_{ij}$ 是将一个真实标记为 $c_j$ 的样本误分类为 $c_i$ 所产生的损失。基于后验概率 $P(c_i\mid\boldsymbol{x})$ 可获得将样本 $\boldsymbol{x}$ 分类为 $c_i$ 所产生的期望损失 (expected loss),即在样本 $\boldsymbol{x}$ 上的“条件风险” (conditional risk) \[R(c_i\mid\boldsymbol{x}) = \sum_{j=1}^N \lambda_{ij} P(c_j \mid \boldsymbol{x}) \...

阅读更多

深度学习中的优化方法:梯度下降和约束优化

大多数深度学习算法都涉及某种形式的优化。优化指的是改变 $\boldsymbol{x}$ 以最小化或最大化某个函数 $f(\boldsymbol{x})$ 的任务。我们通常以最小化 $f(\boldsymbol{x})$ 指代大多数最优化问题,最大化可经由最小化算法最小化 $−f(\boldsymbol{x})$ 来实现。 我们把要最小化或最大化的函数称为目标函数 (objective function),当我们对其进行最小化时,我们也把它称为代价函数(cost function)、损失函数 (loss function)或误差函数 (error function)。 我们通常使用一个上标 $*$ 表示最小化或最大化函数的 $\boldsymbol{x}$ 值。如我们记 $\bol...

阅读更多

概率与信息论基础(下):常用概率分布和信息熵

常用概率分布 许多简单的概率分布在机器学习的众多领域中都是有用的。 Bernoulli 分布 Bernoulli 分布 (Bernoulli distribution) 是单个二值随机变量的分布。它由单个参数 $\phi ∈ [0, 1]$ 控制,$\phi$ 给出了随机变量等于 $1$ 的概率。它具有如下的一些性质: \(P(\mathbb{x} = 1) = \phi\\ P(\mathbb{x} = 0) = 1-\phi\\ P(\mathbb{x} = x) = \phi^x(1-\phi)^{1-x}\\ \mathbb{E}_\mathbb{x}[\mathbb{x}] = \phi\\ \text{Var}_\mathbb{x}(\mathbb{x}) = \ph...

阅读更多

概率与信息论基础(上):基础概念

概率论中最基本的概念是随机变量,随机变量 (random variable) 就是可以随机地取不同值的变量。 一个随机变量只是对可能的状态的描述,它必须伴随着一个概率分布来指定每个状态的可能性。随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态(这些状态不一定是整数,也可能只是一些被命名的没有数值的状态)。连续随机变量伴随着实数值。 我们通常用无格式字体来表示随机变量,用手写体来表示随机变量的取值。例如,$x_1$ 和 $x_2$ 都是随机变量 $\mathbb{x}$ 可能的取值。对于向量值变量,我们会将随机变量写成 $\textbf{x}$,它的一个可能取值为 $\boldsymbol{x}$。 概率分布 概率分布 (probability di...

阅读更多

机器学习基础(五):监督学习算法和随机梯度下降

本文内容摘取自 《Deep Learning》,部分内容有修改。 监督学习算法 粗略地说,监督学习算法是给定一组输入 $\boldsymbol{x}$ 和输出 $\boldsymbol{y}$ 的训练集,学习如何关联输入和输出。 概率监督学习 大部分监督学习算法都是基于估计概率分布 $p(y \mid \boldsymbol{x})$ 的,我们可以使用最大似然估计找到对于有参分布族 $p(y \mid \boldsymbol{x}; \boldsymbol{\theta})$ 最好的参数向量 $\boldsymbol{\theta}$。 我们已经看到,线性回归对应于分布族 \[p(y\mid\boldsymbol{x};\boldsymbol{\theta}) = \ma...

阅读更多