主页

信息的度量和作用:信息论基本概念

本文摘自吴军《数学之美》,部分内容有修改。 我们在生活中一直谈论信息,但是信息这个概念依然有些抽象。我们经常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如,一本 50 多万字的《史记》到底有多少的信息量?我们也常说信息有用,那么它的作用又是如何客观、定量地体现出来的呢? 对于这两个问题,几千年来都没有人给出很好的解答。直到 1948 年,香农(Claude Elwood Shannon)在他著名的论文《通信的数学原理》(A Mathematic Theory of Communication)中提出了“信息熵”的概念,才解决了信息的度量问题,并且量化出信息的作用。 信息熵 一条信息的信息量与其不确定性有着直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或...

阅读更多

LDA 入门:预测文档的主题

本文转载自《LDA入门与Java实现》,版权归原作者 hankcs 所有。部分内容有修改。 什么是主题模型 在我的博客上,有篇文章《基于双数组Trie树的Aho Corasick自动机极速多模式匹配》被归入算法目录,算法即为该文章的主题。而该文章因为涉及到中文分词,又被我归入了分词目录。所以该文章的主题并不单一,具体来说文中 80% 在讲算法,20% 稍微讲了下在分词中的应用。 传统的文本分类器,比如贝叶斯、kNN 和 SVM,只能将其分到一个确定的类别中。假设我给出 3 个分类“算法”“分词”“文学”让其判断,如果某个分类器将该文归入算法类,我觉得还凑合,如果分入分词,那我觉得这个分类器不够准确。 假设一个文艺小青年来看我的博客,他完全不懂算法和分词,自然也给不出具体的备选...

阅读更多

使用 LaTeX 编辑数学公式:优雅地展示数学公式

前言 在网页或者书本上,我们经常会看到很多排版优美的数学公式。可是目前已有的公式编辑器,要么使用方法复杂,要么功能过于简陋,总是很难满足我们的需求。于是当我们需要插入公式时,往往直接通过截图这种简单粗暴的方法来解决。 LaTeX 是一个非常强大的排版工具,通过各种 package 资源几乎能构造出你需要的任何效果,编辑数学公式更不在话下。本文将介绍如何使用 LaTeX 来编辑数学公式,只会使用到 LaTeX 最基础的语法,即使你从未接触过 LaTeX 也可以轻松上手。 通过本文,你将知道: 数学符号的表示和数学公式的构造 数学公式的排版 使用 MathJax 引擎在网页上显示公式 基础知识 LaTeX 的数学模式有两种:行内模式(inline)和行间模式(d...

阅读更多

Spring MVC 快速入门:快速开发一个 Java 网站

1. 前言 Spring Web MVC 是一种轻量级的 Web 框架,它实现了 Web MVC 设计模式,能够简化日常的 Web 开发。本文将通过一个简单的示例,让大家对 Spring MVC 框架有一个大概的认识。(最下方可以直接下载源码) 2. 新建项目 我们使用 Eclipse 进行 Spring MVC 的开发,选择新建一个动态 Web 项目(Dynamic Web Project)。 项目建好之后,目录结构如下: 简单说明一下各文件夹的作用: src : 存放 Java 项目的源代码(与普通项目相同),包括后面编写的 Web 请求响应逻辑,都存放在这里。 WebContent : 存放网页、css、js 等网站内容,可以把 WebContent...

阅读更多

C# 使用 Json.NET 解析 Json:Json.NET 简易指南

使用 Json.NET 完成 .NET 对象的序列化和反序列化,以及对复杂 Json 数据的解析。 前言 最近在 C# 项目中需要使用到 Json 格式的数据,我简单上网搜索了一下,基本上有两种操作 Json 数据的方法: 使用 Windows 系统自带的类 使用第三方的包 本着“第三方包一定有比系统自带类优秀地方,否则就不会存在”的原则,再加上 JavaScriptSerializer、DataContractJsonSerializer 等这些自带类库使用起来很麻烦,我毫不犹豫地就选择了在 Json 操作方面小有名气的 Json.NET。Json.NET 自己也做了与自带类库的比较,详情可以见 Json.NET vs .NET Serializers 和 Js...

阅读更多