概率图模型(PGM)

谢澎涛:

概述

  • 概率图模型大致可以分为两种,directed graphical model(又称贝叶斯网络)和undirected graphical model(又称马尔可夫随机场)
  • PGM(同支持向量机、决策树、bosting一起)是将人工智能的研究热点从传统AI(逻辑,推理,知识表示)转向机器学习的重要工作

    应用:

    隐马尔可夫模型(HMM)是语音识别的支柱模型
    高斯混合模型(GMM)及其变种K-means是数据聚类的最基本模型
    条件随机场(CRF)广泛应用于自然语言处理(如词性标注,命名实体识别)
    Ising模型获得过诺贝尔奖
    话题模型在工业界大量使用(如腾讯的推荐系统)

解释

PGM是一个概率分布,
图中的结点对应于随机变量,
边对应于随机变量的dependency或者correlation关系

使用:给定一个实际问题,我们通常会观测到一引起数据,并且希望能够挖掘出隐含在数据中的知识

构建一个图
用观测点表示观测到的数据,
用隐含结点表示潜在的知识,
用边来描述知识与数据的相互关系,
最后获得一个概率分布。
给定概率分布之后,通过进行两个任务来获取知识:

  1. inference(给定观测结点,推断隐含结点的后验分布)
  2. learning(学习这个概率分布的参数)

强大之处在于:

不管数据和知识多复杂,我们的处理手段是一样的:
建一个图,定义一个概率分布,进行inference和learning

系统学习:

推荐CMU Eric Xing教授每年开的10708 PGM课程 10708 Probabilistic Graphical Models。 既包含了PGM最基本、最核心的内容,也讲述了很多advanced topic。而且有视频。