谢澎涛:
概述
- 概率图模型大致可以分为两种,directed graphical model(又称贝叶斯网络)和undirected graphical model(又称马尔可夫随机场)
- PGM(同支持向量机、决策树、bosting一起)是将人工智能的研究热点从传统AI(逻辑,推理,知识表示)转向机器学习的重要工作
应用:
隐马尔可夫模型(HMM)是语音识别的支柱模型
高斯混合模型(GMM)及其变种K-means是数据聚类的最基本模型
条件随机场(CRF)广泛应用于自然语言处理(如词性标注,命名实体识别)
Ising模型获得过诺贝尔奖
话题模型在工业界大量使用(如腾讯的推荐系统)
解释
PGM是一个概率分布,
图中的结点对应于随机变量,
边对应于随机变量的dependency或者correlation关系
使用:给定一个实际问题,我们通常会观测到一引起数据,并且希望能够挖掘出隐含在数据中的知识
构建一个图
用观测点表示观测到的数据,
用隐含结点表示潜在的知识,
用边来描述知识与数据的相互关系,
最后获得一个概率分布。
给定概率分布之后,通过进行两个任务来获取知识:
- inference(给定观测结点,推断隐含结点的后验分布)
- learning(学习这个概率分布的参数)
强大之处在于:
不管数据和知识多复杂,我们的处理手段是一样的:
建一个图,定义一个概率分布,进行inference和learning
系统学习:
推荐CMU Eric Xing教授每年开的10708 PGM课程 10708 Probabilistic Graphical Models。 既包含了PGM最基本、最核心的内容,也讲述了很多advanced topic。而且有视频。