#芭莎春日# #李宇春齐刘海长发# #时尚芭莎6月刊# “成长的过程中我也有过怀疑、有过游离,就像当时我一直在问:Why Me?但这个问题可能一直都不会有真正的答案。”@李宇春 的问号始终指向内心,不断在追问自己另一种可能性,而不是为了向谁证明什么。成功或是失败,都是她的主动选择,出人意料,却从不离“李宇春”的章法。这种对于自我的坚信与坚持也让她拥有着强大的能量,不断完成着多种可能性的尝试。

@小荔BAZAAR
@左敏洁KT
摄影/@柳宗源
视觉策划/@卫甜Weitian
形象/@于昆K
化妆/@琪琪liu776
发型/@文智0907
美甲/粒子
文字/@李冰清LilyLee
制片/@梁华开Kai
时装统筹/@是EddieChau
协助执行/@iimtanya、@曾富贵_Marco
鸣谢/@GUCCI

读书打卡6
吴军博士《数学之美》
第5章 隐马尔科夫模型

隐马尔科夫模型是解决大多数自然语言处理问题的快速、有效方法,成功解决了复杂的语音识别、机器翻译等问题。
一、问题提出
【通信模型——雅格布森通信六要素】(见下图1)

【基于通信视角的自然语言处理】:几乎所有的自然语言处理问题都可以等价成通信的解码问题,例如:
(1)基于通信视角的语音识别:根据声学信号推测说话者的意思。
信息源:头脑
信道:声带、空气
信号:声音
接收器:耳朵
(2)基于通信视角的机器翻译:利用计算机,根据接收的源语言信息,推测目标语言意思。
(3)基于通信视角的自动纠错:利用计算机,根据带有拼写错误的语句推测正确意思。

【建模】根据输出o1,o2,…,求解输入为s1,s2,…的概率,如下:
P(s1,s2,…| o1,o2,…)

=(P(o1,o2,…│s1,s2,…)*P(s1,s2,…))/(P(o1,o2,…))

∝P(o1,o2,…│s1,s2,…)*P(s1,s2,…)

(1)
目标是找到使概率P(s1,s2,…| o1,o2,…)最大的s1,s2,…
s1,s2,…=ArgMax_(all s1,s2,…) P(s1,s2,…| o1,o2,…)

(2)

在语音识别中,P(s1,s2,…| o1,o2,…)被称为声学模型(Acoustic Model),在机器翻译中是翻译模型(Translation Modle),在拼写校正中是纠错模型(Correction Model)。

二、预备知识

随机过程即随机变量的时间序列s1,s2,…,st(如北京每天最高气温)。

【马尔科夫假设】:随机过程中各个状态st的概率分布,只与它的前一个状态st-1有关。如天气预报,假设今天的气温只与昨天有关,而和前天及之前无关。未必适合所有应用,但可以对很多复杂问题给出近似解。

【马尔科夫链】符合马尔科夫假设的随机过程成为马尔科夫过程,也称马尔科夫链。如下图2:

四个圈表示四个状态,每条边表示一个可能的状态转换,边上的全职是转移概率。例如,状态m1到m2之间只有一条边,且边上的权值为1,表示从状态m1只能能转换到状态m2,转移概率为1。从m2出发有两条边:到m3和m4。其中权值0.6和0.4分别表示:如果某个时刻t的状态st是m2,则下一个时刻状态st+1=m3的概率P(st+1=m3|st=m2)是0.6,st+1=m4的概率P(st+1=m4|st=m2)是0.4。

把这个马尔科夫链想象成机器,随机选择一个状态作为初始状态,随后按照上述规则随机选择后续状态。运行一段时间T后,产生一个状态序列:s1,s2,…,st。根据这个序列,不难数出某个状态mi出现的次数#(mi),以及从mi转换到mj的次数#(mi,mj),从而估计从mi到mj的转移概率#(mi,mj)/#(mi)。每一个状态只与前一个状态有关,而不论是如何到达前一个状态。例如,状态3到状态4的概率都是0.3,不论在此之前是如何进入状态3的(从状态2进入,还是在状态3兜了几个圈)。

三、隐马尔科夫模型(Hidden Markov Model)

对马尔科夫链的扩展:任意时刻t的状态st是不可见的,所以观察者没法通过观察到一个状态序列推测转移概率s1,s2,…,st等参数。

但隐马尔科夫模型每个时刻t会输出一个符号ot,而且ot和st相关且仅和st相关(独立输出假设)。结构如下图3:

其中隐含的状态s1,s2,…是一个典型的马尔科夫链。

P(s1,s2,…,o1,o2,…)=∏_t▒〖P(s_t│s_(t-1) )*P(o_t│s_t ) 〗

(3)
基于马尔科夫假设和独立输出假设,
P(o1,o2,…│s1,s2,…)=∏_t▒〖P(o_t│s_t ) 〗

(4)
P(s1,s2,…)=∏_t▒〖P(s_t│s_(t-1) ) 〗

(5)

因此,通信的解码问题可以用隐马尔科夫模型解决。而很多自然语言处理问题和通信的解码问题是等价的,因此可以用隐马尔科夫模型解决。
需要一个训练算法(鲍姆-韦尔奇算法)和使用时的解码算法(维特比算法),掌握了这两类算法,基本上可以使用隐马尔科夫模型了。

四、问题求解
围绕隐马尔科夫模型的三个基本问题
(1)给定一个模型,计算某个特定的输出序列的概率(Forword-Backword算法)
(2)给定一个模型和某个特定的输出序列,找到最可能产生这个输出的状态序列(利用维特比算法计算使概率最大化的输入序列s1,s2,…,st)
(3)给定足够量的观测数据,估计隐马尔科夫模型的参数(模型训练)
P(o_t│s_t )=(P(o_t,s_t))/(P(s_t))

(6)
P(s_t│s_(t-1) )=(P(s_t,s_(t-1)))/(P(s_(t-1)))

(7)

【有监督训练方法】如果有足够多人工标记数据,可以数出#(o_t,s_t),#(s_t),#(s_t,s_(t-1)),#(s_(t-1)),根据大数定律计算比值可以直接估算出模型参数。但难以获得大量标注数据。

【无监督训练方法】通过大量观测信号o1,o2,…推算模型参数P(o_t│s_t )和P(s_t│s_(t-1) )。如鲍姆-韦尔奇算法。

【鲍姆-韦尔奇算法】Baum-Welch Algorithm思想:两个不同的隐马尔科夫模型可以产生同样的输出信号,仅通过输出倒推可能得到多个隐马尔科夫模型。但总会是一个模型M_(θ_2 )比另一个模型M_(θ_1 )更有可能产生观测到的输出,其中θ_1和θ_2是隐马尔科夫模型的参数。

首先找到一组能够产生输出序列O的模型参数得到初始模型M_(θ_0 )(一定存在,因为转移概率P和输出概率Q均为均匀分布时,模型可以产生任何输出,包括观察到的输出O)

根据和问题(1)和(2),可以算出这个模型产生O的概率P(O|M_(θ_0 )),和这个模型产生O的所有可能路径以及这些路径的概率。这些可能的路径,实际上记录了每个状态经历了多少次,到达了哪些状态,输出了哪些符号,因此可以将他们看作标注的训练数据,并根据公式(6)、(7)计算出一组新的参数θ_1,从M_(θ_0 )到M_(θ_1 )称为一次迭代。可以证明
P(O│M_(θ_1 ) )>P(O|M_(θ_0 ))

(8)

接下来,从M_(θ_1 )出发,可以找到更好的模型M_(θ_2 )。不断迭代下去,直到模型的质量没有明显提高为止。
每一次迭代不断估计新的模型参数,使得输出概率(目标函数)达到最大化,这个过程被称为期望最大化EM过程。
EM过程保证算法一定能收敛到一个局部最优点,很遗憾一般不能保证找到全局最优点。但如果目标函数是凸函数,则只有一个最优点,这种情况下EM过程可以找到最佳值。

五、隐马尔科夫模型应用
隐马尔科夫模型最初应用于通信领域,继而推广到语音和语言处理中,成为连接自然语言处理和通信的桥梁。

IBM Waston实验室贾里尼克、贝克夫妇用隐马尔科夫模型识别语音,错误率比人工智能和模式匹配方法降低了三分之二,从30%到10%。

20世纪80年代末,李开复博士采用隐马尔科夫模型成功开发了世界上第一个大词汇量连续语音识别系统Sphinx。

成功应用于机器翻译、拼写纠错、手写体识别、图像处理、基因序列分析、股票预测和投资。

文中图片来自网络,出处见图片水印,在此表示感谢。

慢慢发现父母给我最大的财富是自由
从小到大都没干涉过我任何一个决定
即使后来证明很多选择并不是我那个年龄段能做出正确的判断
但也因此养成为自己选择买单的性格
我不会去抱怨任何一个结果
我只会更期待下次选择
有些一出生就赢在起跑线的人
选择很少
有人帮忙做选择
很少出错
只是不那么自由罢了
你会更想要那种生活呢?
其实最怕的应该是不自由也没有赢在起跑线吧
所以我还是幸福的另一端
日常感恩


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 《对山医话"卷三》对此进行揭示: “走方祝由之类,虽多以小术惑人,讹取财物,而于方药所不能疗之痼疾,往往以符咒草药取效,即此可见其非全妄也。唐代的王冰
  • 身为青年的我们,开始狂热地去追寻他的脚步,因而成为了科学的附庸,在高楼林立里,我们寻得一个栖息之地,因而又再次脱离了人。而科学的出现又告诉我们要建立一个永恒的世
  • 你还是但丁心仪的姑娘,你的问候征服了年轻诗人,你的秀足在下意识间,知道怎样游走天堂。你还是但丁心仪的姑娘,你的问候征服了年轻诗人,你的秀足在下意识间,知道怎样游
  • 不同于唯识家将「 众生心 」当作杂染报体的阿赖耶识,此论认为此心统摄流转的世间法和还灭的出世间法,一切法皆以此心为体,依止心体而出现种种差别相,此即「 摩诃衍
  • 也就是说:具足眼耳鼻舌身意的这个色身,不是真实之身,是五蕴聚合而成的假我之身,正是这个假我之色身,障碍了自己真实法身的显现,致使一切众生沦落生死,不得解脱,就是
  • 雨水冰凉,心情不坏,希望大家雨天里,都能有藏身之处,心有所安,正如你所知道的,总会有人在为你祈祷,而雨也总会停下来,往后会有更多阳光灿烂的日子。好像还记得那个雨
  • 一天结束感觉有几分几分惭愧,我可能是心态问题,业务父母个目标积压,好在顺利了通过近日的一些问题考验,接下来我们奔富下一个地点,加油我们的团队,奋斗就是一个目标,
  • 今日中秋,每年农历八月十五,是传统的中秋佳节,这时是一年秋季的中期,所以被称为中秋,在中国的农历里,一年分为四季,每季又分为孟、仲、季三个部分,因而中秋也称仲秋
  • 截止到30号中午12点(上限600人 多发无包)#魅蓝E2#红包活动来啦①添加二维码➕转发朋友圈②用V信群发助手推荐给你的女性好友并备注是谁推荐的➕我的二维码,
  • 2.现在真的好焦虑 想一些有的没有的 我觉得我自己离开你好像就被抽去了开心 我觉得我被这段感情支配了 我真的离不开你我的宝宝 可不可以多爱我一点 我好需要你对我
  • 作品功力沉雄博大,足与古贤抗衡,形成了寓秀雅于阳刚的清劲画风,成为晚明以来弘扬北宋绘画最杰出的画家,有“唐寅以后第一人”的美誉,被认为:在近现代画坛上竖立起一座
  • 约翰尼·德普表示:对于能将莫迪利亚尼传奇的故事搬上银幕,对我来是感到无比荣幸……这是关于一段艰辛、但最终依旧取得胜利的过程,是一个所有观众都能认同的普通人故事。
  • Date with friends (ᐡ•͈ ·̫ •͈ᐡ )♡今天段段来找我们玩啦,我们吃了一顿非常漫长的brunch,本来想去吃米氏力奇哒,跑过去发现人家在
  • 中国的优势是政策力度大,汽车工业有一定基础,IT、通信产业、交通设施等国际领先,从单车智能到车联网、再到智慧交通、物联网,行业的趋于共识的解决方案是“智能网联汽
  • 2002年,科尼集团在中国建立第一家法人企业——科尼起重机设备(上海)有限公司,便深深扎根于中国,凭借先进的技术、全球经验和本地化知识,深入各行各业为用户提供起
  • #遇见最美的古诗词[超话]#傍晚时分,西风吹卷起阵阵白沙,山河万里,独在他乡,异常思念自己的故乡。昨天我说也许这样阴郁的天气才是悲秋该有的样子,胖哥说我没文化但
  • 借伞bgm没用万事屋blues呢,有点遗憾。开头放了三遍、结尾的彩蛋都很好笑呀!
  • 前列腺增生、性功能障碍、前列腺…这些医生眼中的男科常见疾病,却成了男性心里的“男言之隐”连去医院挂号都要压低声音,总是讳莫如深,甚至延误治疗......2022
  • Svakom的尔姬,你也太会了,太懂女生的点了吧!诚邀首页共赏现在的小玩具设计师是不是太卷了,怎么会有这么像耳机的吸吸玩具啊!
  • 微信号:yb1458837860,更多签名书,可以详聊,穷卷上卷均可,感谢大家的支持!满2000元赠送总价值720元清凉凉茶10箱(赠送饮料规则,均在购买商品时