天空很忙,下了一整天雨,這個週六,我也好忙,搞咗一整日表格,還ot咗20分鐘,最後還是未對得上數,還是留待禮拜一核對吧,早上上車了,才記起忘記了帶音箱仔回公司睇綜藝,顧住要搞呢份長護險表格的匯總,但依家發現忘記也是對的,份表格搞到落班都未搞完!同事中午回來打卡就走,擾了我的清夢,感覺差d訓著了
0点活动汇总[送花花]
【39.8/拍3件】海底捞,自热煲仔饭*3盒https://t.cn/A66p22fH
【6.9】空气炸锅专用纸盘 20只https://t.cn/A66p22fD
【309】古良吉吉,卷卷包斜跨单肩女包新款小众设计师https://t.cn/A66p22IZ
螺状元 ,柳州正宗螺蛳粉速食https://t.cn/A66p22fm
【569】古良吉吉BLOOM,系列轻奢链条包https://t.cn/A66p22fe
【19.9】木果庄园, 玫瑰花冠茶30g https://t.cn/A66p22fT
【39】三福, 卡通印花睡裙https://t.cn/A66p22fk
【9.9】澳宝柚然乐活沐浴露300ml https://t.cn/A66p22f1
【68】FANSI, 油画连衣裙https://t.cn/A66p22fB
【110】特仑苏,低脂牛奶250ml*32包https://t.cn/A66p22fg
【59.9】森马, 低帮帆布鞋https://t.cn/A66p22fu
【拍5件29】博尼, 内内*5条https://t.cn/A66p22fs
【17】慕拉, 天使之手起泡酒 750ml https://t.cn/A66p22fd
【59】ALLIE皑丽嘉娜宝,防晒霜 40g+赠防晒水凝乳15g
https://t.cn/A66p22fr
【19.9】榄菊,清香型洁厕液500g*4瓶https://t.cn/A66p22I7
【14.9】春光,海南特产黄灯笼辣椒酱100g*3瓶https://t.cn/A66p22Iv
【34.8】花洛莉亚, 三色遮瑕膏https://t.cn/A66p22fR
【35.8】李雷与韩梅梅,紫苏原味梅片200g https://t.cn/A66p22fn
【拍2件48】启初, 婴儿水润保湿面霜80g https://t.cn/A66p22f3
【99】网易云,入耳式运动降噪蓝牙耳机https://t.cn/A66p22f8
【拍3件99】mistine,小黄帽防晒霜 40ml*3瓶https://weibo.com/5260938047/Lm1AWDdQo?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【69】罗蒙, 男士短袖T恤https://weibo.com/5260938047/Lm1zI208I?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【29】TOPTOYBUZZ巴兹,怪奇乐园系列手办https://weibo.com/5260938047/Lm1zq3PDx?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【89】雪花秀, 顺行氨基酸洁面*200ml https://weibo.com/5260938047/Lm1zdE1xj?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【32.9】益达, 无糖口香糖组合装6件https://weibo.com/5260938047/Lm1y9ccq4?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【59】ALLIE皑丽嘉娜宝,防隔离防晒霜55g https://weibo.com/5260938047/Lm1xmF1Rj?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【29.8】五谷磨房, 黑豆豆浆粉448g https://weibo.com/5260938047/Lm1wtoBnJ?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【49】芙清密钥,水杨酸祛痘清洁棉片https://weibo.com/5260938047/Lm1vOCVCT?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【拍2件39.9】初吉, 乳清蛋白棒 9根*2盒https://weibo.com/5260938047/Lm1uUeZVv?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【66】库恩玛维雪纺印花短袖多款可选2件https://weibo.com/5260938047/Lm1ubAzCk?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【198】Swisse, 护肝片120粒*2罐https://weibo.com/5260938047/Lm1u3gY2m?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【49】宝岛目戏, 防蓝光眼镜https://weibo.com/5260938047/Lm1tC9dWM?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【310】芭比波朗,全新虫草粉底液30ml https://weibo.com/5260938047/Lm1sH47Zg?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【59】兰芝,水衡透润水25ml*8+乳25ml*5 https://weibo.com/5260938047/Lm1rSwc5n?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【19.8】名扬, 牛油火锅底料400g https://weibo.com/5260938047/Lm1rGsCmH?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【14.9】尔木萄,云感洁面巾洗脸巾卷筒式https://weibo.com/5260938047/Lm1qUfur2?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【13.9】振德充气颈椎牵引器颈椎减压https://weibo.com/5260938047/Lm1pSueo0?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【30】霸王,滋养头皮护理精华液60ml https://weibo.com/5260938047/Lm1ohqrQh?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【拍2件29.9】BAOM, 睡眠面莫2盒https://weibo.com/5260938047/Lm1jd6NZ0?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【99】珂卡芙, 真皮透气老爹鞋https://weibo.com/5260938047/Lm1iDjeb6?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【41.8】味全每日C ,纯果蔬汁300ml*8瓶https://weibo.com/5260938047/Lm1bK5KU5?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【19.8】虎邦, 魔鬼特辣酱210g*2瓶https://weibo.com/5260938047/Lm1aM2fCj?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【19.9】汇源, 复合果肉果汁 1L*2盒https://weibo.com/5260938047/Lm14RFN6G?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【拍2件19.8】芙芙, 安肤舒缓面莫2片https://weibo.com/5260938047/Lm0Wrf5tc?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【9.9】麦面郎拌面3袋*105g https://weibo.com/5260938047/Lm0Tg57Bc?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【14.9】尔木萄,跌落彩虹彩色眼线液笔https://weibo.com/5260938047/Lm0K4oGyc?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【9】王锦记,古法手工老红糖400g https://weibo.com/5260938047/Lm0HPd3OT?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【13.9】吉香居,榨菜真芯100g*10袋https://weibo.com/5260938047/Lm0ButhSH?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【39.8/拍3件】海底捞,自热煲仔饭*3盒https://t.cn/A66p22fH
【6.9】空气炸锅专用纸盘 20只https://t.cn/A66p22fD
【309】古良吉吉,卷卷包斜跨单肩女包新款小众设计师https://t.cn/A66p22IZ
螺状元 ,柳州正宗螺蛳粉速食https://t.cn/A66p22fm
【569】古良吉吉BLOOM,系列轻奢链条包https://t.cn/A66p22fe
【19.9】木果庄园, 玫瑰花冠茶30g https://t.cn/A66p22fT
【39】三福, 卡通印花睡裙https://t.cn/A66p22fk
【9.9】澳宝柚然乐活沐浴露300ml https://t.cn/A66p22f1
【68】FANSI, 油画连衣裙https://t.cn/A66p22fB
【110】特仑苏,低脂牛奶250ml*32包https://t.cn/A66p22fg
【59.9】森马, 低帮帆布鞋https://t.cn/A66p22fu
【拍5件29】博尼, 内内*5条https://t.cn/A66p22fs
【17】慕拉, 天使之手起泡酒 750ml https://t.cn/A66p22fd
【59】ALLIE皑丽嘉娜宝,防晒霜 40g+赠防晒水凝乳15g
https://t.cn/A66p22fr
【19.9】榄菊,清香型洁厕液500g*4瓶https://t.cn/A66p22I7
【14.9】春光,海南特产黄灯笼辣椒酱100g*3瓶https://t.cn/A66p22Iv
【34.8】花洛莉亚, 三色遮瑕膏https://t.cn/A66p22fR
【35.8】李雷与韩梅梅,紫苏原味梅片200g https://t.cn/A66p22fn
【拍2件48】启初, 婴儿水润保湿面霜80g https://t.cn/A66p22f3
【99】网易云,入耳式运动降噪蓝牙耳机https://t.cn/A66p22f8
【拍3件99】mistine,小黄帽防晒霜 40ml*3瓶https://weibo.com/5260938047/Lm1AWDdQo?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【69】罗蒙, 男士短袖T恤https://weibo.com/5260938047/Lm1zI208I?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【29】TOPTOYBUZZ巴兹,怪奇乐园系列手办https://weibo.com/5260938047/Lm1zq3PDx?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【89】雪花秀, 顺行氨基酸洁面*200ml https://weibo.com/5260938047/Lm1zdE1xj?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【32.9】益达, 无糖口香糖组合装6件https://weibo.com/5260938047/Lm1y9ccq4?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【59】ALLIE皑丽嘉娜宝,防隔离防晒霜55g https://weibo.com/5260938047/Lm1xmF1Rj?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【29.8】五谷磨房, 黑豆豆浆粉448g https://weibo.com/5260938047/Lm1wtoBnJ?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【49】芙清密钥,水杨酸祛痘清洁棉片https://weibo.com/5260938047/Lm1vOCVCT?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【拍2件39.9】初吉, 乳清蛋白棒 9根*2盒https://weibo.com/5260938047/Lm1uUeZVv?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【66】库恩玛维雪纺印花短袖多款可选2件https://weibo.com/5260938047/Lm1ubAzCk?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【198】Swisse, 护肝片120粒*2罐https://weibo.com/5260938047/Lm1u3gY2m?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【49】宝岛目戏, 防蓝光眼镜https://weibo.com/5260938047/Lm1tC9dWM?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【310】芭比波朗,全新虫草粉底液30ml https://weibo.com/5260938047/Lm1sH47Zg?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【59】兰芝,水衡透润水25ml*8+乳25ml*5 https://weibo.com/5260938047/Lm1rSwc5n?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【19.8】名扬, 牛油火锅底料400g https://weibo.com/5260938047/Lm1rGsCmH?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【14.9】尔木萄,云感洁面巾洗脸巾卷筒式https://weibo.com/5260938047/Lm1qUfur2?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【13.9】振德充气颈椎牵引器颈椎减压https://weibo.com/5260938047/Lm1pSueo0?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【30】霸王,滋养头皮护理精华液60ml https://weibo.com/5260938047/Lm1ohqrQh?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【拍2件29.9】BAOM, 睡眠面莫2盒https://weibo.com/5260938047/Lm1jd6NZ0?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【99】珂卡芙, 真皮透气老爹鞋https://weibo.com/5260938047/Lm1iDjeb6?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【41.8】味全每日C ,纯果蔬汁300ml*8瓶https://weibo.com/5260938047/Lm1bK5KU5?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【19.8】虎邦, 魔鬼特辣酱210g*2瓶https://weibo.com/5260938047/Lm1aM2fCj?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【19.9】汇源, 复合果肉果汁 1L*2盒https://weibo.com/5260938047/Lm14RFN6G?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【拍2件19.8】芙芙, 安肤舒缓面莫2片https://weibo.com/5260938047/Lm0Wrf5tc?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【9.9】麦面郎拌面3袋*105g https://weibo.com/5260938047/Lm0Tg57Bc?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【14.9】尔木萄,跌落彩虹彩色眼线液笔https://weibo.com/5260938047/Lm0K4oGyc?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【9】王锦记,古法手工老红糖400g https://weibo.com/5260938047/Lm0HPd3OT?from=page_1005055260938047_profile&wvr=6&mod=weibotime
【13.9】吉香居,榨菜真芯100g*10袋https://weibo.com/5260938047/Lm0ButhSH?from=page_1005055260938047_profile&wvr=6&mod=weibotime
读书打卡6
吴军博士《数学之美》
第5章 隐马尔科夫模型
隐马尔科夫模型是解决大多数自然语言处理问题的快速、有效方法,成功解决了复杂的语音识别、机器翻译等问题。
一、问题提出
【通信模型——雅格布森通信六要素】(见下图1)
【基于通信视角的自然语言处理】:几乎所有的自然语言处理问题都可以等价成通信的解码问题,例如:
(1)基于通信视角的语音识别:根据声学信号推测说话者的意思。
信息源:头脑
信道:声带、空气
信号:声音
接收器:耳朵
(2)基于通信视角的机器翻译:利用计算机,根据接收的源语言信息,推测目标语言意思。
(3)基于通信视角的自动纠错:利用计算机,根据带有拼写错误的语句推测正确意思。
【建模】根据输出o1,o2,…,求解输入为s1,s2,…的概率,如下:
P(s1,s2,…| o1,o2,…)
=(P(o1,o2,…│s1,s2,…)*P(s1,s2,…))/(P(o1,o2,…))
∝P(o1,o2,…│s1,s2,…)*P(s1,s2,…) (1)
目标是找到使概率P(s1,s2,…| o1,o2,…)最大的s1,s2,…
s1,s2,…=ArgMax_(all s1,s2,…) P(s1,s2,…| o1,o2,…) (2)
在语音识别中,P(s1,s2,…| o1,o2,…)被称为声学模型(Acoustic Model),在机器翻译中是翻译模型(Translation Modle),在拼写校正中是纠错模型(Correction Model)。
二、预备知识
随机过程即随机变量的时间序列s1,s2,…,st(如北京每天最高气温)。
【马尔科夫假设】:随机过程中各个状态st的概率分布,只与它的前一个状态st-1有关。如天气预报,假设今天的气温只与昨天有关,而和前天及之前无关。未必适合所有应用,但可以对很多复杂问题给出近似解。
【马尔科夫链】符合马尔科夫假设的随机过程成为马尔科夫过程,也称马尔科夫链。如下图2:
四个圈表示四个状态,每条边表示一个可能的状态转换,边上的全职是转移概率。例如,状态m1到m2之间只有一条边,且边上的权值为1,表示从状态m1只能能转换到状态m2,转移概率为1。从m2出发有两条边:到m3和m4。其中权值0.6和0.4分别表示:如果某个时刻t的状态st是m2,则下一个时刻状态st+1=m3的概率P(st+1=m3|st=m2)是0.6,st+1=m4的概率P(st+1=m4|st=m2)是0.4。
把这个马尔科夫链想象成机器,随机选择一个状态作为初始状态,随后按照上述规则随机选择后续状态。运行一段时间T后,产生一个状态序列:s1,s2,…,st。根据这个序列,不难数出某个状态mi出现的次数#(mi),以及从mi转换到mj的次数#(mi,mj),从而估计从mi到mj的转移概率#(mi,mj)/#(mi)。每一个状态只与前一个状态有关,而不论是如何到达前一个状态。例如,状态3到状态4的概率都是0.3,不论在此之前是如何进入状态3的(从状态2进入,还是在状态3兜了几个圈)。
三、隐马尔科夫模型(Hidden Markov Model)
对马尔科夫链的扩展:任意时刻t的状态st是不可见的,所以观察者没法通过观察到一个状态序列推测转移概率s1,s2,…,st等参数。
但隐马尔科夫模型每个时刻t会输出一个符号ot,而且ot和st相关且仅和st相关(独立输出假设)。结构如下图3:
其中隐含的状态s1,s2,…是一个典型的马尔科夫链。
P(s1,s2,…,o1,o2,…)=∏_t▒〖P(s_t│s_(t-1) )*P(o_t│s_t ) 〗 (3)
基于马尔科夫假设和独立输出假设,
P(o1,o2,…│s1,s2,…)=∏_t▒〖P(o_t│s_t ) 〗(4)
P(s1,s2,…)=∏_t▒〖P(s_t│s_(t-1) ) 〗(5)
因此,通信的解码问题可以用隐马尔科夫模型解决。而很多自然语言处理问题和通信的解码问题是等价的,因此可以用隐马尔科夫模型解决。
需要一个训练算法(鲍姆-韦尔奇算法)和使用时的解码算法(维特比算法),掌握了这两类算法,基本上可以使用隐马尔科夫模型了。
四、问题求解
围绕隐马尔科夫模型的三个基本问题
(1)给定一个模型,计算某个特定的输出序列的概率(Forword-Backword算法)
(2)给定一个模型和某个特定的输出序列,找到最可能产生这个输出的状态序列(利用维特比算法计算使概率最大化的输入序列s1,s2,…,st)
(3)给定足够量的观测数据,估计隐马尔科夫模型的参数(模型训练)
P(o_t│s_t )=(P(o_t,s_t))/(P(s_t))(6)
P(s_t│s_(t-1) )=(P(s_t,s_(t-1)))/(P(s_(t-1))) (7)
【有监督训练方法】如果有足够多人工标记数据,可以数出#(o_t,s_t),#(s_t),#(s_t,s_(t-1)),#(s_(t-1)),根据大数定律计算比值可以直接估算出模型参数。但难以获得大量标注数据。
【无监督训练方法】通过大量观测信号o1,o2,…推算模型参数P(o_t│s_t )和P(s_t│s_(t-1) )。如鲍姆-韦尔奇算法。
【鲍姆-韦尔奇算法】Baum-Welch Algorithm思想:两个不同的隐马尔科夫模型可以产生同样的输出信号,仅通过输出倒推可能得到多个隐马尔科夫模型。但总会是一个模型M_(θ_2 )比另一个模型M_(θ_1 )更有可能产生观测到的输出,其中θ_1和θ_2是隐马尔科夫模型的参数。
首先找到一组能够产生输出序列O的模型参数得到初始模型M_(θ_0 )(一定存在,因为转移概率P和输出概率Q均为均匀分布时,模型可以产生任何输出,包括观察到的输出O)
根据和问题(1)和(2),可以算出这个模型产生O的概率P(O|M_(θ_0 )),和这个模型产生O的所有可能路径以及这些路径的概率。这些可能的路径,实际上记录了每个状态经历了多少次,到达了哪些状态,输出了哪些符号,因此可以将他们看作标注的训练数据,并根据公式(6)、(7)计算出一组新的参数θ_1,从M_(θ_0 )到M_(θ_1 )称为一次迭代。可以证明
P(O│M_(θ_1 ) )>P(O|M_(θ_0 )) (8)
接下来,从M_(θ_1 )出发,可以找到更好的模型M_(θ_2 )。不断迭代下去,直到模型的质量没有明显提高为止。
每一次迭代不断估计新的模型参数,使得输出概率(目标函数)达到最大化,这个过程被称为期望最大化EM过程。
EM过程保证算法一定能收敛到一个局部最优点,很遗憾一般不能保证找到全局最优点。但如果目标函数是凸函数,则只有一个最优点,这种情况下EM过程可以找到最佳值。
五、隐马尔科夫模型应用
隐马尔科夫模型最初应用于通信领域,继而推广到语音和语言处理中,成为连接自然语言处理和通信的桥梁。
IBM Waston实验室贾里尼克、贝克夫妇用隐马尔科夫模型识别语音,错误率比人工智能和模式匹配方法降低了三分之二,从30%到10%。
20世纪80年代末,李开复博士采用隐马尔科夫模型成功开发了世界上第一个大词汇量连续语音识别系统Sphinx。
成功应用于机器翻译、拼写纠错、手写体识别、图像处理、基因序列分析、股票预测和投资。
文中图片来自网络,出处见图片水印,在此表示感谢。
吴军博士《数学之美》
第5章 隐马尔科夫模型
隐马尔科夫模型是解决大多数自然语言处理问题的快速、有效方法,成功解决了复杂的语音识别、机器翻译等问题。
一、问题提出
【通信模型——雅格布森通信六要素】(见下图1)
【基于通信视角的自然语言处理】:几乎所有的自然语言处理问题都可以等价成通信的解码问题,例如:
(1)基于通信视角的语音识别:根据声学信号推测说话者的意思。
信息源:头脑
信道:声带、空气
信号:声音
接收器:耳朵
(2)基于通信视角的机器翻译:利用计算机,根据接收的源语言信息,推测目标语言意思。
(3)基于通信视角的自动纠错:利用计算机,根据带有拼写错误的语句推测正确意思。
【建模】根据输出o1,o2,…,求解输入为s1,s2,…的概率,如下:
P(s1,s2,…| o1,o2,…)
=(P(o1,o2,…│s1,s2,…)*P(s1,s2,…))/(P(o1,o2,…))
∝P(o1,o2,…│s1,s2,…)*P(s1,s2,…) (1)
目标是找到使概率P(s1,s2,…| o1,o2,…)最大的s1,s2,…
s1,s2,…=ArgMax_(all s1,s2,…) P(s1,s2,…| o1,o2,…) (2)
在语音识别中,P(s1,s2,…| o1,o2,…)被称为声学模型(Acoustic Model),在机器翻译中是翻译模型(Translation Modle),在拼写校正中是纠错模型(Correction Model)。
二、预备知识
随机过程即随机变量的时间序列s1,s2,…,st(如北京每天最高气温)。
【马尔科夫假设】:随机过程中各个状态st的概率分布,只与它的前一个状态st-1有关。如天气预报,假设今天的气温只与昨天有关,而和前天及之前无关。未必适合所有应用,但可以对很多复杂问题给出近似解。
【马尔科夫链】符合马尔科夫假设的随机过程成为马尔科夫过程,也称马尔科夫链。如下图2:
四个圈表示四个状态,每条边表示一个可能的状态转换,边上的全职是转移概率。例如,状态m1到m2之间只有一条边,且边上的权值为1,表示从状态m1只能能转换到状态m2,转移概率为1。从m2出发有两条边:到m3和m4。其中权值0.6和0.4分别表示:如果某个时刻t的状态st是m2,则下一个时刻状态st+1=m3的概率P(st+1=m3|st=m2)是0.6,st+1=m4的概率P(st+1=m4|st=m2)是0.4。
把这个马尔科夫链想象成机器,随机选择一个状态作为初始状态,随后按照上述规则随机选择后续状态。运行一段时间T后,产生一个状态序列:s1,s2,…,st。根据这个序列,不难数出某个状态mi出现的次数#(mi),以及从mi转换到mj的次数#(mi,mj),从而估计从mi到mj的转移概率#(mi,mj)/#(mi)。每一个状态只与前一个状态有关,而不论是如何到达前一个状态。例如,状态3到状态4的概率都是0.3,不论在此之前是如何进入状态3的(从状态2进入,还是在状态3兜了几个圈)。
三、隐马尔科夫模型(Hidden Markov Model)
对马尔科夫链的扩展:任意时刻t的状态st是不可见的,所以观察者没法通过观察到一个状态序列推测转移概率s1,s2,…,st等参数。
但隐马尔科夫模型每个时刻t会输出一个符号ot,而且ot和st相关且仅和st相关(独立输出假设)。结构如下图3:
其中隐含的状态s1,s2,…是一个典型的马尔科夫链。
P(s1,s2,…,o1,o2,…)=∏_t▒〖P(s_t│s_(t-1) )*P(o_t│s_t ) 〗 (3)
基于马尔科夫假设和独立输出假设,
P(o1,o2,…│s1,s2,…)=∏_t▒〖P(o_t│s_t ) 〗(4)
P(s1,s2,…)=∏_t▒〖P(s_t│s_(t-1) ) 〗(5)
因此,通信的解码问题可以用隐马尔科夫模型解决。而很多自然语言处理问题和通信的解码问题是等价的,因此可以用隐马尔科夫模型解决。
需要一个训练算法(鲍姆-韦尔奇算法)和使用时的解码算法(维特比算法),掌握了这两类算法,基本上可以使用隐马尔科夫模型了。
四、问题求解
围绕隐马尔科夫模型的三个基本问题
(1)给定一个模型,计算某个特定的输出序列的概率(Forword-Backword算法)
(2)给定一个模型和某个特定的输出序列,找到最可能产生这个输出的状态序列(利用维特比算法计算使概率最大化的输入序列s1,s2,…,st)
(3)给定足够量的观测数据,估计隐马尔科夫模型的参数(模型训练)
P(o_t│s_t )=(P(o_t,s_t))/(P(s_t))(6)
P(s_t│s_(t-1) )=(P(s_t,s_(t-1)))/(P(s_(t-1))) (7)
【有监督训练方法】如果有足够多人工标记数据,可以数出#(o_t,s_t),#(s_t),#(s_t,s_(t-1)),#(s_(t-1)),根据大数定律计算比值可以直接估算出模型参数。但难以获得大量标注数据。
【无监督训练方法】通过大量观测信号o1,o2,…推算模型参数P(o_t│s_t )和P(s_t│s_(t-1) )。如鲍姆-韦尔奇算法。
【鲍姆-韦尔奇算法】Baum-Welch Algorithm思想:两个不同的隐马尔科夫模型可以产生同样的输出信号,仅通过输出倒推可能得到多个隐马尔科夫模型。但总会是一个模型M_(θ_2 )比另一个模型M_(θ_1 )更有可能产生观测到的输出,其中θ_1和θ_2是隐马尔科夫模型的参数。
首先找到一组能够产生输出序列O的模型参数得到初始模型M_(θ_0 )(一定存在,因为转移概率P和输出概率Q均为均匀分布时,模型可以产生任何输出,包括观察到的输出O)
根据和问题(1)和(2),可以算出这个模型产生O的概率P(O|M_(θ_0 )),和这个模型产生O的所有可能路径以及这些路径的概率。这些可能的路径,实际上记录了每个状态经历了多少次,到达了哪些状态,输出了哪些符号,因此可以将他们看作标注的训练数据,并根据公式(6)、(7)计算出一组新的参数θ_1,从M_(θ_0 )到M_(θ_1 )称为一次迭代。可以证明
P(O│M_(θ_1 ) )>P(O|M_(θ_0 )) (8)
接下来,从M_(θ_1 )出发,可以找到更好的模型M_(θ_2 )。不断迭代下去,直到模型的质量没有明显提高为止。
每一次迭代不断估计新的模型参数,使得输出概率(目标函数)达到最大化,这个过程被称为期望最大化EM过程。
EM过程保证算法一定能收敛到一个局部最优点,很遗憾一般不能保证找到全局最优点。但如果目标函数是凸函数,则只有一个最优点,这种情况下EM过程可以找到最佳值。
五、隐马尔科夫模型应用
隐马尔科夫模型最初应用于通信领域,继而推广到语音和语言处理中,成为连接自然语言处理和通信的桥梁。
IBM Waston实验室贾里尼克、贝克夫妇用隐马尔科夫模型识别语音,错误率比人工智能和模式匹配方法降低了三分之二,从30%到10%。
20世纪80年代末,李开复博士采用隐马尔科夫模型成功开发了世界上第一个大词汇量连续语音识别系统Sphinx。
成功应用于机器翻译、拼写纠错、手写体识别、图像处理、基因序列分析、股票预测和投资。
文中图片来自网络,出处见图片水印,在此表示感谢。
✋热门推荐