【#乔布斯签名多值钱#:一本30年前杂志或卖出3万美元,一件皮衣超2万美元】一本1989年的《财富》杂志本周在美国拍卖,起拍价高达1.1万美元,预计成交价至少超过3万美元。2017年,乔布斯签名的另外一本杂志以5.6万美元的价格成交,这是目前乔布斯给粉丝签名的最高售价。2016年一次乔布斯旧物品拍卖会上,他在1983年穿过的一件皮衣以2.2万美元成交,这件皮衣就是乔布斯站在IBM门口竖中指的那件。一道被拍卖的还有乔布斯穿过的浴袍、用过的剃须刀、戴过的手表、连他在 NeXT 时期的工卡都价值几千美元。乔布斯早期在苹果的名片,2018年以6259美元的价格拍卖。2012年,他签名的一张名片卖了5676美元。

读书打卡6
吴军博士《数学之美》
第5章 隐马尔科夫模型

隐马尔科夫模型是解决大多数自然语言处理问题的快速、有效方法,成功解决了复杂的语音识别、机器翻译等问题。
一、问题提出
【通信模型——雅格布森通信六要素】(见下图1)

【基于通信视角的自然语言处理】:几乎所有的自然语言处理问题都可以等价成通信的解码问题,例如:
(1)基于通信视角的语音识别:根据声学信号推测说话者的意思。
信息源:头脑
信道:声带、空气
信号:声音
接收器:耳朵
(2)基于通信视角的机器翻译:利用计算机,根据接收的源语言信息,推测目标语言意思。
(3)基于通信视角的自动纠错:利用计算机,根据带有拼写错误的语句推测正确意思。

【建模】根据输出o1,o2,…,求解输入为s1,s2,…的概率,如下:
P(s1,s2,…| o1,o2,…)

=(P(o1,o2,…│s1,s2,…)*P(s1,s2,…))/(P(o1,o2,…))

∝P(o1,o2,…│s1,s2,…)*P(s1,s2,…)

(1)
目标是找到使概率P(s1,s2,…| o1,o2,…)最大的s1,s2,…
s1,s2,…=ArgMax_(all s1,s2,…) P(s1,s2,…| o1,o2,…)

(2)

在语音识别中,P(s1,s2,…| o1,o2,…)被称为声学模型(Acoustic Model),在机器翻译中是翻译模型(Translation Modle),在拼写校正中是纠错模型(Correction Model)。

二、预备知识

随机过程即随机变量的时间序列s1,s2,…,st(如北京每天最高气温)。

【马尔科夫假设】:随机过程中各个状态st的概率分布,只与它的前一个状态st-1有关。如天气预报,假设今天的气温只与昨天有关,而和前天及之前无关。未必适合所有应用,但可以对很多复杂问题给出近似解。

【马尔科夫链】符合马尔科夫假设的随机过程成为马尔科夫过程,也称马尔科夫链。如下图2:

四个圈表示四个状态,每条边表示一个可能的状态转换,边上的全职是转移概率。例如,状态m1到m2之间只有一条边,且边上的权值为1,表示从状态m1只能能转换到状态m2,转移概率为1。从m2出发有两条边:到m3和m4。其中权值0.6和0.4分别表示:如果某个时刻t的状态st是m2,则下一个时刻状态st+1=m3的概率P(st+1=m3|st=m2)是0.6,st+1=m4的概率P(st+1=m4|st=m2)是0.4。

把这个马尔科夫链想象成机器,随机选择一个状态作为初始状态,随后按照上述规则随机选择后续状态。运行一段时间T后,产生一个状态序列:s1,s2,…,st。根据这个序列,不难数出某个状态mi出现的次数#(mi),以及从mi转换到mj的次数#(mi,mj),从而估计从mi到mj的转移概率#(mi,mj)/#(mi)。每一个状态只与前一个状态有关,而不论是如何到达前一个状态。例如,状态3到状态4的概率都是0.3,不论在此之前是如何进入状态3的(从状态2进入,还是在状态3兜了几个圈)。

三、隐马尔科夫模型(Hidden Markov Model)

对马尔科夫链的扩展:任意时刻t的状态st是不可见的,所以观察者没法通过观察到一个状态序列推测转移概率s1,s2,…,st等参数。

但隐马尔科夫模型每个时刻t会输出一个符号ot,而且ot和st相关且仅和st相关(独立输出假设)。结构如下图3:

其中隐含的状态s1,s2,…是一个典型的马尔科夫链。

P(s1,s2,…,o1,o2,…)=∏_t▒〖P(s_t│s_(t-1) )*P(o_t│s_t ) 〗

(3)
基于马尔科夫假设和独立输出假设,
P(o1,o2,…│s1,s2,…)=∏_t▒〖P(o_t│s_t ) 〗

(4)
P(s1,s2,…)=∏_t▒〖P(s_t│s_(t-1) ) 〗

(5)

因此,通信的解码问题可以用隐马尔科夫模型解决。而很多自然语言处理问题和通信的解码问题是等价的,因此可以用隐马尔科夫模型解决。
需要一个训练算法(鲍姆-韦尔奇算法)和使用时的解码算法(维特比算法),掌握了这两类算法,基本上可以使用隐马尔科夫模型了。

四、问题求解
围绕隐马尔科夫模型的三个基本问题
(1)给定一个模型,计算某个特定的输出序列的概率(Forword-Backword算法)
(2)给定一个模型和某个特定的输出序列,找到最可能产生这个输出的状态序列(利用维特比算法计算使概率最大化的输入序列s1,s2,…,st)
(3)给定足够量的观测数据,估计隐马尔科夫模型的参数(模型训练)
P(o_t│s_t )=(P(o_t,s_t))/(P(s_t))

(6)
P(s_t│s_(t-1) )=(P(s_t,s_(t-1)))/(P(s_(t-1)))

(7)

【有监督训练方法】如果有足够多人工标记数据,可以数出#(o_t,s_t),#(s_t),#(s_t,s_(t-1)),#(s_(t-1)),根据大数定律计算比值可以直接估算出模型参数。但难以获得大量标注数据。

【无监督训练方法】通过大量观测信号o1,o2,…推算模型参数P(o_t│s_t )和P(s_t│s_(t-1) )。如鲍姆-韦尔奇算法。

【鲍姆-韦尔奇算法】Baum-Welch Algorithm思想:两个不同的隐马尔科夫模型可以产生同样的输出信号,仅通过输出倒推可能得到多个隐马尔科夫模型。但总会是一个模型M_(θ_2 )比另一个模型M_(θ_1 )更有可能产生观测到的输出,其中θ_1和θ_2是隐马尔科夫模型的参数。

首先找到一组能够产生输出序列O的模型参数得到初始模型M_(θ_0 )(一定存在,因为转移概率P和输出概率Q均为均匀分布时,模型可以产生任何输出,包括观察到的输出O)

根据和问题(1)和(2),可以算出这个模型产生O的概率P(O|M_(θ_0 )),和这个模型产生O的所有可能路径以及这些路径的概率。这些可能的路径,实际上记录了每个状态经历了多少次,到达了哪些状态,输出了哪些符号,因此可以将他们看作标注的训练数据,并根据公式(6)、(7)计算出一组新的参数θ_1,从M_(θ_0 )到M_(θ_1 )称为一次迭代。可以证明
P(O│M_(θ_1 ) )>P(O|M_(θ_0 ))

(8)

接下来,从M_(θ_1 )出发,可以找到更好的模型M_(θ_2 )。不断迭代下去,直到模型的质量没有明显提高为止。
每一次迭代不断估计新的模型参数,使得输出概率(目标函数)达到最大化,这个过程被称为期望最大化EM过程。
EM过程保证算法一定能收敛到一个局部最优点,很遗憾一般不能保证找到全局最优点。但如果目标函数是凸函数,则只有一个最优点,这种情况下EM过程可以找到最佳值。

五、隐马尔科夫模型应用
隐马尔科夫模型最初应用于通信领域,继而推广到语音和语言处理中,成为连接自然语言处理和通信的桥梁。

IBM Waston实验室贾里尼克、贝克夫妇用隐马尔科夫模型识别语音,错误率比人工智能和模式匹配方法降低了三分之二,从30%到10%。

20世纪80年代末,李开复博士采用隐马尔科夫模型成功开发了世界上第一个大词汇量连续语音识别系统Sphinx。

成功应用于机器翻译、拼写纠错、手写体识别、图像处理、基因序列分析、股票预测和投资。

文中图片来自网络,出处见图片水印,在此表示感谢。

【#爱奇艺否认造假指控#、 #瑞幸咖啡停牌# ,为何中概股频频中招?】

香橼创始人安德鲁·莱福特认为,与其他新兴市场相比,中国有更大的流动性。这是他“在这个市场有更多做空机会的原因”。在美国、香港等海外资本市场,由于没有类似中国大陆的对做空的政策限制,浑水这类做空机构十分常见,苹果、微软、IBM这些著名公司都被人尝试做空过。

不过做空者也不是总能成功,没有漏洞、经营良好的公司即便被“误伤”,股价往往能很快回升,做空失败的机构要蒙受经济上的损失,如果以造谣等形式恶意做空,还要承担严重的法律后果。而中国没有做空机构。监管机构和会计所很难第一时间发现问题公司的欺诈。

此外,中国和外国对于上市公司财务造假的处罚力度不同。在中国,对企业处以60万罚款。而美国惩处则是让企业倾家荡产,让高管牢底坐穿。会计师事务所也会因帮助上市公司财务造假而破产,投资银行会因为上市公司的财务造假面临投资者的巨额损害赔偿。(艾问)https://t.cn/A6wvvcLt


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 想要劝他好歹给我留几瓶,但话到嘴边又给咽了回去,因为突然想到我现在的身份是这群海盗的阶下囚,阻止他们享用自己的战利品,貌似是不太合适……兰斯召唤星之神,涅墨西斯
  • #泉州身边事#【泉州13个大中型体育场馆向社会免费或低收费开放[小黄人高兴]】泉州市侨乡体育中心因体育场既要服务市民又要承接赛事,任务繁重,拟在体育场外场增设全
  • #芒果娱乐###在青少年阅览室看到满书架曾经很“正确”的作家的代表作 想要挑选一两本有兴趣翻开的书 却发现难以选择 脑子充斥着再也没读过他们的书的这些年听到的花
  • #贵州省第十三次党代会# 【党代会,我来了丨代表罗应和:乡村振兴不是简简单单一句】2022年北京冬奥会上,具有深厚民族文化内涵的唐娃娃作为“国礼”闪亮登场,令世
  • “今天,我再次回到鹿邑,以这样一种方式向母校汇报、与同学们交流,对我而言是莫大的鼓舞,这将激励我更加努力奋斗,以更好的成绩回报母校、回报家乡、回报社会。池金清表
  • 周群主已经第18任了,而代理群也444人,即将满群还记得我刚入群的时候才200多人,短短两个月的时间就要满群了,这个比我吃鸡跑毒圈的速度还要快而最让我震惊的是卡
  • 第二天,周二中午肥啾发出言论,表达:之前定位含糊,我们本来就是想招收官方攻略组的,你们竟然如此不理解,如此拒绝官方微信发你们的攻略,我们太伤心了。另一方面,我也
  • 夏天好像总带着热烈和憧憬,经过漫长的雨季,终于要开始一个真正的夏天了[太阳]近日二三事小记。无尽夏和去年泡的青梅酒是初夏的注脚。
  • 《“摇滚乐不重要,重要的是你们自己”:这里有两部中国摇滚乐纪录片》点击上边的“机核”关注我们,这里不止是游戏作为一个出生太晚还在18线小城长大,没赶上中国摇滚乐
  • 小瓶装来的哦,出门放在包包里补喷hin方便[跪了],还有晚上吹了空调,[嘻嘻]皮肤干燥也可以用这个来缓解。用完这些嘉媚乐我要再买一点。
  • 虽然到目前为止,育碧还没有正式宣布移除《碧海黑帆》的PS4或Xbox One版本,但这种事在游戏圈并不是第一次发生,此前的《哥谭骑士》在发售前,就宣布取消PS4
  • 日常在笨蛋天天和金队好格局之间跳跃说实话哈…本人很疑惑为啥各个微信群营销号都在带抢菜的节奏[微笑][苦涩]各个社区明明说了物资储备没问题的,而且会把菜市搞到家门
  • 7月31日,极目新闻记者对话本届百花奖101位大众评审中的一员、独立制片人王金展,他详细解释了百花奖评委的工作流程,强调绝对不存在“提前商量好”“被人操控”之类
  • 我一清早起来就打开了mrfz,拿着合成玉all in,叫可露希尔给我来个夜莺。我叫可露希尔,没有应,出采购中心去看,只见各种三星简历撒得一地,没有我的夜莺。
  • 我原是不住的游魂,原是一路汇聚着的水流,浩瀚宇宙中一缕消息的传递,一个守法的公民并一个无羁无绊的梦“正如我曾走过山,走过水,其实只是借助它们走过我的生命;我看着
  • 可还是念家啊,虽然结婚生子后廖先生待我还是很好很好,但总不是在娘家做女儿那般自由自在,想去哪就去哪,或许等宝宝大了就好很多了,我已经无数次在畅想崽大了以后一家子
  • 【分享《夕阳雨》手机随影】♥️ ​​​ 陪你忙碌,陪你劳累,分解你的忧愁,在悠远的他乡陪着你,爱一个人,总会在不经意地深深的回忆,虽然有时显得那么愚不可及。我只
  • 【“十强产业”看济南|以产业高度支撑省会首位度】“世界第一环”在济南发运;刀片电池有了济南造;博科生物旗下企业自主研发的新型冠状病毒(2019-nCoV)抗原检
  • #小编漫话#【#父母说过的经典语录#】开学已经一段时间了,没有了父母的唠叨大家都还适应吗[doge]爸妈虽然总是爱唠叨,但这确是他们表达爱意的方式。我佩服那些可
  • 长安锐程CC蓝鲸版的最大亮点在于装了全新的蓝鲸NE系列1.5T发动机,能爆发出最大功率180马力,搭配7挡双离合变速箱,以及全车更加运动化的外观设计,此外,配置