李喆的文章太扯了吧,“胜率”和定式是这样的?

wangcz
修文尚武 2016-03-11 字数 527

所谓阿发狗依据“胜率”来做决策,完全是主观认为它计算的“胜率”就是真理,就绝对正确。这怎么可能呢?这么模糊的一个概念,不可能绝对的量化。人不能,机器也不能,除非能实现完全穷举。

再说第二盘的定式变招,如果定式随便一变就能不受惩罚的继续下去,那还能叫“定式”么?那样的定式也太low了吧。

说到底,我觉得李世石这两盘还是心态问题,跟机器下棋毕竟跟人下棋差别太大了,尤其对于很少接触AI的职业棋手来说,一知半解的情况下很容易“神化”AI,进而产生自我怀疑,进而技术变形。

这才两局而已,我大胆预言一下,随着阿发狗的对局数量增加,胜率将越来越低。

Weiqi 纹枰论道
125 个回复
blueboats
天·地·魔·鬥 2016-03-11

AI不是穷举,而是用MCTS来预测

所谓阿发狗依据“胜率”来做决策,完全是主观认为它计算的“胜率”就是真理,就绝对正确。这怎么可能呢?这么模糊的一个概念,不可能绝对的量化。人不能,机器也不能,除非能实现完全穷举。

再说第二盘的定式变招,如果定式随便一变就能不受惩罚的继续下去,那还能叫“定式”么?那样的定式也太low了吧。

说到底,我觉得李世石这两盘还是心态问题,跟机器下棋毕竟跟人下棋差别太大了,尤其对于很少接触AI的职业棋手来说,一知半解的情况下很容易“神化”AI,进而产生自我怀疑,进而技术变形。

这才两局而已,我大胆预言一下,随着阿发狗的对局数量增加,胜率将越来越低。

施万云冷静下来,口气坚定,就像当年的检察长在进行着临庭演说:“一个罪犯,当他进行危害国家的反革命犯罪活动的时候,如果他的文化程度、知识水平和智力状况足以使他意识到自己的行为将发生什么样的客观后果的话,那就说明他在实施犯罪时对这个客观后果是抱着故意的心理状态的。既是故意犯罪,他所追求的目的就应当被认为是反革命的。至于他为什么这样做,是为图财;是为贪利;还是像季虹那样是为了出国,都不过是促使他犯罪的内心起因,法律学上叫犯罪动机,老乔,你在季虹这个问题上是把犯罪的动机和目的混为一谈了。”

——海岩《便衣警察》

所以在街上飚车撞死人的,绝对是故意杀人!

【 在 wangcz (修文尚武) 的大作中提到: 】

aaachn
seer 2016-03-11

alphago 的胜率估值并非真理,但它用不着做围棋之神,只要比人类的准确率高就足够了。

定式只是人类经验研究的归纳总结,并不意味着正确。

面对一个不合定式的新的选择,如果是对人,李世石可能觉得自己计算力有优势,选择一些激进的下法。

但在第一局激进下法并不能占到便宜的情况下,作为人类,真的有信心跟计算机拼计算吗?

李世石并非技术变形,而是想要胜利,做出针对性的选择。

很多对李世石指责的人压根没有意识到,很多招法之所以成立,是建立在对手是人类,计算力相当或略有优势的前提下的。

现在是对 Alphago,你打算跟它拼计算?哪怕柯杰上去,这么玩估计也只会输得更惨。

ilovecpp
cpp 2016-03-11

说AI的优化目标就是最终赢一两目的,这确实得围棋之神才做得到吧?

【 在 aaachn 的大作中提到: 】

: alphago 的胜率估值并非真理,但它用不着做围棋之神,只要比人类的准确率高就足够了。

: 定式只是人类经验研究的归纳总结,并不意味着正确。

: 面对一个不合定式的新的选择,如果是对人,李世石可能觉得自己计算力有优势,选择一些激进的下法。

: ...................

aaachn
seer 2016-03-11

你没理解。

AI 对于落子位置评分的依据是胜负,胜为1,负为0。

也就是胜者通吃,失败一无所得。

换句话说,如果两个选择不影响胜负,只是目数多少的区别,对AI来说是等价的。

这也是 Alphago 优势情况下容易出现“失误”的原因所在。

对于人类,可能有,这种选择可以获得更多的目数,扩大优势,让胜利更稳的感觉,毕竟人类不知道什么时候会犯错。

而对于 Alphago 他不觉得他会犯错,也不需要更多的目数来容错,他只要选择胜率最大化的选择,并且稳稳当当的获得胜利就行了。

李喆文章中说的很好,要想看明白 Alphago 的实力,必须战而胜之。

只有在双方局面纠结,紧紧咬住的时候,Alphago 才会选择最强应招,因为这时候,不同应招对于胜率的影响很大。

而一旦 Alphago 占据优势,他不考虑面子,只考虑能不能取得最后的胜利,哪怕亏目,只要简化局面增大胜率他都会选择。

不是他要控制只赢对手一两目,而是他不关心目,只关心胜负。

【 在 ilovecpp 的大作中提到: 】

: 说AI的优化目标就是最终赢一两目的,这确实得围棋之神才做得到吧?

ilovecpp
cpp 2016-03-11

可如果不是围棋之神,谁不会犯错,不需要更多目数来容错呢?即使对机器,“稳”(姑且理解为目数均值小,方差小)和“凶”(姑且理解为均值大,方差大)似乎也应该有个平衡点,而不是完全求稳吧?

【 在 aaachn 的大作中提到: 】

: 你没理解。

: AI 对于落子位置评分的依据是胜负,胜为1,负为0。

: 也就是胜者通吃,失败一无所得。

: ...................

haili
人尔有窍 风吹为籁 2016-03-11

这个平衡点是不是仍然是学习出来的,而不是人类设定的规则?

这样就很难以棋理的方式来解释了

【 在 ilovecpp 的大作中提到: 】

: 可如果不是围棋之神,谁不会犯错,不需要更多目数来容错呢?即使对机器,“稳”(姑且理解为目数均值小,方差小)和“凶”(姑且理解为均值大,方差大)似乎也应该有个平衡点,而不是完全求稳吧?

johnnywzx
no 2016-03-11

人类太自以为是了,以为定式就得跟着应。

alphago才不管你这套,哪里胜率高走哪里。就像第一盘中腹白二子,在人类看来是棋筋,alphago说弃就弃了。。。

第二盘左边人类都认为alphago算错征子,亏大了,结果人家照样领先。

其实我觉得打劫在alphago看来也是一样的,它只需要比较一下劫的价值和棋盘上其他地方的价值,哪里大就走哪里。

【 在 wangcz 的大作中提到: 】

: 所谓阿发狗依据“胜率”来做决策,完全是主观认为它计算的“胜率”就是真理,就绝对正确。这怎么可能呢?这么模糊的一个概念,不可能绝对的量化。人不能,机器也不能,除非能实现完全穷举。

: 再说第二盘的定式变招,如果定式随便一变就能不受惩罚的继续下去,那还能叫“定式”么?那样的定式也太low了吧。

: 说到底,我觉得李世石这两盘还是心态问题,跟机器下棋毕竟跟人下棋差别太大了,尤其对于很少接触AI的职业棋手来说,一知半解的情况下很容易“神化”AI,进而产生自我怀疑,进而技术变形。

: ...................

aaachn
seer 2016-03-11

Alphago 不是求稳,是求胜。

他下他觉得胜率最高的手段,不考虑目数。

举个例子吧。

某局面,大势已定,Alphago 胜率百分之百了。

两个选择,一个胜十目,一个胜五目。

如果是人类,胜率相同,目数多总是好的吧,人铁定选择十目的变化。

而对于 Alphago 呢?

他的看法是,两个选择完全等价,随便选一个就好了。

因为他的价值观中只有胜负,根本就没有目的概念。

目,圈地,高效率,积少成多胜利,这是人的想法。

而计算机的人工智能方案里面,根本就没有目的概念,只有最后的胜负。

胜利计数1,失败计数0,多次模拟后选择胜率最大的方案。

你仔细体会一下这里面的区别。

【 在 ilovecpp 的大作中提到: 】

: 可如果不是围棋之神,谁不会犯错,不需要更多目数来容错呢?即使对机器,“稳”(姑且理解为目数均值小,方差小)和“凶”(姑且理解为均值大,方差大)似乎也应该有个平衡点,而不是完全求稳吧?

yanp
雁行 2016-03-11

但目前限时规则下AI的策略中肯定有一个必胜的判定,不然无法解释优势下的很多闭合的不好下法。我不相信这些不好下法也是当时胜率最高的选择,肯定是有一个点,比如超过99%就认为必胜,就不去追求99.9%了。或者就是他已经找到一个100%的路径,不是完全的穷举,而是在他自身的选点范围内的100%穷举

【 在 blueboats (天·地·魔·鬥) 的大作中提到: 】

: AI不是穷举,而是用MCTS来预测

: 所谓阿发狗依据“胜率”来做决策,完全是主观认为它计算的“胜率”就是真理,就绝对正确。这怎么可能呢?这么模糊的一个概念,不可能绝对的量化。人不能,机器也不能,除非能实现完全穷举。

: 再说第二盘的定式变招,如果定式随便一变就能不受惩罚的继续下去,那还能叫“定式”么?那样的定式也太low了吧。

: ...................

ilovecpp
cpp 2016-03-11

我好像知道我没拐过去的地方了:

我本来的想法是:搜索的结果是近似的,有误差。如果某种着法计算出来赢1子,实际可能是输1子。那么走赢2子(但风险大一些)的着法会不会更好?

但是误差应该是两个方向,计算结果赢1子,实际可能输1子,也可能赢3子。两相抵消,计算出来赢面最大的棋应该也是(在电脑能力范围内)实际赢面最大的。

【 在 aaachn 的大作中提到: 】

: Alphago 不是求稳,是求胜。

: 他下他觉得胜率最高的手段,不考虑目数。

: 举个例子吧。

: ...................

lazygamer
lazygamer 2016-03-11

人类定式当然是人类认为正确。

李师师看到AI不按定式走,

然后突然觉得围棋之神附体,

突然觉得自己比以前所有人类总结牛,

然后自创定式?

【 在 aaachn 的大作中提到: 】

: alphago 的胜率估值并非真理,但它用不着做围棋之神,只要比人类的准确率高就足够了。

: 定式只是人类经验研究的归纳总结,并不意味着正确。

: 面对一个不合定式的新的选择,如果是对人,李世石可能觉得自己计算力有优势,选择一些激进的下法。

: ...................

zszqzzzf
炼狱天使——反者道之动 2016-03-11

AI不按定式走的土土尖顶,我个人觉得很好。

【 在 lazygamer (lazygamer) 的大作中提到: 】

: 人类定式当然是人类认为正确。

: 李师师看到AI不按定式走,

: 然后突然觉得围棋之神附体,

: ...................

lazygamer
lazygamer 2016-03-11

人类认为不跟定式就会吃亏。

AI不跟没问题。

那么就看看人类想法对不对。

李师师直接怂了,什么意思?

【 在 johnnywzx 的大作中提到: 】

: 人类太自以为是了,以为定式就得跟着应。

: alphago才不管你这套,哪里胜率高走哪里。就像第一盘中腹白二子,在人类看来是棋筋,alphago说弃就弃了。。。

: 第二盘左边人类都认为alphago算错征子,亏大了,结果人家照样领先。

: ...................

aaachn
seer 2016-03-11

人类定式是人类暂时认为正确,但实际上离围棋真理有多远,不清楚。

有些定式随着研究的深入被抛弃。

李世石因为对 Alphago 有计算力的劣势,所以一个新局面,很难下。

比方说格斗吧,有些技巧是对力量有要求的;

如果一个体重力量远强于你的对手,比方说人vs大象,这些技巧无从发挥啊。

当然动作变形,跟平时不一样,好像没发挥出水平。

【 在 lazygamer 的大作中提到: 】

: 人类定式当然是人类认为正确。

: 李师师看到AI不按定式走,

: 然后突然觉得围棋之神附体,

: ...................

Gullit
如戏的人生 如空的灵魂 2016-03-11

绝大多数的情况下 赚得越多的目数 越能提高胜率,这是肯定的

但是也存在少数情况下 会增加变数 影响胜率的可能性

go走的绝大部分招都是赢得顶尖职业选手的支持和承认的,有问题的招也就那么几手

所以也很难判断这几手是计算机自身的搜索和评价缺陷导致

还是由于真算清了 为减少变化 提高胜率的原因

【 在 ilovecpp () 的大作中提到: 】

: 我好像知道我没拐过去的地方了:

: 我本来的想法是:搜索的结果是近似的,有误差。如果某种着法计算出来赢1子,实际可能是输1子。那么走赢2子(但风险大一些)的着法会不会更好?

: 但是误差应该是两个方向,计算结果赢1子,实际可能输1子,也可能赢3子。两相抵消,计算出来赢面最大的棋应该也是(在电脑能力范围内)实际赢面最大的。

aaachn
seer 2016-03-11

我觉得你还没明白…

Alphago 根本就不会计算目数和期望,他的评价体系里面只有胜负。

他做出决策,只考虑这一步是不是胜率更高,跟目数多少压根没有关系。

两个等胜率的变化,一个目多,一个目少,人当然选多的。

但 Alphago 根本就没有目的概念,在他看来,这些方案都是等价的。

这是 Alphago 背后的人工智能设计方法决定的。

你可以看一下:

https://www.zhihu.com/question/39905662

【 在 ilovecpp 的大作中提到: 】

: 我好像知道我没拐过去的地方了:

: 我本来的想法是:搜索的结果是近似的,有误差。如果某种着法计算出来赢1子,实际可能是输1子。那么走赢2子(但风险大一些)的着法会不会更好?

: 但是误差应该是两个方向,计算结果赢1子,实际可能输1子,也可能赢3子。两相抵消,计算出来赢面最大的棋应该也是(在电脑能力范围内)实际赢面最大的。

kkkk3
i d 3 r d 2016-03-11

为什么只有胜负?不会的。应该有各种评价,只是用什么作为目标函数的问题。

【 在 aaachn (seer) 的大作中提到: 】

: 我觉得你还没明白…

: Alphago 根本就不会计算目数和期望,他的评价体系里面只有胜负。

: 他做出决策,只考虑这一步是不是胜率更高,跟目数多少压根没有关系。

: ...................

fhd
疯了! 2016-03-11

什么叫不会...实际就是这么做的....

【 在 kkkk3 (id3rd) 的大作中提到: 】

: 为什么只有胜负?不会的。应该有各种评价,只是用什么作为目标函数的问题。

kkkk3
i d 3 r d 2016-03-11

你没有听到说法,事后alphaGo一直认为在优势下,而且还有大小的变化,那么显然有变化。

【 在 fhd (独钓寒江雪) 的大作中提到: 】

: 标  题: Re: 李喆的文章太扯了吧,“胜率”和定式是这样的?

: 发信站: 水木社区 (Fri Mar 11 15:32:39 2016), 转信

: 什么叫不会...实际就是这么做的....

: 【 在 kkkk3 (id3rd) 的大作中提到: 】

: : 为什么只有胜负?不会的。应该有各种评价,只是用什么作为目标函数的问题。

: --

:     \︳                                    ○ ─︿︵         ╭─︿︷       

  ヾ     \哇呀呀,这是第030只                  ▕    へ ╲      ╱  ,-_︵╲     

:  /   ╱\/\︳                                    ﹏﹏﹏\_   / ﹨*:﹏﹏﹏\_   

彡 ヅ ^ ^   从本狼阿姨口中逃掉的                \╱    ╱ _╱\╱*     ╲︳ 

:      (╲   )                                    ▕  ︿  ︿ ︳     │ ︿  ︿│   

:    ヘ `  ︶        小红帽了!        from BT8幼儿园╲ (oo)╱       ╰- (oo)-╯