• Re: 对比ANN和现在的电脑,能发现很多问题

    我懒。。。就是瞎吐槽两句。

    【 在 BrightLiang 的大作中提到: 】

    : elastic distortions 手误 搞数字识别的

    : bbs就来讨论的 你觉得你nb 你来开讲

    2013-07-28
  • Re: 对比ANN和现在的电脑,能发现很多问题

    没啥新玩意,但是人work

    【 在 BrightLiang 的大作中提到: 】

    : 最近的DL  CNN  DBN 的hidden layer 不互联

    : recurrent NN 多层搞起来有难度

    : 把 hidden layer上了 会加强功能 减少节点

    : ...................

    2013-07-26
  • Re: 对比ANN和现在的电脑,能发现很多问题

    我就不吐槽了,先去看看Hubel和Wiesel的工作吧。

    btw,您真的知道elastic net指的是什么吗...那个不是指拉伸图象的

    http://en.wikipedia.org/wiki/Elastic_net_regularization

    【 在 BrightLiang 的大作中提到: 】

    : max pooling 就是一个 局部的形变的模糊配准 registration  属于偷懒方法 估计只有猴子这种低等生物用

    : 比如 数字识别 人眼应该执行的是 registration 讲样本配准到 数字库 或者数字的part 而不是大量样本记忆-比如elastic net

    2013-07-26
  • Re: 对比ANN和现在的电脑,能发现很多问题

    今天版上怎么那么多DL,我来comment以下好了,没有term,只好手动paste

    大家经常提的ANN的优点是 universal approximation

    我用查找表的方法 这个更能 universal approximation 了

    决定ANN 能推广 靠的是 加入的一些先验知识 表现为 各种 regulation

    comment:这个同意,比如说现在的CNN,事实上除了deep之外还有很多structure information,这些起到很大的作用

    但是 随着加入的regulation 越多 你就发现 ANN 越来越笨拙  比如加入max pooling 就丢失了位置信息

    comment:这个说不好,保留所有信息可能overfit,max pooling虽然丢失了位置信息,但是也提供了additional robustness

    我们现在对比ANN 和 电脑  就会发现 ANN 现在的学习方式有问题

    ANN的基本单元是非线性神经元  电脑基本单元是 CMOS电路的基本的逻辑门  这两个可以说非常类似

    现在我们来ANN学习一个加法器 :输入-输出mapping方式 把训练用的数字转化为二进制 然后用ANN 搞一个 结果学习出来的 就是一个查找表而已 随着数字的增大 这个表越来越大

    电脑的加法器 显然不是 ANN的这种方法  而是讲加法 分解为 逻辑与非单元 和 进位单元  以及溢出标志。 电脑的加法器 用到的CMOS逻辑门显然数量远小于ANN的神经元

    comment:以上的说法不敢苟同,不如说是电脑的方式有问题,世界万物,哪里都是二进制的,说不符合二进制的东西就有问题,谬矣

    好,那么我们可以跟换ANN学习算法 模拟电脑  训练一个ANN_1为逻辑单元 训练ANN_2为进位单元 训练ANN_3为溢出标志 然后把这些组合起来构成一个大ANN 这样用到的神经元 远远小于 输入-输出mapping 这种方式

    电脑的这种结构非常好 因为把一个加法任务 拆分成了若干小任务  如同把一个物体识别 拆分为识别各个part 然后组装起来

    ANN咋学这种功能拆分?ok 我们用示波器观察电脑加法器 逻辑与非单元工作的时候  进位单元没有工作  溢出标志工作的时候 其他单元没有工作  反映在基本逻辑门的输出上  就是同一时间只有少数逻辑门有输出 好了总结出一个“规律” 就是sparse  OK 现在我们把这个sparse加入ANN学习中去

    比如两个大数字求加法  二进制为 A=1001  和 B=0101

    ANN的输入端为 A1 A2 A3 A4 B1 B2 B3 B4

    不论你搞多少层 也不会出现 逻辑与非单元  进位单元  溢出标志单元 这样的东西

    comment:错了,ANN很早之前就有样例说明如何学习这样的输出,again,不是说二进制是ground truth

    如果我就用两层ANN 但是 hidden layer 可以互相连接 就可以学习出这三个单元 请看附件

    OK 我们发现当前ANN的一大缺陷 就是hidden layer不互联

    comment:hidden layer当然是互联的,哥。。。否则怎么传递信号

    ---------------------------------------------------

    ANN第二大缺陷  除了第一层 hidden layer神经元之间只传递逻辑信号 不能传递模拟信号  而人脑的神经元是可以传递模拟信号的

    comment:这里你说反了,ANN当然可以传递模拟信号,你前面说了那么多的电脑和二进制的东西才只能传逻辑信号。

    比如说图像分析: DL第一层计算的是edge信号, 第二层计算的是edge的组合, 这个缺陷非常大。 第二层可以计算edge的各种组合, 类似edge linking 并且得到边界信号强度。  但是如果 第二层神经元工作在饱和区, 那么edge的组合就是逻辑组合,如果工作在线行区,输出就是归一化的edge强度的组合

    comment:你的信息过时了,现在sigmoid没有那么流行了,没什么饱和区和线性区了,看看最近paper吧

    【 在 BrightLiang 的大作中提到: 】

    : (没写完 吃饭去 回来再写 大家先看看)

    : 大家经常提的ANN的优点是 universal approximation

    : 我用查找表的方法 这个更能 universal approximation 了

    : ...................

    2013-07-19
  • Re: 一张图片证明当前的DL方向正确,但是方法太简单

    那是个dalmatian,大麦町斑点狗,这个西方人经常养狗的很容易看出来,咱们不常看这玩意儿,不容易认

    楼主直接从古老的认知科学的argument当中批量贴图过来了

    【 在 PGP 的大作中提到: 】

    : 看不出来。。。

    2013-07-19
  • Re: 关于DL实战的问题

    30000左右的输入节点,几百个样本,大概4到5层的样子

    - 估计会overfit很严重,不如直接用linear model

    2013-07-18
  • Re: 请教一下A*能避免以下的死胡同吗?

    看看Berkeley的pac-man project好了,这个是人工智能课上每个学生需要做的

    从浅到深的各种情况都cover了

    【 在 cnxs 的大作中提到: 】

    : 想做个机器人参加比赛

    : 主办方说会给一个全场比赛路径和障碍物的参考图,里面只是示意作用,不能精确定位的

    : 这种情况下用哪种方式合适?A*吗?定向绕障碍物不行的,至少全部一个方向肯定不成,很容易傻掉

    : ...................

    2013-07-10
  • Re: 图像数据集如何预处理?

    这种东西不是一句两句就能短平快搞出来的,如果真的要做,推荐先上一下computer vision的课,然后看点最新的recognition的paper和tutorial,比如说

    http://cs.nyu.edu/~fergus/icml_tutorial/

    http://www.cs.nyu.edu/~yann/talks/lecun-ranzato-icml2013.pdf

    看你在版上做点这个做点那个也好久了,没有一个真正深入的方向么

    【 在 citihome 的大作中提到: 】

    : 没看懂

    : 我想知道原始图像要与学习算法对接上(成为向量)需要进行什么处理

    2013-07-02
  • Re: 可以说现在Deep Learning 已经超越SVM了

    mnist大家已经不关注performance了,测一下mnist只是表示说这方法基本是对的

    实际performance都在更现实的vision和speech等数据上测试

    【 在 mumford 的大作中提到: 】

    : 整天测mnist这种标准数据库会不会出问题啊。

    : 现在怎么科学地衡量准确率的?

    2013-06-27
  • Re: 可以说现在Deep Learning 已经超越SVM了

    DL最近的进展是并不一定需要最开始的unsupervised pretraining,虽然前几年Hinton是这样做的

    比如说现在训练的图象和语音模型,都是直接用随机噪声初始化参数

    【 在 D90ER 的大作中提到: 】

    : DL是先无教师学,再有教师学,解决的还是分类的问题,

    : 与SVM的应用领域是一样的。

    2013-06-26
  • Re: 可以说现在Deep Learning 已经超越SVM了

    1. deep learning 并不是刚刚开始,idea从Rosenblatt的perceptron模型开始就出来了。就算LeNet搞digit recognition也差不多和SVM同时期吧

    2. DL“刚刚开始”的假象只不过是因为沉寂很多年,很多人没有关注,而最近跟风做的人很多(no offense),所以似乎只是刚刚开始。

    3. DL的理论基础当然有,只不过是因为nonconvex,很多东西很难推类似svm bound这样的东西;svm是convex的问题,当然可以推很多bound,但是最近几年convex方法被搞得过滥,有些所谓“理论”到底有没有用,还是个问题。

    4. deep learning是用来学feature的然后最后还要靠SVM?Hinton泪流满面

    【 在 theorist 的大作中提到: 】

    : 这个完全不能这么比

    : deep learning 才刚刚开始而已,远不能和svm背后的深厚理论功力相提并论。

    : 另外deep learning是用来学feature的,是当unsupervised learning 用的

    : ...................

    2013-06-26
  • Re: 可以说现在Deep Learning 已经超越SVM了

    用totally来过分自信之前,请记得这个世界上还有一个叫google的工具

    http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.15.9362

    【 在 temporary 的大作中提到: 】

    : u r kidding, totally.

    2013-06-24
  • Re: [问题]Le Cun的MNIST 数字手写体识别数据文件读取问题

    推荐再读一下网页,注意If

    *If* the files you downloaded have a larger size than the above, they have been uncompressed by your browser. Simply rename them to remove the .gz extension.

    2013-06-15
  • Re: deep learning的开源code都有哪些?

    有这些就够了吧

    【 在 BrightLiang 的大作中提到: 】

    : 其他人都是自己写啊?

    2013-06-15
  • Re: [问题]Le Cun的MNIST 数字手写体识别数据文件读取问题

    http://www.cs.nyu.edu/~roweis/data.html

    2013-06-15
  • Re: 怎样才能减少SVM中支持向量的数量

    推广性能好不一定会直接就带来performance好的结论的

    ICML 2006有一篇老文章讲怎么减少sv的数量:

    http://dl.acm.org/citation.cfm?id=1143870

    【 在 mitcandidate 的大作中提到: 】

    : linear是kernel,LDA是feature engineering,完全不是一回事情。Generalization没有比linear推广性更好的,这是可以理论证明的。。。

    2013-06-05
  • Re: 搞多层coding的好处到底是啥?

    用ReLU只能达到大概50%的稀疏性,在这种情况下,用sparse matrix的加速性能并不好,所以最后还是用dense的。这和sparse coding或者LLC等等的方法不同,后者的确得到很高的稀疏性

    再说,convolution本身的优化就涉及memory access pattern等等的问题,加上sparsity matrix在操作上更多的是添乱...

    【 在 bebekifis (bebekifis) 的大作中提到: 】

    : 在训练大规模模型的时候,比如imagenet或更大的库,需要依靠GPU来做并行的矩阵运

    : 算,的确无法依靠sparse来加速计算,

    : 但是产品上线用的是CPU模型,良好的稀疏性则可以很有效的加速,所以稀疏对于产品的

    : ...................

    2013-06-01
  • Re: 搞多层coding的好处到底是啥?

    "负值可忽略=》这个可以忽略掉一些内部节点的计算"这点不敢苟同,目前的NN famework里面还没见到用sparsity来加速的

    【 在 citihome () 的大作中提到: 】

    : 我可没说稳定性是由rectifier带来的(稳定性的关键是Tikhonov正则化,学过反问题的都知道这个工具)

    : 至于rectifier的优点,除了你说的相比较sigmoid和tanh,与neuron的工作更相似以外,很有计算上的优点(比如负值可忽略=》这个可以忽略掉一些内部节点的计算;在[0,+inf)区间内的导数更加容易计算;不基于exp)

    2013-06-01
  • Re: 搞多层coding的好处到底是啥?

    ReLU的好处主要在于方便计算,无论是算output还是gradient,这对于像image classification这样大计算量的场合很重要

    【 在 antinucleon (Requiem) 的大作中提到: 】

    : 最近大多流行Rectified Linear

    : 包括Hinton的很多东西也是在Rectified Linear上弄

    : Sigmoid, tanh是起某些regularize的时候弄了

    : ...................

    2013-05-31
  • Re: SVM是Tikhonov regularization框架的机器,和假设空间的度

    SVM和VC dimension都是structural risk minimization

    http://www.cs.columbia.edu/~jebara/6772/notes/topic3.pdf

    【 在 citihome () 的大作中提到: 】

    : 保证误差界(经验风险和真实风险之差)的泛化界(概率度量上界)(Probably Approximately Correction)主要有两类思路:算法稳定性 和 假设空间中机器输出的可变性(概率论中关于偏差的度量基本上是基于样本容量的,比如强/弱大数定理,McDiarmid's ineq引入了非样本容

    : SVM走的是算法稳定性控制泛化界的路子,和假设空间度量的,比如N-cover,VC维等,是不同的控制偏差的框架?

    2013-05-24