关于人工智能的浅见

学习别人寻找快乐,何必如此辛苦活着...

16 👍 / 5 💬

ai,大模型如此卷,我也有幸作为圈外人参与了一个讨论,被喷民科,我也反驳了几句,“至少我还是程序员,而你只是程序员,如果你连智能都不理解,何谈人工智能?在心理学,脑科学,语言学,动物行为学,生理学,进化论,范畴论,控制论... 这些人工智能必遭遇的领域,包括你我在内的这里所有人,都是民科...”,人工智能属实跨界,引号内的几个领域我稍有涉猎但甚至谈不上业余,但这不妨碍我输出观点,那些房地产自媒体都能蹭一下 ai 热度,我为什么不能呢。

作为连业余都算不上的人,怕言多必失,所以长话短说,但语言表达也不太行,可能还是会显得啰嗦。

观点一:学习事物的关系而不是事物本身。

chatgpt 成功的背后来自 “把字词句编码到语义空间”,即编码和语义一一对应。“经理” 和 “工人” 语义上离得很远,在编码空间离得同样远,这就绑定了编码和语义的相对关系,此基础上构建和训练模型才能事半功倍。

作为反例,传统计算机编码与此相悖。这导致计算机操作很难容错,“浙江温州皮鞋湿” 这句诗在网络上传输被误码成 “浙江杭州皮鞋湿”,则校验码不通过要被重传,但如果采用语义编码,就很容易纠错。

以上论述基于编码和语言,但编码和语言属于抽象范畴,可能人类独有,如果涉及要学习的世界万物,目前的方法或许是另一个反例。

图像识别作为一个单独方向被研究,但当前的方法还是基于像素(我的浅见,或许并不是),或许如果没有强大算力,模式识别反而会有进展。

图像识别只是 “万物识别” 的一个侧面,人工智能同样要学习关系而非像素的轮廓,颜色,明暗。关系可以框定前后左右上下等广延,彻底摆脱过拟合。一个前景工人挡住了后面一个经理的皮鞋,传统方法可能会认为后面这个构成经理的像素没有构成皮鞋的像素,而关系则忽略工人,经理,皮鞋等这些具体轮廓,直接断定前面的某个人挡住了后面的某个东西,至于工人,经理这些像素,可以理解为称谓,不重要。

要学习关系,就要学习物理。

观点二:学习物理和物理学习。

chatgpt 通过注入信息的方式训练,因为自然语言本就抽象,但你不能想象一个只有眼睛和耳朵,没有躯干的人从出生就固定在一个地方,他竟可理解这世界,虽然他也能学会说话并和你对话。

将一辆车冲着一个人开过来的视频分解为连续帧的图片训练模型,它能得出人会跑开的结论吗?但猫冲一个老鼠跑去,老鼠就会躲开,因为老鼠懂物理规则,如果不跑开,猫就会和自己接触,猫爪和牙齿就会进入自己的身体。同样,一个工人挡住了经理的皮鞋脚,你知道这只是工人挡住了皮鞋脚的漫反射光线。

曾经流行的愤怒的鸟,你也可基于 box2d 构建一个类似的游戏,box2d 内置物理模型,这类游戏中,如果一个目标躲在弹球运动的死角就不会被击中,因为这可以通过物理定律轻松计算处理,而前提是你要先学会基本物理定律。

遗憾的是,物理定律可能只能通过物理的方式学习。婴儿通过接触硬物的疼痛感获得负向反馈,通过接触被子的舒适感获得正向反馈,通过费力抬起胳膊获取物体会自然掉下来的感受,通过父母或宠物的移动接触获取惯性的理解,这些感受需要实际和物理世界交互而获得,而不仅仅只是通过成型的信息来训练。

有了物理接触,就有了世界的关系。

观察动物的行为也有收益。我养过的一只小猫照镜子看到自己时,会试图从镜子后面找自己,看到电视里会动的小动物时,会扑向屏幕。虽然这也是过拟合,但显然这是 “智能” 的过拟合。

如果不在物理世界学习,就要言传身教,但如果你不实际接触一下物品,就要理解 “接触” 这个词,而这个词需要更多的词来解释,最终总要在物理世界落实,否则就是一个永远封闭不了的环。我倾向于物理感受在先,语言在后,你不能指望一个主体先理解语言,再感受语言描述的事物。

先感觉到,接触和交互,才能描述,而不是反过来。然而问题是,物理世界是一个慢速世界,它如何匹配准光速的信息世界呢?或许需要要人一样持续接收连续的模拟信号,而不是像输入大模型的离散信息,但这是另一个问题。

不论怎样,物理世界的训练,需要聚焦的视角。

观点三:聚焦的视角。

一间屋子里,如果你的眼睛布满一面墙,就无法理解这屋子里物体间的关系,因为屋里的一切在你看来是不变的。要理解屋里的物体关系,你需要一双聚焦且会移动的眼睛。当你盯着椅子看,它是形状 a,往左偏一下眼睛,它是形状 b,再往右偏一下且走近,它是形状 c,然后你就有了椅子的概念,这一切,你都要这种不断变换视角来获得认知。

要形成 “主体” 的概念,就要聚焦视角,而这或许是自我意识,区分 “我” 和 “非我” 的前提。

作为反例,参考毕加索的立体主义作品。

这观点一个抽象的含义是,只有不对称,才能形成认知。第一人称视角形成模式,他在不同视角可识别到同一个物体,位置信息不一样,但相对连续移动的第一视角而言,它竟是同一个,如果是平坦的知识,就不会形成这种认知,这也符合信息熵的原理。

现代人工智能方法显然是从一面墙的眼睛 “硬” 分析像素的差异而看到的,这太累了,而且由于过拟合而不准,但我们认为不那么智能的动物却比这要强得多。

观点四:大多数哺乳动物已经足够智能了

猫在镜子后面找镜中猫(自己)说明猫没有自我意识,它就很难理解真正的语言逻辑,因为语言逻辑涉及 “指代”,没有 “我” 就理解不了 “非我”,如 “它”,“他”,“这”,“那”,从而无法真正理解语言,也就无法和人媲美。

人工智能有门派专攻对理解语言,但问题是同样不理解语言(它们只是对音素进行反射,而不是理解语言)的猫狗已足够好,它们在识别和模拟等物理世界的特殊领域具有真正智能,人工智能应该先向它们看齐。

既然当前人工智能无非就是拟合 “目标函数” 最优解,为什么不向猫狗学习呢。一些街头变戏法的人展示自己的猫狗猴子会算术,计算还挺快,可它们并不懂真正的数学逻辑,这类似现在人工智能,但另一面,那些猫狗猴子对物理世界的理解却完败当前最好的人工智能。

诸如自动驾驶这些物理世界的智能需求,向猫狗学习的人工智能即使不必理解人类理性,也足够胜任了。在我看来,即使类比和反思,也并非神之赐予,物理世界的刺激就可以给到这种能力。

观点五:人工智能的目标太大或太小

连续第一人称视角和交互体验,区分物品的位置,事物的性质,立体空间方位关系,前景背景,这些才是亟待解决的问题。

但目前两极分化的是,要么大谈自由意志,要么沉迷于基于统计模型的具体算法调用 api,这两个方向都不屑于让人工智能先达到猫狗的水平。

当我提出这些时,一个大厂 ai 专家用一大堆专业术语怼我,“你这些都不对,我就干这个的,难道还不如你的理解深刻?” 这些术语和细节大多是我不懂的,但我不在意也不认输,我曾经质疑假牛肉时,地下假肉丸子作坊的操作工也说过类似的话,“我就做这个的,还能不懂肉吗,这东西不如两个大馒头顶饿”,我没必要跟他讲碳水化物和蛋白质,虽然,它这个假肉也是蛋白质做的,只是他不知道而已,他理解的豆制品和白面馒头是一类东西。

观点六:关于 chatgpt

chatgpt 足够优秀,但它是一个足够高层次的关于自然语言的模型,与物理世界不在一个层次,如果物理决定抽象的话(这里是反笛卡尔哲学二元论的,我认为笛卡尔哲学已经完成了它的使命,开启了现代科学和工业,但它确实也阻碍了量子物理和人工智能),那么它依然不够不到人的智能,但这不妨碍它已经足够聪明,虽然它也是靠大力出奇迹。

有人说 chatgpt 并不是真懂你在说什么,它也是依赖强大算力的最佳匹配,也基于统计模型和概率,依然没有自我意识,但这重要吗?当一个成年人大谈笛卡尔哲学时,他是真理解了这个哲学,还是仅仅复述了他从老师或书上学到的?甚至,又有多少人的思想是真正自由的?熟读唐诗三百首,就能写顺口的打油诗,这是一种理解,还是不那么拙劣的模仿?

浙江温州皮鞋湿,下雨进水不会胖。


专栏:随感