李德毅院士:未来汽车发展 2019-05-22

文章来源:中国指挥与控制学会


很高兴跟大家先谈一下一体化指挥调度,我一辈子都在做这件事,因为军队最需要,公安最需要,高铁需要、银行需要,国家应急救援需要,城市交通一体化更需要。所以国家工程实验室的1/9要在这儿了。今天是智能指挥调度技术创新大会,要看看人工智能怎么深耕到指挥调度。我觉得,一体化指挥调度技术分两大块:一块在网上,一块在边上。我们部队战斗力提升,有一个重要原因,就是要力量到边,边缘战斗很强。我今天利用交通和汽车这件事来展望一下一体化指挥调度技术在新时代会有什么变化,因为城市的交通指挥调度是反映一个城市水平的最直接名片。


自动驾驶等级度量


最近自动驾驶日子不好过了,昨天看到一个微信文章:“潮落!自动驾驶搁浅在2018滩头”,什么原因?我们看看,2018年是信息时代和智能时代交错的时代,信息时代还没有完全过去,智能时代已经来了,所以声音很多,大家都很积极。在这个情况下,像电子、微电子、光电子工程、通信和网络工程、计算机科学与技术、控制科学与工程都在积极地为智能做贡献,而智能科学与技术仅仅是最小的一个弟弟,所以是信息时代的四个哥哥能力很强,他们也长得很强壮,而人工智能目前来说“可以用,不好用”。所以人工智能还在成长时期,而四个大哥哥已经相对成熟了。在这种情况下,搞电子、微电子可以有一张最响亮的名片“智能芯片”,国家一看这是核心,所以加大投资;还有搞控制的,说我搞智能控制,又火了;搞网络的,说我搞智能网联,也很火;搞计算机的,说我搞智能计算。其实从学科发展来看,可以认为是把智能当做马甲穿在身上,不管是做芯片,还是控制,还是网络,还是计算,他们确实想把人工智能用到他们那个行业里面去。


在这种情况下,传统车企、造车新势力、互联网企业、新兴行业、还有一大批创新创业青年,都看好自动驾驶,乐此不疲。全球智能芯片、智能网联、智能计算、智能控制的黑科技全都聚焦到同一个载体—汽车上,都在为自动驾驶烧钱,不无道理!我们搞一体化指挥调度,云计算有你的事,边缘计算也有你的事,咱们一体化指挥调度技术的工程实验中心应该怎么看待这个问题。


长期以来,J3016 标准主导了自动驾驶等级全球舆论。也就是L0到L5,我在几年前就对这个标准提出置疑,我说很简单,就是L2和L3,让公安交管部门怎么度量它是L3还是L2?有的公司提出来L2.5,这是什么意思?我们看看这四个点挺重要:第一点自动驾驶转换点如何度量?如果没有拐点就互相扯皮。第二点操控权如何交接?第三点操控权交接过程中的事故责任如何认定?第四点给自动驾驶车发什么驾照?要可操作才行。


全球都认“感知、决策、控制”这个路线,好像没有分歧,都希望自动驾驶的模式越来越多,最后一下子跳到全自动。自动化的人就研究确定性窗口条件的描述,从事交通的就研究车联网,现在5G很火,也确实很重要, 我们要想想5G在自动驾驶中究竟充当什么角色?大家都希望有一个智能的路,一个聪明的车,他们加在一起是不是就可以全自动?全自动驾驶←∑自动驾驶模式i,问题就出在这个箭头上,数学上有一句话叫做“当且仅当”,充分必要条件要满足,这个箭头才成立,如果当且仅当这个条件不满足,全自动驾驶就很难。


从事人工智能的就问:自动化哪些东西做不了?我们认为汽车人已经把汽车的自动化做到了极致。但是无需驾驶员的自驾驶,必须能像人一样具有学习能力,能应对各种边缘工况。因此自动驾驶亦或是个陷阱,要搁浅在2018年?新的寒冬来了?


谷歌Waymo公司CEO 约翰.科拉菲克说:L5技术真的真的很难。全球做自动驾驶最高的就是他了,他说很难很难,投资家就慌了。苹果联合创始人史蒂夫·沃兹尼亚克说:自动驾驶汽车不可能在不久的将来实现,我不相信自动驾驶汽车。这两个重要的人物一说,大家认为自动驾驶的寒冬来了。


因此,对L0到L5这个等级划分要进行重新的认识。我们提出要以特定地区驾驶可靠性为导向新的等级度量方法,根据安全驾驶可靠性统计把出错率不高于10的-2次方自动驾驶车辆定义为L2,出错率1%,就是出去开100次(或者100小时),拿了一个罚单回来。人是什么水平?一般驾驶员一天开4小时,一年开250天,一年开一千小时拿了一次罚单,这是一个好的驾驶员,我们可把他的水平认定是L3。如果你的自动驾驶汽车达到L3,给你发个L3驾照,如果L4就发L4的驾照,将来就会达到百万分之一L6,甚至像我们的智能电网出错率是10的-9次方,这意味着自动驾驶车等级永远没有完全自动。这就为交通部门给自动驾驶车发照(或收照)有了可度量、可操作的简捷方法,极大地加速自动驾驶技术迅速落地过程,也为无人驾驶车辆的应用(如保险业务)开辟了新的空间。


传承学习和自主学习

当汽车从人类的代步工具、由人操控的机器,演化为有主体认知能力的轮式机器人,汽车行业的传统法则将被重新书写。人和轮式机器人不仅是控制和被控制的关系,而是教和学的关系,是交互和协同的关系。


谈到“学习”,最火的一门课叫机器学习,其实机器有什么好学的,应该

是机器人学习,我们讲的是监督学习、半监督、弱监督学习、无监督学习,现在的深度学习就是有监督的学习。深度学习是人工智能第三轮浪潮的最显著的标志,到底怎么看待深度学习这件事,我做一个理解:


起始于一个较为通用的多层次特征提取的神经网络分类模型,依靠足够多经过标注的样本数据,通过随机梯度下降方法,正反向反复迭代,确定大量的可调参变量—权值,把高维复杂非线性问题近似为足够多通过参变量限制的较低维非线性问题的叠加,把整体高阶转为多局部低阶。这样形成的数学形态,能够和整个样本数据有最优的拟合。搞人工智能的人得出一个结论:深度学习不是万能的,但是没有深度学习是万万不能的。


从我们人类的成长学习过程引申到机器人学习,可分为两种:一是传承学习,一个是自主学习。前面是接受知识和运用知识的能力,一个人在大学毕业之前基本上是受教的,以传承学习为主。我们发现,只有通过传承学习,自动驾驶车才能拥有人类累计的驾驶知识或驾驶文化,这就对当前自动驾驶寒冬的一个解释,为什么遇到寒冬?因为你没有传承,没有认知的积累,做不到到处跑的。举个例子来说,传承学习主要是显知识,适应生态文明,由上而下,主导型强。自主学习是隐性知识,反复实践,成为本能,由下而上,主体性强。


说车辆靠右边行驶,无人驾驶车怎么知道?开到了香港又是靠左行使的。比如说,北京现在要求礼让斑马线,边上一个老太太走得很慢,你先穿过去还是等她走过去?这个靠激光雷达怎么表现?再比如说工作期间北京公交车道7-9点不能占用,无人驾驶车怎么知道这个事?所以大家可以想像:未来的汽车一定是在云上有一个窗口把指令发过去,到那一天就知道了7-9点我不能占用,还有我是否限号。反过来,有些事情靠传承学习是学不好的,比如说超车并道。最近一年我们对客车侧翻做了研究,你不醉酒开车了,你不疲劳开车,你的注意力集中了,但是不等于你的车不会侧翻,比如说风一大,紧急刹车以后一拐弯就侧翻了,这些事情就像平时学游泳一样,一定要到水里去游,而不是听别人教,技巧需要自主学习。


我们现在正在做一个驾驶脑,我们注重的不是车,我们侧重人,我们要做一个驾驶员的智能代理,由若干处理器、交换机、存储器的芯片组成,配有各种传感器接口、相关软件和数据包,构成一个物理设备。它和人的驾驶认知有高度同构性,驾驶认知涉及视听觉、思维、记忆、学习、交互、控制等一系列活动。学习并替代驾驶员的驾驶认知能力,积累驾驶技巧,实现有个性的拟人驾驶。


我们希望不同的车辆平台、不同的传感器配置、场景,按照我们前面定义的等级评定准则,你可能拿的评测就是L3、L4、L5、L6不同。如果我们做一个卡车用于港口集装箱运输,他达到L3也就可以运行,我们卡车司机不好找。如果我们一个客车在北京做到L5,可以上路。但是在重庆,道路上立体感很强,可能要重庆市公安局和北京市公安局协商一下,这两个区域的L5是否可以等同,所以特定地区是前提条件。


人和轮式机器人在一起有四种工作状态:标杆驾驶员开车机器人学习(监督学习);机器人开车人可干预(半监督学习、弱监督学习);机器人开车机器人自学习(无监督学习);如果机器当教练,教人或其他机器人开车(教人:逆监督,教新机器人:监督学习)。在标杆驾驶员开车机器学习时主要用深度学习,在机器开车人可干预是用强化学习,机器人开车机器人自学习时,就是生成一大堆对抗样本,用对抗样本生成再学习,从而构成一个迭代的过程。


驾驶认知不是一次完成是迭代学习,既包括深度学习、还包括强化学习、还包括生成对抗样本学习,从而形成一个逐步稳定的认知。


这里面我们尤其关注另外一个事情。可以让机器人成为司机,不但可以成为我们出行的代理,机器人还可以成为“执勤交警”和“路巡员”,因为可以检查路面情况,随时报告交通中心。轮式机器人群体知识共享和传承的速度远大于自然人群体!


开车对人而言主要通过事故使他的水平提高,我们关心追尾、爆胎、侧翻等事故,最近我们重点研究侧翻,拿到3260起事故数据,我们希望通过事故记录仪做一个好的事故防范的记忆表。侧翻事故是有苗头的,侧翻可以用车辆动力学解释,存在黄金一秒期。侧翻一开始,一侧两个轮子起来,当另一侧两个轮子也离开地面,侧翻结束,如果有下坡就是翻滚。这个时间前后两秒左右。用专家群体智能,分析并吸取事故驾驶员教练,物化为长期记忆,依靠突发场景触发,正确应对。因此我们有了负学习过程中的深度学习、强化学习、生成对抗样本学习。用驾驶脑防范侧翻,给我们一个启发,就是当人失去理性时,可以让人工智能帮你的忙,用人工智能弥补侧翻事故的发生。用人工智能可以规范化复制工匠的个体智能,可以弥补突发情况下个体智能缺失。


引领行业转型升级


对人工智能要有敬畏之心。机器人将来会开车、会学习、会交互、有个性、有悟性!如果会开车一旦解决,就变成移动问题解决了,那么主持、看病、陪护、手术、卖货、理财一大批都会出现。人类就多了一类朋友。


构成轮式机器人的三大块重要部件:一个灵活的腿脚——数控底盘,一个是强大的心脏——新能源,一个是智慧的大脑——驾驶脑。自主驾驶难在不确定性驾驶——边缘驾驶!要把“最后一公里问题”当作最先一公里来解决,自主应对驾驶过程中常常遇到的、偶发的各种各样的不确定性!


机器人一旦成为移动社会的传感器、大数据的重要源泉,那么将为一体化指挥调度带来极大地便利,因为每个边缘系统都是数据发生器,机器人驾驶认知的进化速度可以超过自然人,边缘计算、云计算一同产生群体智能。


1886年卡尔·奔驰获得全球汽车的第一个发明专利,之后汽车工业成为制造业的典范,成功在于两个字:规范化生产和精细化管理。今后轮式机器人还有三个关键词:那就是模块化定制,数据驱动的控制和学习,以及未来出行的科技服务商。


原来研究的车辆动力学不等于驾驶员在环的车辆动力学,轮式机器人动力学等于驾驶脑在环的车辆动力学。知识、数据双驱动的迭代学习将变成一个今后的方向,智能的路,聪明的车,会让轮式机器人玩出更多的精彩,无人驾驶有望消灭疲劳驾驶和醉酒开车,会学习的轮式机器人会开车、会交互,有个性,有悟性,能够防范各种严重事故,甚至可以玩出各种特技来。


人类衣食住行的开销,衣食住加起来也赶不上行。随着道路的智能化和学习型轮式机器人普及,路越来越智能,车越来越聪明,驾驶和交通的数据越来越累积,人类的出行方式就真的变了,中国乃至这个世界,就真的变了。人工智能将引领我国交通运输行业的转型升级。


谢谢大家!


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”



    已同步到看一看

    发送中

    腾讯姚星:两大科技矩阵助力两张网,立志攻克通用人工智能和多模态问题 2019-05-22

    来源:腾讯AI实验室

    5月21日,2019腾讯全球数字生态大会在昆明滇池国际会展中心开幕。本次大会由云南省人民政府指导,云南省文化和旅游厅、昆明市人民政府、腾讯公司共同主办,是腾讯战略升级后,整合互联网+数字经济峰会、云+未来峰会、腾讯全球合作伙伴三大行业大会打造出的规格最高的行业生态大会,参会人员超过万人。

     

    云南省副省长王显刚、董华出席大会,云南省副省长陈舜、昆明市副市长周红斌分别为大会致辞。腾讯公司总裁刘炽平,腾讯公司高级执行副总裁、云与智慧产业事业群总裁汤道生以及腾讯在产业互联网和消费互联网领域的业务负责人悉数出席大会并披露腾讯战略动向及业务实践路线图。腾讯研究院还联合腾讯云发布了《数字中国指数报告(2019)》,动态呈现数字中国版图演进。


    在前沿科技如何助力产业与消费互联网的发展上,腾讯副总裁姚星发表了演讲:


    “腾讯已建立以人工智能与前沿科技(机器人、量子计算、5G等)为基础的两大实验室矩阵,打造面向未来的科技引擎,让技术创新在农业、工业、零售到医疗等多行业落地。”

     

    姚星还补充道,“同时,腾讯还重视基础研究,立志攻克价值与挑战并存的核心大问题,第一是多模态研究,探索未来人机交互方式;第二是通用人工智能,打造一种通用、普适、终极的算法,最大释放技术原力。”


    以下为演讲全文:

    两大矩阵:ABC到ABC2.0

     在技术布局上,腾讯早已构建了人工智能(AI)、大数据(Big Data)和云计算(Cloud Computing)为基础的ABC核心技术布局。不止于此,公司还继续加大投入,迭代出AI、从虚拟到现实的机器人RoBotics、到量子计算Quantum Computing的一ABC 2.0技术版本。

    目前腾讯已建立两大实验室矩阵——人工智能实验室矩阵,包括致力于全面基础研究与应用的腾讯AI Lab-深圳及西雅图、基于视觉的腾讯优图、基于语音与自然语言理解WeChat AI等四大实验室;以及基于前沿科技的实验室矩阵,涵盖机器人、量子计算、5G、边缘计算、IoT和音视频技术等,打造面向未来的科技引擎,推动自主技术创新。

    深耕消费互联网,拥抱产业互联网

    在技术应用上,腾讯的前沿科技已经从消费互联网长期累积的经验,不断迁移到产业互联网,走出了C2B2C的特色路线。

     

    在消费互联网领域,微信的语音输入、过亿流量刷屏的“军装照”照片滤镜、QQ的物体识别到多语种实时翻译等,为消费者带来了便利、快捷与美好。


    在产业互联网,腾讯深度学习各大行业,在农业、工业、零售到医疗的各个行业建立了中国智慧方案。

     

    智能工业领域,过往生产线检测是拍摄照片后靠人力分辨合格或缺陷产品,现在把这项技术交给人工智能去做,通过机器自动识别检测,能达到90%准确率,节约50%人力。

     

    新零售领域,为无人商场提供了底层的基础能力:商品自动识别准确率98%,人脸无感支付一次识别通过率99%;基于Reid的路径动线分析为大型商场提供人流量的统计,准确率98%。

     

    农业领域已经展开探索。2018年,腾讯 AI Lab 参加由荷兰瓦赫宁根大学(WUR)主办第一届温室种植大赛,获 “AI策略” 单项第一、总分第二的成绩。腾讯在今年相继与中粮、广东粤旺农业集团、仲恺农业工程学院签订战略合作,布局智慧农业。


    明天还将宣布两大重磅消息:


    一、宣布跟欧洲顶级农业大学WUR合办“第二届智慧温室种植大赛”,吸引国际人才优化种植算法;


    二、跟农科院信息所成立智慧农业联合实验室,探索农业与AI、IoT、大数据、云计算与机器人等结合的跨学科前沿研究,打造中国智慧方案。

     

    智慧医疗上,腾讯作为新一代人工智能创业创新平台,我们的医疗产品帮助国家100多家三甲医院累计读片一亿,进行早期的癌症筛查,我们也从中筛查出接近一百万的疑似患者,我们首推出了AI+AR技术的智能显微镜,抢先布局病理诊断领域,特别在消化道系统方面,提供的免疫蛋白阻化等技术极大的为病理科大夫进行量化诊断提供了帮助。

     

    文旅方面,腾讯协助云南省政府打造的“一部手机游云南”APP,里面也埋藏了诸多的AI技术,包括刷脸入园、识花草、辨识场景,极大地便利了游客的体验,希望实现“游客体验自由自在、政府服务无处不在”。

    攻克核心大问题

    除了技术快速落地应用,腾讯还投入并重视基础研究,立志要攻克一些价值与挑战并存的“核心大问题”。

     

    以人工智能研究为例,腾讯持续聚焦两大问题:一是多模态研究,二是通用人工智能。

     

    过往大家都是沿着感知、认知到决策不同方向发展。感知,比如人脸和语音识别处理类似技术;认知,比如实时翻译、智能对话、阅读理解等;决策,就像围棋AI、农业AI,需要处理大数据并得出结论与建议。

     

    第一是多模态研究,这是在探索面向未来的人机交互方式。如果类比人类智慧,感知、认知和决策其实不可分割,是一个协同、平衡和制约的问题。当我们不再只是对三个方向单一优化,而是进行跨学科、跨模态的交叉研究时,多模态研究就能让机器用感知判断人类情绪,用认知判断意图,并进行更复杂的分析与决策,从而不断向真正的人类智慧靠近。

    画面中出现的蓝色短发少女(代号T.E.G)就是腾讯多模态研究的代表,它集合了计算机视觉、语音、自然语言理解到智能决策协作等多种AI技术于一身,目标是不断逼近人类智慧。她穿梭于演唱会、体育或电竞比赛、教育课堂等不同场景,在虚拟助手、解说、老师到歌舞姬形态上具有无穷潜力。


    第二是通用人工智能。现在大家所说的人工智能,就是算法、算力到大数据构成的。但从某种意义上,数据和算力将是有限的。举个例子,如果把宇宙近140亿年历史浓缩成一年,一小时是150万年,一秒钟相当于500年,整个人类文明不过10秒。想用10秒钟的人类社会数据来复刻整个宇宙的复杂度,基本上是不可能的。当数据和算力遭遇瓶颈,我们就期待有一种终极、通用、普适的算法,不断提升其水平,能够仿真复杂的世界、甚至是极度复杂的整个宇宙,这个答案可能就是通用人工智能。

     

    围棋AI的诞生让我们看到了一丝希望,它超越顶级棋手的背后依靠的就是算法,在几小时的学习里,模拟对弈创造出上几千万局高质量的棋局,这个数字超越了人类社会所产生的所有棋局数量,从而帮助机器找到或接近了围棋终极解法,从而击败了顶级人类选手。

     

    找到通用人工智能,打造一种通用、普适、终极的算法,最大释放技术原力。这就是我们所说的希望攻克的核心大问题。

    科技向善,Make AI Everywhere


    最后谈谈科技在公益上的应用。

     

    第一个例子是我们和与福建公安合作的“牵挂你”防走失平台,寻找48小时内走失人口,2015年上线后找回1091人。而最近央视报道寻回被拐十年儿童案件,因拐卖时间跨度太长,需极高精度但数据缺失,腾讯优图首创跨年龄人脸识别技术,提出基于DDL(分布式蒸馏学习法则)学习策略的正则化迁移学习策略,从数据学习人脸自然的跨年龄变化规律,让识别精准可靠。目前已经找到十人。

     

    中国有1700万视障人士,2018年我们在QQ空间上线图片即时语音描述功能,强化学习算法在国际顶级大赛MS COCO的该类别挑战赛上排名第一,超越微软和谷歌等公司。在中国残疾人联合会的支持下,启动AI无障碍:QQ空间无障碍技术开源项目,宣布开源图片转语音技术、OCR识别技术、语音合成技术。

     

    针对听障人士,5月16日全球无障碍宣传日之际,腾讯优图实验室宣布攻克AI手语识别技术挑战,联合深圳市信息无障碍研究会发布“优图AI手语翻译机”,致力于通过人工智能技术为听障人群搭建无障碍沟通平台。


    腾讯的AI使命是Make AI Everywhere,我们一定会善用人工智能,让人工智能造福人类,因为科技向善,谢谢大家。

     

    未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


    未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


      如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”



      已同步到看一看

      发送中

      量子算法、DNA计算与后经典计算时代 2019-05-22

      来源:资本实验室

      二进制与伟大的计算机相结合,推动人类进入了信息化时代。在这个基于物质世界的,由0和1构成的新世界中,我们依靠算法和电子技术不断解决了大量曾经无法解决的问题。

      然而,好奇的人类总是善于提出新的、更加复杂的问题,这又反过来推动了计算技术的进步。这一次,我们开始处于一个新的节点,那就是伴随着摩尔定律的逐步失效,我们将迎来后经典计算(post-classical computing)时代。在这个时代,量子计算、生物计算等将开始登上历史舞台。

      这两种新的算法将帮助我们解决现在看起来很难解决的问题。尽管它们目前都处在发展初期,但两者的探索和持续进步值得我们长期的关注。

      1.经典计算机何处去

      毫无疑问,英特网是经典计算力量的完美体现。全世界各种形状和尺寸的数十亿台计算机,通过算法、无线电信号和光纤电缆形成网络,相互协作,创造出一种我们所知的宇宙中独一无二的生活方式。更令人难以置信的是,经典计算在不到两代人的时间里就完成了这一壮举,这是一个没有历史先例的技术进步速度。

      在这种进步的背后,1965年提出的摩尔定律一直发挥了神奇的理论引领作用。但在该定律下,硅计算机芯片毕竟是一种物理材料,因此它受到物理、化学和工程规律的支配。当我们把集成电路上的晶体管缩小到纳米级后,晶体管就不能再像以往一样每两年变小一次。

      以英特尔最近不断被曝出其处理器中的安全漏洞为例,在一定程度上,这是由于工程师们必须想尽办法来提高处理器的性能和速度,而这在物理上已经不可能改善集成电路本身。

      随着晶体管缩小到只有7纳米长,工程师们已经达到让晶体管使用最少数量的原子来制造工作元件的节点。任何更小的晶体管,其结构的完整性都会很快崩溃,并失去控制和引导电流的能力,而正是电流传递的信息让计算机得以如此强大。

      当电流的转换和控制得以提升时,计算机可以更快速、更灵活。但是,你不能让电子以超过它所通过的介质所决定的速度而运动。要“加速”电子的流动,唯一的方法就是减少它在逻辑门之间的移动距离,而这种操作产生的结果可以比以前快几万亿分之一秒,这就是40年来我们一直在做的事情。

      经典计算机的处理器无疑速度很快,但不幸的是速度还不够快。尽管经典计算机已经具备不可思议的能力,但它在难以解决但又极其重要的数学问题(如优化和蛋白质折叠)面前却又一筹莫展。经典计算机操作的顺序性意味着其自身永远无法赶上一个O(2n)或O(n!)问题的增长速度。

      没有人愿意接受,过去半个世纪我们所享受的不可思议的技术之旅即将结束,但除非我们发现一种算法能够提供这种增长速度的捷径,否则我们必须超越经典计算机。

      2.量子算法的到来

      自Peter Shor发表第一个量子算法(分解大数质因子量子算法)以来的25年里,数学家和计算机科学家们已经开发出其他量子算法来解决经典计算机难以解决的问题。

      在这几十种量子算法中,许多都比我们所知道的最有效的经典算法快几个数量级。当然,这些算法只有在它们所处的独特量子环境中才能实现。

      量子计算领域的一些最重要的工作是创建模拟各种量子系统的算法,这些系统从激光技术到医学无所不包。这些算法将在很大程度上超过类似的经典计算模拟。目前,进行分子模拟的经典算法仅限于它可以模拟的分子类型。这些算法通常只限于自旋轨道少于70个的分子,而且模拟的复杂性增长得如此之快,以至于变得越来越难以处理。

      而一个量子比特能足够有效地代表这些轨道中的一个,一个只有100个量子比特的量子计算机将能够进行经典计算机望尘莫及的分子模拟。这些模拟可能揭示各种以前未知的化合物,并且可以为各种疾病提供新的治疗方法。

      从深度优先搜索(depth-first search)到绝热优化(adiabatic optimisation),量子算法应用广阔,而且在不断进步。当这些算法真正投入使用,商业、行政、医学、工程等领域一些最令人沮丧的,棘手的,指数级的问题都将迎刃而解。然而,这些算法所缺乏的是与之相对应的,具有足够量子比特的,足够强大的量子计算机。

      总体来看,量子计算技术目前还处于初级阶段,这不仅涉及你必须掌握的量子比特,你还必须发现一种能够室温超导的材料,并弄清楚你如何维持量子比特的内部环境,使其尽可能接近绝对零度才能工作。

      此外,一台计算机需要做的绝大多数工作在量子计算机上的执行速度不会比在经典计算机上更快,因为顺序化的操作并不是量子计算机的设计对象。在量子计算机完全到来之后的很长一段时间内,我们仍将使用经典计算机,而量子计算机可能被放置在企业和国家实验室,通过云计算提供处理服务。

      3.为后经典时代重新定义计算机

      经典计算机所面临的问题是计算机本身的电子性质所固有的。计算机从简单的电子电路发展而来,并使用一种非常具体的计算方法来解决问题,因此它被永久地锁定在电子技术已经使用了一个多世纪的连续二进制数计算模型中。但这个模型在我们目前的技术中占主导地位并不意味着它是执行计算的唯一方法。

      我们可以把视线从对硅芯片的痴迷移开,来看看计算研究的另一个主要领域:DNA计算。这是一个有着令人难以置信发展潜力的领域。这个概念乍看上去可能有点奇怪,让人凌乱。但如果你仔细想想,它显然是后经典计算研究和开发的候选技术。

      DNA编码已经成为一种强大的数据传输和存储机制,但研究人员现在正在深入挖掘DNA本身的各个组成部分,而它本身也有可能成为一种计算机制。

      研究表明,四种不同的氨基酸(A、T、C和G)作为DNA的构建基块,可以作为可编码的比特被重新利用。当混合后,这些氨基酸自然地自我组装成DNA链,而不仅仅是任何DNA,而是所有可用材料可能的DNA排列。

      这是一个可能改变游戏规则的创新,因为在量子比特的叠加上执行操作与真正的并行计算不同。量子计算机只会给你一个单一的输出,要么是一个值,要么是一个结果量子状态,所以它们解决指数或阶乘时间复杂度问题的效用完全取决于所使用的算法。

      然而,DNA计算利用了这些氨基酸构建和组装成长链DNA的能力。混合这些氨基酸,它们自然会形成一组更长更复杂的氨基酸排列。排列都是关于优化的,即使是量子计算机也很可能发现这种优化超出了它的能力。

      这就是DNA计算如此令人兴奋的原因。正在进行的DNA计算的研究将及时揭示其真正的功效,但自组装的DNA链提供了真正并行计算的前景,即使是量子计算也不能宣称这一点。

      总体而言,不论是量子计算还是DNA计算,它们将重新定义我们所知道的计算,我们将通过集成这些不同的模型来创建新的系统,并产生持续的影响。

      虽然推测具体的进展可能很有趣,但比任何一项进展更重要的是这些不同的进展共同产生的协同效应,例如区块链、5G网络、量子计算机和高级人工智能。

      未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


      未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


        如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”



        已同步到看一看

        发送中

        Github项目推荐 | Python机器学习课程 2019-05-21

        Machine Learning Course with Python

        by Machine Learning Mindset

        简介

        本项目的目的是提供一个全面而简单的使用Python的机器学习课程。

        https://machine-learning-course.readthedocs.io/en/latest/ 

        Github项目地址:

        https://github.com/machinelearningmindset/machine-learning-course#id4

        动机

        机器学习 作为 人工智能 的工具,是最广泛采用的科学领域之一。现在已经有大量的关于机器学习的文献。这个项目的目的是通过一个全面而简单的使用Python的机器学习教程来提供机器学习的最重要方面内容的了解学习。 在这个项目中,我们使用许多著名机器学习框架(如Scikit-learn)来构建我们的教程。 在这个项目中,你将学习到:

        • 机器学习的定义是什么?

        • (机器学习)从什么时候开始,它的趋势是什么?

        • 机器学习分类和子分类是什么?

        • 最常用的机器学习算法有哪些,以及如何实现它们?

        机器学习

        主题

        文档

        机器学习简介

        Overview

        机器学习基础

        主题

        代码

        文档/教程

        线性回归

        Python

        Tutorial

        过拟合 / 欠拟合

        Python

        Tutorial

        正则化

        Python

        Tutorial

        交叉验证

        Python

        Tutorial

        监督学习

        主题

        代码

        文档/教程

        决策树

        Python

        Tutorial

        K-近邻

        Python

        Tutorial

        朴素贝叶斯

        Python

        Tutorial

        逻辑回归

        Python

        Tutorial

        支持向量机

        Python

        Tutorial

        无监督学习

        主题

        代码

        文档/教程

        聚类

        Python

        Tutorial

        主成分分析

        Python

        Tutorial

        深度学习

        主题

        代码

        文档/教程

        神经网络简介

        Python

        Tutorial

        卷积神经网络

        Python

        Tutorial

        自编码器

        Python

        Tutorial

        循环神经网络

        Python

        IPython

        开发者

        创建者:Machine Learning Mindset [Blog, GitHub, Twitter]

        主管:Amirsina Torfi [GitHub, Personal Website, Linkedin ]

        开发人员:Brendan Sherman*, James E Hopkins* [Linkedin], Zac Smith [Linkedin]

        *:同样有所贡献

        你可能还想看


        点击查看:

        Github项目推荐 | Google 发布基于TensorFlow的大规模分布式机器学习架构Tensor2Robot

          

        每天进步一点点

        扫码参与每日一题

        PS:关于昨日每日一题的争议,可查看

        今日推送第三篇资料推荐尾部的其他解读

            

        扫码查看

        CVPR 中选心得分享

         



        今天距离CVPR 2019开幕就剩 25 天啦!

        AI研习社将在本周五公布顶会赞助名单

        扫码参加 CVPR 顶会赞助计划

        AI研习社送你去现场!

        左右滑动查看更多内容

        点击 
        阅读原文
        ,查看更多内容
          阅读原文

          已同步到看一看

          发送中

          倒计时开启!AI 研习社邀您参加 AIS (ACL, IJCAI, SIGIR) 2019 论文报告会 2019-05-21

          AlS2019是由中国中文信息学会青工委、杭州钱塘新区管委会、搜狗搜索联合举办的论文报告会。 会议将于2019年5月25日一5月26日,在杭州钱塘新区大创小镇国际创博中心内举办。 


            会议介绍

          本次会议把ACL(国际计算语言学协会年会)、IJCAI(国际人工智能联合会议)、SIGIR(国际计算机学会信息检索大会)三大会议的精彩内容融为一体,邀请来自国内各地数十所高校及科研企业单位的讲者,将要在这三大会议上进行报告的论文进行提前预讲。届时,会议将以口头报告及展板展示相结合的形式,共同探讨NLP和IR等领域的前沿发展。 

            邀您出席

          AI研习社在此诚邀您出席本次会议!注意:报名截止时间为5月22日!

          报名方式一:扫描二维码进入报名通道

          报名方式二:直接点击网址:https://dwz.cn/mHHipqca(点击文末阅读原文即可)

            日程概要

          会议日程安排如下:

            详细日程

          嘉宾阵容非常重磅!会来好多NLP大牛!敬请期待!


           快来戳【阅读原文】,了解更多详情+报名吧!

            阅读原文

            已同步到看一看

            发送中

            大讲堂 | 计算机视觉赋能传统行业 2019-05-22

            分享主题

            计算机视觉赋能传统行业


            分享简介

            本次分享为2018 CCF-GAIR 峰会中计算机视觉专场的专题圆桌讨论分享


            分享嘉宾

            李明强

            图普科技创始人兼CEO

            人工智能产品专家。原腾讯广研张小龙团队核心成员、腾讯T4技术专家,QQ邮箱技术负责人,微信创始团队成员之一。 2014年初创办图普科技,为企业提供图像识别云服务,涵盖了图像审核、商业智能、安防监控、增强现实等多个领域,现日均处理图像数据近10亿次,是互联网最大的图像识别云服务平台。李明强带领团队运用先进的人工智能和计算机视觉技术,赋能线上线下,让图普科技成为国内人工智能领域最具影响力的创业公司之一。


            赵地

            中国科学院计算所副研究员

            赵地博士获得美国路易斯安娜理工大学计算机与应用数学专业博士学位。赵地曾在美国哥伦比亚大学医学中心和美国俄亥俄州立大学医学中心从事博士后研究工作。赵地博士正主持北京市自然科学基金重点项目一项。赵地博士正在参与国家重点研发计划一项和北京市科委“脑科学研究”专项二项。赵博士在“深度学习与医学影像分析”方面具有好的研究经验,发表多篇学术杂志论文与学术会议论文,并担任国际杂志《Annals of Multicore and GPU Programming》编委。


            龚纯斌

            睿视智觉CEO

            龚纯斌曾任职联想集团和美图秀秀,多年大型自研项目全程开发管理工作经历,具有极强的技术产品化能力和丰富的团队管理经验。2014年进入计算机视觉领域,凭借对技术、资源、市场的敏锐判断完成了初步资源储备和全球化事业培养。2015年创办睿视智觉,2017年个人被评为“深圳罗湖菁英人才”。现已带领团队进入AWS、INTEL、HUAWEI人工智能生态合作体系,并与国内外多家制造业巨头达成深度战略合作。


            柴象飞

            汇医慧影创始人兼CEO

            斯坦福大学博士后、荷兰阿姆斯特丹大学医学物理学博士。师从美国科学院院士候选人邢磊、世界顶级图像引导科学家Marcel van Herk、CT重组算法奠基人之一Paul Suetens,曾于美国斯坦福大学癌症中心、荷兰癌症研究所和比利时鲁汶大学放射科等世界顶尖的医学影像机构工作学习。在人工智能、图像处理以及数据分析领域拥有超过10年的跨学科科研和工程经验,掌握影像的分割、识别、分析以及深度学习的核心技术。

            播放时间

            (北京时间)05 月 23 日(星期四)早上 10:00

            扫码加入小组,直播回放都不错过,还能向讲师提问,与组员交流。

            播放地址

            http://www.mooc.ai/open/course/664

            ↘  扫码直达  ↙

             点击阅读原文,直达本期大讲堂

              阅读原文

              已同步到看一看

              发送中

              资料 | 自然语言处理综论(中文版) 2019-05-22

              今日资料推荐

              自然语言处理综论(中文版)

              本书是一本全面系统地讲述计算机自然语言处理的优秀教材。本书英文版出版之后好评如潮,国外许多著名大学纷纷把本书选为自然语言处理和计算语言学课程的主要教材,该书被誉为该领域教材的“黄金标准”。本书包含的内容十分丰富,分为四个部分,共21章,深入细致地探讨了计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。

               扫 码 即 可 查 看 

              你可能还想看

              往期资料:

              经典数学教程推荐 – 初等微积分:无穷小方法


              点击
              阅读原文
              ,下载/收藏更多相关资料
                阅读原文

                已同步到看一看

                发送中

                CMU 神经网络 NLP 更新 | 第六讲:条件生成 2019-05-22

                AI 研习社获得官方授权,汉化翻译卡耐基梅隆大学的11-747神经网络自然语言处理(2019春季),今天上线第六讲!

                我们先来一睹为快——

                第六讲

                条件生成

                上手视频约 10 分钟

                翻译 | 张宸宁 卢嘉杰

                翻译 | 曹云 吴说 袁美璐

                看完是不是不够过瘾!

                请扫描下方二维码,加入官方学习小组

                即可观看完整视频

                回复字幕君(微信:leiphonefansub)

                加入该课程小组的截图

                我们将你拉入微信群聊

                加我时备注“11-747加群”~

                ↓↓↓

                  新课预告

                好消息来啦!如果你关注NLP领域,怎能错过这一课程:《CS224n 斯坦福深度自然语言处理》,不久前斯坦福大学在官方的油管频道上已经上传了最新版本的CS224n2019年课程。为此,AI研习社也同样开设学习小组,方便大家结伴讨论学习。

                加入CS224n 斯坦福深度自然语言处理(2019年最新版),我们有计划在征求校方同意后开始翻译计划,敬请期待!

                加入小组,全网首发抢先观看中英双语字幕

                  课程介绍

                该课程是CMU语言技术学院和计算机学院联合开课,主要内容是教学生如何用神经网络做自然语言处理。神经网络对于语言建模任务而言,可以称得上是提供了一种强大的新工具,与此同时,神经网络能够改进诸多任务中的最新技术,将过去不容易解决的问题变得轻松简单。

                本课程将首先简要介绍神经网络,然后花费大部分课程的时间,向大家演示——如何将神经网络应用于自然语言问题。每次课程都将讨论到自然语言中的特定问题或现象,向大家描述建模之所以很难的原因,并且演示一些能够解决该问题的模型。在此过程中,本课程还会涵盖的话题有——在创建神经网络模型中效果不错的各类技术,包括处理可变大小和结构化的句子,有效处理大数据,半监督和无监督学习,结构化预测等。

                  先修要求

                学生必须了解 11-711“NLP算法”或同等学力课程知识、如果你没有学过11-711,我希望你有足够的NLP背景,能够完成相关任务(例如关于n-gram语言建模,CKY解析和单词对齐)。

                  课程大纲

                第一讲:课程介绍 & 使用神经网络做自然语言处理的原因

                第二讲:简单练习 :预测句子中的下一个单词

                第三讲:分布语义和词向量

                第四讲:针对语言的卷积神经网络

                第五讲:语句或语言建模的循环神经网络

                第六讲:条件生成

                第七讲:注意力机制

                第八讲:语句和上下文词语的表示

                第九讲:调试用于自然语言处理的神经网络

                第十讲:使用局部独立假设的结构化预测  

                第十一讲:强化学习

                第十二讲:使用局部独立假设的结构化预测 

                第十三讲:模型解读 

                第十四讲:潜在随机变量 

                第十五讲:文本的对抗方法 

                第十六讲:基于转换的句法分析模型

                第十七讲:使用动态规划的句法分析 

                第十八讲:神经语义分析 

                第十九讲:无监督和半监督结构学习 

                第二十讲:对话模型 

                第二十一讲:文档级模型 

                第二十二讲:知识图谱学习 

                第二十三讲:使用神经网络的机器阅读 

                第二十四讲:多任务多语言学习模型 

                第二十五讲:高阶搜索算法

                  译者评价

                挺好的,延伸性强,会讲每个知识点的应用要点,并探讨最新的paper在相关问题上的进展。CMU的教授是挺生猛的,需要学生的素质也高。

                @孙稚昊 

                是一个不错的补充吧。我目前也在youtube上看,感觉课程内容资源都挺丰富的。一些细节讲的也不错,和之前的cs224n互相补充我觉得挺好的。

                @卢嘉杰 

                老师讲解非常详细,深入浅出,NLP那个导论 我觉得授课的老师 重在让学生 通过兴趣自我驱动 结合授课完成相关的作业 

                 @胡瑛皓

                卡耐基梅隆大学出品,必属精品。老师的知识面非常广,同时也非常前沿。

                @吴说

                课件很不错,覆盖面广,同时也包含了很多深入研读的资料;课程层次清晰,不懂深度学习的学起来也不会太困难;

                @孙昊

                  课程截图

                 想下载这门课程的官方PPT课件资料,在后台回复747课件”就能获得下载链接,完全免费!

                  阅读原文

                  已同步到看一看

                  发送中

                  Sceince子刊:利用AI+脑电波,锁定你想听的声音 2019-05-23




                    新智元原创  

                  来源:Medium

                  编辑:鹏飞

                  【新智元导读】哥伦比亚大学的工程师们宣布一项实验技术,该技术可模仿大脑检测和放大许多声音的天生能力。这种由大脑控制的助听器由人工智能驱动,可作为自动过滤器,监控佩戴者的脑电波并增强他们想要关注的声音。虽然仍处于早期开发阶段,但该技术是迈向更好助听器的重要一步,使佩戴者能够无缝,高效地与周围的人交谈。


                  人类大脑具有非凡的能力,可以在嘈杂的环境中挑选出特定的声音。比如,在嘈杂的酒吧里留意中意对象的说话、在车水马龙的街道分辨身后来车等等。

                  这在人类来说很轻松就能做到,可连最先进的助听器也无法实现。不过,哥伦比亚大学的工程师们正在改变这种情况。


                  他们宣布已经实现一项技术,可以模仿大脑天生具备的检测并放大特定声音的能力,并开发出一款由大脑控制的助听器。


                  助听器由AI驱动,可作为自动过滤器,监控佩戴者的脑电波并增强他们想要关注的声音,从而能够让佩戴者无缝并高效地与周围的人交流。

                  论文发表在Science Advances上。据悉,一作Cong Han在杭州科技大学获得学士学位,在哥伦比亚大学获得硕士学位。

                  鸡尾酒会难题


                  哥伦比亚大学Mortimer B. Zuckerman Mind Brain Behavior Institute的主要研究员和该论文的资深作者Nima Mesgarani博士说,处理声音的大脑区域非常敏感,也非常强大,可以毫不费力的放大一个特定声音而不牵扯其他声音,今天的助听器却做不到。


                  那么通过创造一种利用大脑本能的助听设备,有望使全球数亿听障人士能够像普通人一样轻松地进行交流。

                  现代助听器在降噪方面已经做的非常出色了,但实现的过程却是通过提高特定种类的声音,使其盖过其它背景音。科学家称之为鸡尾酒会难题。

                  想象一下,我们在一个嘈杂的鸡尾酒会,不仅每个人都在说话,大厅还放着BGM。为了让身边的人听清楚你不得不提高嗓门说话,而旁边的人为了让你听清楚也不得不提高自己的音量。

                  哥伦比亚工程公司电气工程副教授Mesgarani博士说:“助听器会立刻放大所有人的声音,你仍然无法将你的谈话对象和其他人区分出来”

                  用脑电波来放大特定声音


                  为什么会想到利用脑电波呢?Mesgarani称他们发现两个人在交谈的时候,讲者的脑电波开始和听着趋同。

                  于是该团队将语音分离算法与神经网络、以及模仿大脑自然计算能力的复杂数学模型相结合,开发了一款脑控助听器,使用脑电波来判断哪些声音应该被放大,哪些声音应该被抑制。

                  具体实现方式如下:

                  首先从一个组中分离出每个说话者的声音。设备自动将多个扬声器分离成单独的流,然后将每个扬声器与来自用户大脑的神经数据进行比对。一旦某人的声音模式与听者的脑电波匹配度最高,他的声音就会被放大。

                  其实团队早在2年前就发布了这项技术的初代版本,但限于预训练数据集,效果刚开始不是很理想。比如一旦出现不在数据集的声音,比如来个路人问路,系统就凌乱了。

                  好在哥伦比亚科技风险投资公司的资助下,团队对原始算法进行了改进,Mesgarani博士、第一作者Cong Han和James O’Sullivan博士再次利用深度神经网络,构建了一个更加复杂的模型,从而能够识别任何人声,从而解决了上述问题。


                  室内测试显示,效果还不错

                  为了测试该算法的有效性,研究人员与Northwell Health Institute for Neurology and Neurosurgery的神经外科医生Ashesh Dinesh Mehta合作,找来志愿患者听取不同的讲者发言,研究人员利用植入患者大脑的电极直接监测他们的脑电波、

                  当患者专注于一个扬声器时,系统会自动放大该声音。当他们的注意力转移到另一个扬声器时,音量水平发生变化以反映这种转变。

                  接下里,研究人员希望不用植入大脑这种太过简单粗暴的方式,例如将其置于头皮外部或耳朵周围。

                  目前为止只在室内环境中进行了测试,Mesgarani博士说未来有望在室外环境也实现相同的效果。

                  参考链接:

                  https://medium.com/predict/can-our-minds-live-forever-29105faf2d80


                  新智元春季招聘开启,一起弄潮 AI 之巅!

                  岗位详情请戳:


                  【加入社群】


                  新智元 AI 技术 + 产业社群招募中,欢迎对 AI 技术 + 产业落地感兴趣的同学,加小助手微信号:aiera2015_2   入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 – 公司 – 职位;专业群审核较严,敬请谅解)。


                    已同步到看一看

                    发送中

                    美国陆军研究实验室:新框架让AI可以终身学习 2019-05-23



                      新智元报道  

                    来源:sciencedaily

                    编辑:张佳

                    【新智元导读】如果AI可以终身学习会怎样?科学家们已经开发出一种新的深度神经网络框架,允许人工智能系统更好地学习新的任务,同时更少地忘记他们在以前的任务中所学的东西。

                    美国陆军的一个项目为深度神经网络开发了一个新的框架,它允许人工智能系统更好地学习新任务,同时更少地忘记他们在以前任务中学到的东西。

                    由军方资助的北卡罗莱纳州立大学的研究人员也证明了使用框架学习新的任务可以使人工智能更好地执行以前的任务,这一现象称为反向转移

                    “陆军需要准备好在世界任何地方作战,因此它的智能系统也需要准备好,” 陆军研究办公室智能系统(美国陆军作战能力开发司令部陆军研究实验室的一个组成部分)的项目经理Mary Anne Fields博士说道:“我们希望陆军的智能系统能在世界各地的战场上执行任务时不断获得新的技能,而不要忘记已经训练掌握的技能。例如,在进行城市操作时,轮式机器人可能会学习在人口密集的城市该如何行进,但它仍然需要在以前遇到的环境(如森林)中高效工作。”

                    研究团队提出了一种新的持续学习框架,称为“学习成长”(Learn to Grow),它将网络结构学习和模型参数学习分离开来。在实验测试中,它优于以往的持续学习方法。

                    “深度神经网络人工智能系统是为学习狭小范围任务而设计的,”该论文的合著者、北卡罗来纳州立大学博士生李锡来(音译)说道。因此,在学习新任务时,可能会发生以下几种情况之一:


                    ◆系统在学习新任务时会忘记旧任务,这称为灾难性遗忘

                    ◆系统会忘记一些它们知道的关于旧任务的事情,同时不学习去做新的任务。

                    ◆系统可以在添加新任务的同时将旧任务解决——这限制了改进并很快导致人工智能系统太大而无法有效运行。


                    持续学习,又称终身学习或学着学习(learning-to-learn)正试图解决这个问题。”

                    要理解“学会成长”框架,请将深层神经网络想成布满多层的管道。原始数据进入管道的顶部,任务输出从底部出来。管道中的每一个“层”都是一个计算,它操纵数据以帮助网络完成其任务,例如识别数字图像中的对象。管道中的层有多种排列方式,它们对应于网络的不同“架构”。

                    当要求一个深层神经网络学习一个新的任务时,“学习成长”框架首先通过搜索执行一个称为显式神经架构优化的操作。这意味着,当网络到达其系统中的每一层时,它可以决定执行以下四项操作之一:


                    ◆跳过该层

                    ◆用和以前的任务相同的方式使用该层

                    ◆在该层上附加一个轻量级适配器,这会稍微修改该层

                    ◆创建一个全新的层

                    这种体系结构优化有效地布局了完成新任务所需的最佳拓扑(topology)或者一系列层。一旦完成,网络就使用新的拓扑结构来训练自己如何完成任务——就像其他任何深度学习人工智能系统一样。

                    “我们已经使用多个数据集进行了实验,我们发现,新任务与以前的任务越相似,现有层执行新任务的重叠程度就越高,” 李锡来说道:“更有趣的是,在经过优化或“学习”的拓扑结构下,接受过执行新任务培训的网络几乎不会忘记执行旧任务所需的内容,即使旧任务不相似。”

                    研究人员还进行了实验,将“学习成长”框架的学习新任务能力与其他几种持续学习方法进行比较,发现“学习成长”框架在完成新任务时具有更好的准确性。

                    为了测试在学习新任务时每个网络可能忘记了多少,研究人员随后测试了每个系统在执行旧任务时的准确性——而“学习成长”框架再次优于其他网络。

                    “在某些情况下,‘学习成长’框架实际上在执行旧任务方面做得更好,”Salesforce Research的研究主管、该论文的合著者之一熊才明(音译)说,“这被称为反向转移,当你发现学习一个新任务会使你更好地完成一个旧任务时就会发生这种情况。我们一直在人们身上看到这一点,但在人工智能上就很少见。”

                    菲尔兹说:“陆军的这项投资扩展了当前最先进的机器学习技术,这些技术将指导我们的陆军研究实验室研究人员开发机器人应用,如智能机动和学习识别新物体。”这项研究使人工智能更接近于为我们的作战人员提供可部署在战场上的有效无人系统。”

                    论文 《 学习成长:克服灾难性遗忘的持续结构学习框架》将于6月9日至15日在加利福尼亚长滩举行的第36届机器学习国际会议上发表。论文的共同主要作者包括数控州电气与计算机工程助理教授吴天福(音译)博士、北卡罗来纳州立大学博士生李锡来和Salesforce Research的周颖波。论文由Salesforce Research的Richard Socher和Caiming Xiong合著。

                    这项工作也得到了国家科学基金会的支持。李锡来在Salesforce AI Research做暑期实习生时完成了部分工作。


                    参考来源:

                    https://www.sciencedaily.com/releases/2019/05/190520115635.htm


                    新智元春季招聘开启,一起弄潮AI之巅!

                    岗位详情请戳:


                    【加入社群】


                    新智元AI技术+产业社群招募中,欢迎对AI技术+产业落地感兴趣的同学,加小助手微信号:aiera2015_2   入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 – 公司 – 职位;专业群审核较严,敬请谅解)。


                      已同步到看一看

                      发送中

                      33岁OpenAI新掌门:硅谷“天选之子”Sam Altman寄望通用AI 2019-05-23



                        新智元报道  

                      来源:techcrunch

                      编辑:张佳、肖琴

                      【新智元导读】OpenAI新掌门Sam Altman分享了创建友好通用人工智能的雄心及其 “上限利润” 模式,虽然他还没想好未来如何赚钱,但承诺给投资者最多100倍的回报。

                      今年3月,著名投资人Sam Altman辞去Y Combinator的总裁职位,全情投入OpenAI,成为OpenAI的首席执行官。


                      OpenAI是一家AI研究机构,由科技界一些最杰出的人士,包括Sam Altman、Elon Musk等人于2015年底创立。当时的创始人之一Elon Musk对《纽约时报》表示,OpenAI的愿景是确保人工智能“以一种安全、有益于人类的方式发展”。


                      Sam Altman是何许人也?他非常年轻,他接过硅谷教父Paul Graham的权杖成为YC掌门的时候,只有29岁。成为OpenAI总裁时,他也只有33岁而已。《纽约客》杂志曾长文描绘Sam Altman,称他是“YC、硅谷与人类未来的天选之子”。


                      Altman近日接受科技媒体TechCrunch的采访,谈及他在OpenAI的工作,表示他不知道OpenAI将如何盈利。尽管正是Altman的领导下,OpenAI经历了重大重组,抛弃“非盈利研究机构”之名,成为了一家“有限盈利”公司。


                      Altman还谈到他对通用人工智能、AI安全和风险的看法,以及AGI的潜在后果。

                      OpenAI的“吸金术”


                      OpenAI之所以引人瞩目,原因之一是通用人工智能——或者说机器能像人类一样聪明的能力——还不存在,即使是顶级的AI研究者也不清楚AGI何时会出现。


                      在Altman的领导下,原本是非盈利组织的OpenAI重组成一家盈利公司,并宣称“未来几年需要投资数十亿美元用于大规模云计算,吸引和留住人才,以及构建AI超级计算机。”

                      OpenAI能否吸引如此多的资金不得而知,但我们的猜测是它会“吸金”,原因是有Altman在。他侃侃而谈,总是能够轻易地吸引众人。在这次采访中,他从YC的演变讲到目前在OpenAI的工作。

                      例如,在YC,“精益创业“和“拉面盈利”(ramen profitability,注[1])曾经是流行的加速器项目的目标,但新的目标似乎是立即筹集数百万美元的风险投资,如果筹不到数千万美元的话。(“如果我能控制市场——显然自由市场会起作用——我不会让YC的公司筹得他们所筹集的资金或按他们的估值融资,”Altman在一场小型行业活动上告诉与会者。“我认为这对初创企业不利。”)

                      当被问及私人问题和老生常谈的问题时,Altman也很坦诚,甚至还讲了一个他与母亲长期以来很亲近的故事,而他母亲恰好也来参加这次活动了。他不仅说母亲仍然是他“绝对”信任的少数几个人之一,而且也承认,随着时间的推移,要从小圈子之外的人那里得到最真实的反馈变得越来越困难。“在你的职业生涯中的某个时刻,人们害怕冒犯你或者害怕说一些你不想听的话。我当然知道,我现在听到的是经过过滤并计划好的消息。”

                      不知道如何盈利却承诺投资者回报

                      当然,Altman比大多数人更有办法,从他掌管YC五年时间里,让YC一次又一次地变得更大就可以证明。而且从他讨论OpenAI的方式也可以很明显地看出,他目前的想法同样大胆。

                      事实上,Altman所说的大部分若是从别人口中说出会被认为是精神错乱。而出自Altman之口,顶多让人皱皱眉。

                      例如,当被问及OpenAI计划如何赚钱时(我们想知道OpenAI是否会以授权的形式出售部分工作),Altman回答说,“说实话我们不知道。我们从未获得任何营收。我们目前没有盈利计划。未来如何盈利我们自己也不知道。”

                      Altman继续说道,“我们向投资者做出了一个温和的承诺,即一旦我们构建了一个通用的智能系统,那么我们会要求它为你找到一种实现投资回报的方法。”观众爆发出笑声(并不能马上看出他是认真的)时,Altman自己表示这听起来像是《硅谷》的一集,但他补充道,“你可以笑,没关系,但这确实是我真正相信的。”

                      在Altman的领导下,OpenAI已经成为一个“上限利润”公司,承诺给投资者最多100倍的回报,然后再将超出100倍的利润给予非盈利部门。我们注意到,100倍是一个非常高的指标——事实上,大多数普通的营利性公司的投资者很少能获得接近100倍的回报。例如,当WhatsApp被 Facebook以220亿美元的价格收购之后,据说WhatsApp唯一的机构投资者红杉资本获得了高达50倍的回报(当年投资了6000万美元)。这已经是非常惊人的回报了。

                      但Altman不仅反驳了“上限利润”是一种营销手段的说法,他还反复强调为什么“上线利润”的合理性。具体而言,他说,通用人工智能的机会是如此巨大,以至于如果OpenAI设法破解了这一难题,它可能“捕捉到宇宙中所有未来价值的光锥,只有一小部分投资者掌握它肯定是不好的。”

                      他还表示,未来的投资者将看到他们的投资回报率被限制在较低的水平——OpenAI基本上希望找到一种方法来奖励最早的投资者,鉴于他们承担的风险是最大的。

                      OpenAI使人工智能研究更加困难?

                      在分别之前,我们还与Altman分享了其他AI研究人员的各种批评。他们抱怨说,OpenAI在已经证明有效的工作中寻求对定性和非基础性的飞跃,以博取关注,并且它探索通向“安全”通用人工智能之路的使命散发出不必要的恐慌,使得他们的研究更加困难了。

                      Altman全神贯注地回答了每一个问题。他也不是完全对他们不屑一顾,比如说,在谈到OpenAI喜欢危言耸听的倾向时,他说他确实“对这些争论有些同情”。

                      尽管如此,Altman坚持认为,对于人工智能的潜在社会后果,无论有多少人觉得这是危言耸听,还是应该去思考并与媒体讨论。“那些说OpenAI是在散布恐惧的人,跟那些批判‘Facebook在做之前不考虑后果’的人,是同一批人。而我们恰恰是在行动之前好好思考了。”

                      注[1]:拉面盈利(Ramen Profitability):09年开始在创业界流行的一种盈利方式,指公司的所有营收仅仅能满足创始人的基本生活需要。


                      参考来源:

                      https://techcrunch.com/2019/05/18/sam-altmans-leap-of-faith/


                      新智元春季招聘开启,一起弄潮AI之巅!

                      岗位详情请戳:


                      【加入社群】


                      新智元AI技术+产业社群招募中,欢迎对AI技术+产业落地感兴趣的同学,加小助手微信号:aiera2015_2   入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 – 公司 – 职位;专业群审核较严,敬请谅解)。


                        已同步到看一看

                        发送中

                        DeepMind论文:深度压缩感知,新框架提升GAN性能 2019-05-23





                          新智元报道  

                        来源:arxiv

                        编辑:肖琴

                        【新智元导读】DeepMind提出一种全新的“深度压缩感知”框架,将压缩感知与深度学习相结合,显著提高了信号恢复的性能和速度,并提出一种改进GAN的新方法。

                        压缩感知(CS)是一种优雅的框架,用于从压缩信号中恢复稀疏信号。

                        例如,CS可以利用自然图像的结构,仅从少量的随机测量中恢复图像。

                        CS具有灵活性和数据效率高的优点,但由于其稀疏性和昂贵的重建过程,CS的应用受到限制。

                        那么,将CS与深度学习的思想相结合,是否能得到更优雅的框架呢?

                        近日,DeepMind的Yan Wu,Mihaela Rosca,Timothy Lillicrap等研究人员在ICML 2019发表论文Deep Compressed Sensing,基于前人将CS和神经网络生成器结合起来的方法,提出一个全新的框架。


                        深度压缩感知(DCS)框架通过联合训练生成器和通过元学习优化重建过程,显著提高了信号恢复的性能和速度。作者探索了针对不同目标的测量训练,并给予最小化测量误差推导出一系列模型。

                        作者表示:“我们证明了,生成对抗网络(GANs)可以被视为这个模型家族中的一个特例。借鉴CS的思想,我们开发了一种使用来自鉴别器的梯度信息来改进GAN的新方法。

                        压缩感知,一种优雅的框架

                        压缩感知是什么呢?

                        有人这样评价道:

                        压缩感知是信号处理领域进入 21 世纪以来取得的最耀眼的成果之一,并在磁共振成像、图像处理等领域取得了有效应用。压缩感知理论在其复杂的数学表述背后蕴含着非常精妙的思想。基于一个有想象力的思路,辅以严格的数学证明,压缩感知实现了神奇的效果,突破了信号处理领域的金科玉律 —— 奈奎斯特采样定律。即,在信号采样的过程中,用很少的采样点,实现了和全采样一样的效果。[1]

                        编码和解码是通信中的核心问题。压缩感知(CS)提供了将编码和解码分离为独立的测量和重建过程的框架。与常用的自动编码模型(具有端到端训练的编码器和解码器对)不同,CS通过在线优化从低维测量重建信号。

                        该模型架构具有高度的灵活性和采样效率:高维信号可以从少量随机测量数据中重建,几乎不需要或根本不需要任何训练

                        CS已经成功地应用于测量噪声大、成本高的场景,如MRI。它的采样效率使得诸如“单像素相机”的开发成为可能,可以从单个光传感器重全分辨率的图像。

                        然而,尤其是在现代深度学习方法蓬勃发展的大规模数据处理中,CS的广泛应用受到了它的稀疏信号假设和重建优化过程缓慢的阻碍。

                        最近,Bora et al. (2017)将CS与单独训练的神经网络生成器相结合。虽然这些预训练的神经网络没有针对CS进行优化,但它们表现出的重建性能优于现有的方法,如Lasso (Tibshirani, 1996)。

                        在本文中,我们提出一种深度压缩感知框架(deep compressed sensing,DCS),在此框架中,神经网络可以从头开始训练,用于测量和在线重建。

                        我们证明,深度压缩感知框架可以自然地生成一系列模型,包括GANs,可以通过训练具有不同目标的测量函数推导得出。

                        这项工作的贡献如下:

                        • 我们展示了如何在CS框架下训练深度神经网络。

                        • 结果表明,与以往的模型相比,元学习重建方法具有更高的精度和快几个数量级的速度。

                        • 我们开发了一种新的基于潜在优化的GAN训练算法,提高了GAN的性能。

                        • 我们将这个新框架扩展到训练半监督GAN,并表明潜在优化会产生具有语义意义的潜在空间。

                        深度压缩感知:结合深度神经网络

                        我们首先展示了将元学习与Bora et al. (2017)的模型相结合的好处。然后将测量矩阵推广到参数化的测量函数,包括深度神经网络。

                        之前的工作依赖于 random projection作为测量函数,而我们的方法通过将RIP作为训练目标来学习测量函数。然后,我们通过在测量上添加RIP之外的其他特性,得到了两个新的模型,包括一个带有鉴别器引导的潜在优化的GAN模型,这导致了更稳定的训练动态和更好的结果。

                        压缩感知与元学习

                        我们假设CSGM(Bora et al. 2017)的运行时效率和性能可以通过使用元学习训练潜在的优化过程、通过梯度下降步骤的反向传播来提高。

                        CS模型的潜在优化过程可能需要数百个或数千个梯度下降步骤。通过使用元学习来优化这个优化过程,我们的目标是用更少的更新来实现类似的结果。

                        为此,我们训练模型参数,以及潜在的优化程序,以尽量减低预期的测量误差:

                        我们的算法如下:

                        算法1:元学习压缩感知

                        具有学习测量函数的深度压缩感知

                        在算法1中,我们使用RIP属性来训练生成器。我们可以使用相同的方法,并加强RIP属性来学习测量函数F本身,而不是使用random projection。

                        下面的算法2总结了这个扩展算法。我们称之为深度压缩感知(DCS) ,以强调测量和重建可以是深度神经网络。

                        算法2:深度压缩感知

                        实验和结果

                        表2和表3总结了我们的模型以及Bora等人的基准模型的结果。

                        表2:使用不同测量函数的MNIST测试数据的重建损失。除了第一行之外,所有行都来自我们的模型。“±”表示测试样本间的标准差。(L)表示习得的测量函数,越低越好。

                        表3:使用不同测量函数的CelebA测试数据的重建损失。除了第一行之外,所有行都来自我们的模型。“±”表示测试样本间的标准差。(L)表示习得的测量函数,越低越好。


                        可以看到,DCS的性能明显优于基准。此外,虽然基线模型使用了数千个梯度下降步骤,并且多次重启,但是我们只使用了3个步骤,没有重启,大幅提高了效率。

                        有趣的是,对于固定的函数F,随机线性投影的表现优于神经网络。这个实证结果符合压缩感知文献中描述的随机投影的最优性,以及更通用的Johnson-Lindenstrauss定理。

                        更多结果如下:

                        表4:与 Spectral Normalised GANs的比较。

                        图2:利用随机线性投影(上)、训练线性投影(中)和训练神经网络(下)的10个测量的重建。

                        图3:使用0(左)、3(中)和5(右)个梯度下降步骤进行潜在优化的CS-GAN样本。采用0步骤的CS-GAN相当于原始GAN。

                        图4:在CIFAR训练期间的Inception Score(越高越好)和FID分数(越低越好)。

                        论文地址:

                        https://arxiv.org/pdf/1905.06723.pdf

                        参考:

                        [1]形象易懂讲解算法 II—— 压缩感知 

                        https://zhuanlan.zhihu.com/p/22445302

                        新智元春季招聘开启,一起弄潮 AI 之巅!

                        岗位详情请戳:


                        【加入社群】


                        新智元 AI 技术 + 产业社群招募中,欢迎对 AI 技术 + 产业落地感兴趣的同学,加小助手微信号:aiera2015_2   入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 – 公司 – 职位;专业群审核较严,敬请谅解)。


                          已同步到看一看

                          发送中

                          ARM停供?华为硬气回应:完全自主设计处理器,不惧断货! 2019-05-23


                            新智元报道 

                          来源:BBC

                          编辑:三石

                          【新智元导读】昨日,BBC爆料ARM停止与华为合作。华为对此回应:可以完全自主设计ARM处理器,掌握核心技术和完整知识产权,具备长期自主研发ARM处理器的能力,不受外界环境制约。

                          一波未平,一波又起。


                          昨日,根据BBC爆料,ARM员工已被告知:停止与华为合作

                          网站链接:
                          https://www.bbc.com/news/technology-48363772

                          而对此次的风波,华为解释了个中缘由。


                          对此,华为企业北非官推表示,一切将按计划进行,台积电相信自己满足美国出口管制的要求,不会停止向华为的供货。这也意味着麒麟980的供应不受影响。


                          华为已经获得了ARM8架构的永久授权,ARM8是ARM公司的32/64位指令集,目前的处理器都是这一指令集的产物。



                          华为强调,可以完全自主设计ARM处理器,掌握核心技术和完整知识产权,具备长期自主研发ARM处理器的能力,不受外界环境制约


                          也就是说,即便ARM迫于某些压力不再授权ARM指令集给华为,华为也不会受到影响。


                          华为发表了自己的简短声明。

                          “我们重视与合作伙伴的密切关系,但承认由于出于政治动机的决定,他们中的一些人承受着压力,”它说。

                          “我们相信这种令人遗憾的情况可以得到解决,我们的优先事项仍然是继续为全球客户提供世界一流的技术和产品。”

                          什么是ARM?

                          或许很多人不知道这意味着什么,我们先来看一下,ARM架构的“意义”:

                          在今日,ARM家族占了所有32位嵌入式处理器75%的比例,使它成为占全世界最多数的32位架构之一。ARM处理器可以在很多消费性电子产品上看到,从可携式装置(PDA、移动电话、多媒体播放器、掌上型电子游戏,和计算机)到电脑外设(硬盘、桌上型路由器)甚至在导弹的弹载计算机等军用设施中都有他的存在。在此还有一些基于ARM设计的派生产品,重要产品还包括Marvell的XScale架构和德州仪器的OMAP系列。

                          到底影响有多大一位分析人士称:

                          如果这一举措持续时间较长,将对华为的业务构成“无法克服的”打击,这将极大地影响华为开发自研芯片的能力。华为的许多芯片目前都是用ARM的基础技术制造的。

                          当然,除了我们众所周知的智能手机外,5G、电脑都会有所影响。


                          ARM是一家成立于1990年的芯片设计公司。2016年9月,该公司被日本电信巨头软银(Softbank)收购,但总部仍位于英国剑桥。


                          ARM本身并不生产计算机处理器,而是将其半导体技术授权给其他厂商。

                          在某些情况下,制造商只许可ARM的架构,或“指令集”(这决定了处理器如何处理命令)。这一选择给芯片制造商更大的自由定制自己的设计。

                          在其他情况下,制造商授权ARM的处理器核心设计,即描述芯片的晶体管应该如何配置。这些蓝图仍然需要与其他元素结合(比如内存和无线电)来创建所谓的片上系统。

                          因此,当你听到三星Exynos、高通骁龙(Qualcomm Snapdragon)或苹果A11芯片或华为智能手机上的芯片为设备供电时,所涉及的仍然是ARM的技术。

                          ARM的美国总部位于加利福尼亚州的圣何塞,该公司在华盛顿、亚利桑那州、德克萨斯州和马萨诸塞州设有办事处。

                          但是,ARM公司的总部位于剑桥,在被日本基金收购之前被描述为英国最大的科技公司。它雇佣了6,000名工人,并在美国列出了8个办事处。

                          一波未平,一波又起


                          5月16日,美国商务部将华为列入其“实体清单”之后,ARM的员工被告知了这一决定。

                          5月18日,在BBC的公司备忘录中,也可以查到其详述的出口禁令影响。

                          5月20日,美国政府又实施了所谓的“90天临时执照”。

                          ARM发言人拒绝就其与华为的合同目前状况提供更多的信息。

                          根据一份备忘录,ARM员工被指示暂停与华为及其子公司的所有互动。

                          它建议员工发送一份报告通知华为(或相关)的员工,由于一个“不幸的情况”,他们不允许”提供支持、交付技术(无论是软件、代码或其他更新),参与技术讨论,或与华为、海思或任何其他指定实体讨论技术问题“

                          该指导称,在行业活动中与员工接触的ARM员工,必须“礼貌地拒绝并停止”任何有关业务的对话,并强调个人可能要为违反行业规则承担个人责任。

                          这一禁令似乎也适用于ARM China(它持有该公司49%的股份)。

                          不可逾越的障碍


                          新智元昨日也报道了华为将自研操作系统,但华为目前是从海思采购部分芯片的。痛点就在于,海思的芯片是使用ARM创建底层技术构建的。

                          虽然海思和华为可以继续使用和制造现有芯片,但这项禁令意味着华为将来不能再向ARM寻求设备组件的帮助。

                          海思即将推出的处理器麒麟985将于今年晚些时候在华为设备中使用。根据ARM的消息来源,预计不会受到禁令的影响。然而,有消息人士称,华为芯片的下一次迭代尚未完成,而且可能需要从头开始重建

                          华为还在最近推出的鲲鹏芯片上采用了 ARM 的设计。这些芯片被用于泰山系列服务器。

                          此外,华为在1月份的时候告诉分析师,位于其5G基站核心的天罡芯片也是基于ARM的。


                          电信新闻网站(Capacity Media)的特约编辑艾伦•伯基特-格雷(Alan Burkitt-Gray)评论称:“整个电信业的问题在于,它很大程度上是基于不同公司之间的技术交流——无论是芯片公司、软件供应商,还是其他硬件制造商。”

                          他表示:“这将在行业中划出一条鸿沟,将源自华为的知识产权与世界其它地区的知识产权区分开来。”

                          “这完全是一团糟,而且发生在5G推广的关键时刻。”


                          CCS Insight的杰夫•布拉伯(Geoff Blaber)表示:“ARM是华为智能手机芯片设计的基础,因此这对华为来说是一个无法逾越的障碍。”

                          “话虽如此,由于华为供应链中的大量企业已经采取行动遵守美国的命令,华为的运营能力已经受到严重影响。”

                          目前尚不清楚的是,ARM是按照自己对美国规则的解释行事,还是听从了美国商务部的建议。

                          IHS Markit分析师李•拉特利夫(Lee Ratliff)表示:“如果这种解释是正确的,那将影响到全球所有半导体公司。”

                          “他们不可能轻易用新的内部设计取代这些部件——中国的半导体行业刚刚起步。”



                          新智元春季招聘开启,一起弄潮 AI 之巅!

                          岗位详情请戳:


                          【加入社群】


                          新智元 AI 技术 + 产业社群招募中,欢迎对 AI 技术 + 产业落地感兴趣的同学,加小助手微信号:aiera2015_2   入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 – 公司 – 职位;专业群审核较严,敬请谅解)。

                          文章已于修改

                            已同步到看一看

                            发送中

                            UC伯克利造出会「轻功」的机器人,飞檐走壁,一条腿跳遍天下 2019-05-22

                            选自Berkeley News

                            作者:Kara Manke

                            机器之心编译

                            参与:路、shooting

                            Salto 机器人由 UC 伯克利的研究者首创于 2016 年,这只跳跃机器人还没有一只脚大,但它可以跳到自己的三倍高度。而现在研究者使用了大量新技术武装它,使它可以像蹦蹦跷一样跳跃,像一条灵活的狗狗那样越过障碍。Salto 甚至可以在遥控器的控制下在户外「散步」。

                            体格不如一只脚的 Salto 机器人看起来像《星球大战》中缩小版的帝国步行机。但是千万不要被它的「娇小体格」骗了,这只小机器人可以跳得超高,高度可达它自身高度的三倍。

                            2016 年的 Salto 机器人单腿伸直站立后约为 30 厘米高,单次起跳的最高高度达 1 米。由于还不能在三维环境中实现自我稳定,当时这款机器人仅能连续起跳两次。而最近更新后的新版 Salto 机器人可实现原地多次弹跳(如图所示,弹跳次数可达到 100 次),单次起跳的高度可达 1.2 米。

                            2016 年,UC 伯克利的研究者首次展示了单腿机器人 Salto 的「高空飞行」能力,它可以轻松弹离墙面玩跑酷(一种极限运动)。现在,Salto 又有了新技能,可以像蹦蹦跷一样原地弹跳,还可以像灵活的狗狗一样越过障碍物,它甚至可以在遥控器的控制下在校园内散步。

                            研究者希望 Salto 能够推动小型敏捷机器人的发展,这类机器人可以在碎石路上跳跃行走,支援搜救行动。研究者将在 ICRA 2019 大会上展示 Salto 机器人的新技能。

                            「小型机器人可以做很多事,比如去大型机器人或人类无法活动的地方。假设在灾难发生时,人类可能被困在碎石碎砖里面,这时候它们就可以用于寻找受灾的人,且不会对救援者造成危险,甚至会比没有辅助工具的救援者更快。」UC 伯克利机器人学博士生 Justin Yim 表示,「我们希望 Salto 不仅体型小,还能够跳得很高、很快,这样它们就可以在困难的环境中也能行走自如了。」

                            Yim 和 UC 伯克利电气工程和计算机科学教授 Ronald Fearing 合作进行该项目。Ronald Fearing 所在的仿生微系统实验室(Biomimetic Millisystems Lab)致力于探索如何利用动物运动机制创建更加灵活的机器人。

                            该实验室因构建受昆虫启发的机器人而闻名,这款机器人可以安全地爬过棘手的平面,这些平面要么太光滑,要么太粗糙,总之不适合有足机器人穿行。Salto(「saltatorial locomotion on terrain obstacles」的缩写)表示「在地面障碍物上跳跃移动」,在设计这款机器人的过程中,Fearing 希望它能够以跳跃的方式移动。

                            UC 伯克利机器人学博士生 Justin Yim 领导了 Salto 项目,通过复杂的控制软件为 Salto 编程,从而让它掌握复杂的动作。

                            Salto 有一条强大的腿,这条腿是根据婴猴(又名塞内加尔丛猴)来建模的。婴猴这种小型树居灵长类动物的肌肉和肌腱储存了很多能量,起跳之前,夜猴会蹲伏,将力量上传到伸展的肌腱中。这样,较之单使用肌肉力量,这种机制能让加速度提升 15 倍多。而 Salto 机器人在机器人电机和腿部之间有天然乳胶,从而成功模仿这种生物机制。将一系列快速跳跃联系起来,Salto 也可以穿过复杂的地形(比如废墟),而这些地形只有通过跳跃或飞行的方式才有可能穿过。

                            「与先积聚力量再跳起的蚂蚱或蟋蟀不同,我们想找的是可以一直『跳跳跳跳跳』的机制。」Fearing 表示,「这样我们的机器人就可以从一个地方跳到另一个地方,然后在我们可能无法停留的地方短暂着陆。」

                            三年前,Salto 的设计团队展示了 Salto 如何跳跃,然后通过在墙壁上借力立即跳得更高,这使它成为世界上在垂直跳跃方面最灵活的机器人。之后,Yim 领导设计了复杂的控制系统,让 Salto 掌握更加复杂的任务,比如在一个地方弹起、穿过有障碍物的路径,以及跟踪一个移动的目标。

                            Yim 还使用新技术武装 Salto,使之能够「感受」自己的身体,告诉它正在指向的角度以及腿部的弯曲。在还没有这些能力的时候,Salto 是在伯克利工程建筑的一个房间里训练的:运动捕捉摄像头会追踪它的角度和位置并将数据传输回计算机,计算机迅速处理数据并反馈给 Salto,告诉它如何调整角度进行下一次跳跃。

                            现在 Salto 能够感知它自己的身体和动作,也可以自己进行这些计算。这样 Yim 可以把它带出去,用操纵杆和无线电控制器告诉它该去哪里。

                            「动作捕捉非常有利于机器人在受控环境中准确地跳跃,它给了我们大量非常好的数据。但问题是,我们没办法带它出去,在其它地方随便跳跃,因为安装动作捕捉摄像头需要很长时间。」Yim 说道,「我们真的很希望把这个机器人带出来,让它到处『跳跳』。为此,我们需要 Salto 能够计算它在哪儿、在做什么,而这就靠它身体上的那台计算机。」

                            Salto 现在可以在伯克利的校园里「散步」,它成功地在人行道、砖瓦地和草地上移动。用来实现 Salto 这项能力的数学模型还可以泛化到其它类型机器人的运动控制中,Yim 表示。

                            他还表示,「通过理解这些力作用于 Salto 的方式,及其质量和大小,我们可以将这些理解延伸到其它系统上,从而据此构建其它机器人,比如体型更大或者更小的,形状不同或重量不同的。」

                            未来,Fearing 希望继续探索跳跃型机器人的更多可能性。

                            「Salto 是我们走向弹跳型机器人的第一步,」Fearing 表示,「我们可以拓展 Salto 的能力,比如让它抓住树枝来着陆和起跳。Salto 是从一个非常简单的机制开始的,它只有一条腿。它为更复杂的机器人提供了基础,这些机器人可以具有更高的动态性,而且能做大量弹跳。」

                            原文地址:https://news.berkeley.edu/2019/05/21/with-a-hop-a-skip-and-a-jump-high-flying-robot-masters-obstacles-with-ease/



                            本文为机器之心编译,转载请联系本公众号获得授权

                            ✄————————————————

                            加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

                            投稿或寻求报道:content@jiqizhixin.com

                            广告 & 商务合作:bd@jiqizhixin.com


                              已同步到看一看

                              发送中

                              图灵奖得主Yoshua Bengio等大牛授课,字节跳动2019夏令营免费报名 2019-05-23

                              日前,面向全球高校学生的第二届字节跳动夏令营已正式开放报名,夏令营从算法、工程、产品三大赛道招收成员,参与为期一周的「封闭式课程+实践性项目」培训。本次活动食宿全包,路费全免,更有现金大奖和字节跳动实习 offer 可拿,感兴趣的读者请点击阅读原文参与报名。

                              字节跳动 Byte Camp 是字节跳动公司于 2018 年起举办的一年两度的训练营活动,该活动旨在提高顶尖高校在校学生在计算机领域的专业度,完善从基础环境搭建到技术产品应用的全流程能力,实现能力跃迁。

                              去年,字节跳动 Byte Camp 夏、冬两季活动影响非凡。字节跳动「头号玩家」AI 夏令营邀请到周志华、马毅、朱军、Alexander J. Smola、贾扬清等大牛亲自授课,有 25 位营员获得字节跳动的工作机会;为国际大学生程序设计竞赛 (ICPC) 参赛队伍提供培训的冬令营,50 支队伍中有 22 支进入 ICPC World Final 2019。最终 12 支摘牌队伍中,有 5 支参加过字节跳动冬令营,包括最终获得 ICPC World Final 2019 冠军和亚军的两支队伍。

                               

                              如今,字节跳动 2019 Byte Camp 夏令营已正式开放报名。今年的夏令营将于 2019 年 8 月 24 日至 30 日在北京举行,本次夏令营以「封闭式课程+实践性项目」为主,营员不仅能与顶尖竞赛选手、工业界牛人、学术界专家深入交流,还能接触海量真实数据场景动手实践。

                              算法、工程、产品三大赛道并驾齐驱

                              本届夏令营在首届基础上进行了升级,在算法赛道之外,增设了工程和产品两个新赛道。

                              其中,算法方面,字节跳动算法团队专家们将会现场教学,与学员们一起学习高并发、高可用、低延时大规模推荐系统、存储系统和计算模型的设计与实现。除此之外,夏令营还邀请了来自清华大学、北京大学、南京大学、华盛顿大学的学界权威专家教授亲临授课,他们在数学、算法等方面功底深厚。

                              工程方面,字节跳动研发团队作为国内规模最大的研发团队之一,覆盖前后端开发、iOS 与安卓工程、多媒体开发、游戏开发、测试工程等全栈技术岗位。研发团队的技术专家和科学家,也会通过深入浅出的理论讲解与实战经验分享,为营员指点迷津。

                              产品方面,目前字节跳动的产品覆盖全球 150 多个国家和地区、75 个语种。字节跳动的中台系统支持产品增长、留存和变现,各产品线保持高频的发版频次,产品团队有充分的创新尝试空间。本次产品赛道上,字节跳动产品团队为营员打造了「ByteDance 产品创造营」,从市场调研、需求分析、原型设计到技术实现,完成一段「理论+实战」的产品创造过程。

                              重量级嘉宾:图灵奖得主加持


                              针对算法、工程、产品三大赛道,此届夏令营有针对性的邀请了国内外多位大牛授课,外部嘉宾包括 2018 年图灵奖得主 Yoshua Bengio、艾伦人工智能研究所 CEO Oren Etzioni、中科寒武纪科技 CEO 陈天石等。

                               


                              该活动也得到了字节跳动内部技术大咖的全力支持,内部嘉宾包括字节跳动技术副总裁杨震原、字节跳动人工智能实验室主任马维英、字节跳动人工智能实验室总监李航等。

                              报名方式

                              目前,夏令营已经向全球高校的本科生、硕士生和博士生(非 2019 年应届毕业生)开放报名。

                              5 月 31 日前,满足条件的高校生可在官网(点击阅读原文)报名,通过笔试和面试后即可入营,不需要缴纳任何培训费用。

                              训练营后期将对营员进行评估,算法、工程和产品每个赛道评选出一、二、三等奖各一名,分别发放两万元、一万元、五千元奖金。同时,表现优异者将有机会赢得进入字节跳动实习的「直通券」。

                               

                              点击「阅读原文」,报名参加第二届字节跳动夏令营

                                阅读原文

                                已同步到看一看

                                发送中

                                每个开发者都应该了解的一些C++特性 2019-05-23

                                选自Medium

                                作者:M Chowdhury

                                机器之心编译

                                参与:韩放、shooting

                                C++ 是一种强大的编程语言,但也因为其复杂性一直让用户望而却步。后来,C++ 决定做出改变,然后发展至今,成了编程社区最受欢迎的语言之一。C++ 有一些新特性非常好用,本文对此进行了介绍,比如 auto、lambda、constexpr、tuple、智能指针等。

                                作为一门编程语言,C++已经进化了很多。

                                当然,这些改变不是一夜之间发生的。曾几何时,C++缺乏活力,导致人们不太喜欢这门语言。

                                但是,当 C++标准委员会决定加快转变时,情况就不同了。

                                自 2011 年以来,C++已经成为一种不断发展的动态语言,而这正是很多人所期许的。

                                不要误以为是这门语言变得简单了,实际并没有。它仍然是被广泛使用的最难编程语言之一。但是相比于之前的版本,确实对用户更加友好了。

                                今天,我们深入发掘一下每位开发者都应该了解的新特性(这些新特性从 C++11 时开始出现,距今已有八年历史了)。注意,本文略过了一些高级特性,可能会在以后的内容中详细探讨。

                                auto 概念

                                当 C++11 第一次引入 auto,一切都变得更简单了。

                                auto 的概念是让 c++编译器在编译时自动推断数据的类型,而不是每次都要求你手动声明类型。如果你的数据类型是 map>> 这样的,事情会变得非常方便。

                                看一下第五行。没有 initializer 时你不能声明某些东西,这不难理解。像第五行这样,编译器是无法推断数据类型的。

                                最初,auto 的使用是非常受限的。在之后的版本中,auto 变得更加强大!

                                第 7 和第 8 行中,我使用了花括号初始化。这个特性也是 C++11 中新加入的。

                                记住,当使用 auto 时,必须确保你的编译器可以通过某种方式推断数据类型。

                                现在问题来了,如果我写  auto a = {1, 2, 3}  会发生什么?会有编译错误吗?这是向量吗?

                                实际上,C++11 引入了 std::initializer_list,如果声明为 auto,那么初始化列表会被认为是这种轻量级容器。

                                最后,就像前面提到的,当你使用复杂的数据类型时,编译器推断数据类型会非常有用。

                                不要忘记查看第 25 行!表达式 auto [v1,v2] = itr.second 是 C++17 的新特性。这被称为结构化绑定。在之前的版本中,每个变量必须要分别进行提取,然而结构化绑定会使这个过程方便很多。

                                另外,如果你想通过引用获取数据,只需要添加一个像 auto &[v1,v2] = itr.second 这样的符号,非常简洁。

                                lambda 表达式

                                C++11 引入了 lambda 表达式,该表达式和 JavaScript 中的匿名函数非常相似。它们是没有命名的函数对象,并且基于一些简洁的语法在不同的作用域捕获变量,它们还可以分配给变量。

                                当你想在代码中快速实现一些小功能但并不想为此单独编写整个函数时,lambda 非常有用。另一种非常普遍的应用是将其作为比较函数。

                                上面的例子中有很多细节。

                                首先,要注意到列表初始化为你节省了多少代码。然后是通用的 begin() 和 end(),它们同样也是 C++11 中新添加的。然后是作为数据比较器的 lambda 函数。lambda 函数的参数被声明为 auto,这是 c++14 中新增的。在此之前,是不可以用 auto 作为函数参数的。

                                这里使用方括号[]作为 lambda 表达式的开始。它定义了 lambda 函数的作用域,即它对局部变量和对象有多少权限。

                                下面是一些现代 c++中的相关定义:

                                • []代表空。因此你不可以在 lambda 表达式中使用任何外部作用域的局部变量。只可以使用参数。

                                • [=]代表可通过值获取作用域内的局部对象(局部变量和参数),即你只可以使用但不可修改。

                                • [&]代表可通过引用获取作用域内的局部对象(局部变量和参数),即你可以像下面例子中一样修改它。

                                • [this]代表可通过值获取 this 指针。

                                • [a,&b;]代表通过值获取对象 a, 通过引用获取对象 b。

                                因此,如果你想在 lambda 函数中将数据转换成其他形式,你可以像下面这段代码一样,利用作用域来使用 lambda。

                                在上面的例子中,如果你在 lambda 表达式中使用 [factor] 取值的方式获取了局部变量,你就不能在第五行中修改 factor,因为你没有权利这样做。不要滥用你的权限!

                                最后,注意这里 var 是引用。这保证了在 lambda 函数内的任何改变都会真正改变 vector。

                                if 或 switch 语句里的初始状态

                                当我了解了 c++17 的这个特性之后我非常喜欢。

                                显然,现在你可以在 if/switch 语句块内初始化变量并且进行条件检查了。这对保持代码的紧凑和简洁是非常有帮助的。通常形式如下:

                                if( init-statement(x); condition(x)) {
                                    // do some stuff here
                                else {
                                    // else has the scope of x
                                    // do some other stuff
                                }

                                编译时执行 constexpr

                                constexpr 非常酷!

                                假设你有一些表达式要计算,并且它的值一旦初始化就不会改变。你可以预先计算该值并且作为宏来使用。或者像 C++11 中提供的,你可以使用 constexpr。

                                编程人员倾向于尽可能减少程序的运行时间。因此如果某些操作可以让编译器来做,就可以减轻运行时的负担,从而提高时间效率。

                                上面的代码是 constexpr 的一个常见例子。

                                由于我们声明 fibonacci 计算函数为 constexpr,编译器会在编译时预先计算 fib(20) 的值。所以编译结束后,它可以把 const long long bigval = fib(20) 替换为 const long long bigval = 2432902008176640000;

                                需要注意的是,传递的参数是 const 值。这是声明为 constexpr 的函数非常重要的一点,传递的参数同样要是 constexpr 或者 const。否则,该函数会像普通函数一样执行,即不会在编译时预先计算。

                                变量也同样可以是 constexpr。这种情况下,你应该可以猜到,这些变量同样也是编译时计算的。否则,会出现编译错误。

                                有趣的是,在之后的 c++17 中,又引入了 constexpr-if 和 constexpr-lambda。

                                tuple

                                和 pair 非常相似,tuple 是一组各种数据类型的固定大小值的集合。

                                有时候,使用 std::array会比使用 tuple 更加方便。array 和普通 C 类型的 array 非常相似,但具有 C++标准库的一些特性。这种数据结构是 C++11 中新增的。

                                类模版参数推断

                                名字有点长。从 c++17 开始,参数推断也适用于标准类模版。此前,该特性只支持函数模版。

                                因此,

                                std::pair<std::stringint> user = {"M"25}; // previous
                                std::pair user = {"M"25}; // C++17

                                类型推断是隐式完成的。这对 tuple 来说变得更加方便。

                                // previous
                                std::tuple<std::stringstd::stringint> user ("M""Chy"25);
                                // deduction in action! 
                                std::tuple user2("M""Chy"25);

                                如果你不熟悉 C++模版,那么上述特性可能对你来说不是很好理解。

                                智能指针

                                指针也可能并不好用。

                                由于 C++给编程人员提供了很大的自由度,有时这种自由可能反而会成为绊脚石。在多数情况下,都是指针在起反面作用。

                                幸运的是,C++11 引入了智能指针,它比之前的原始指针更加方便,可以通过适当地指针释放帮助开发者避免内存泄漏,同时也提供了额外的安全机制。

                                一开始我想在这篇文章中详细探讨一下智能指针,但显然重要的细节非常多,值得单开一篇来写,因此近期应该会出一篇相关文章。

                                原文地址:https://medium.freecodecamp.org/some-awesome-modern-c-features-that-every-developer-should-know-5e3bf6f79a3c


                                本文为机器之心编译,转载请联系本公众号获得授权

                                ✄————————————————

                                加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

                                投稿或寻求报道:content@jiqizhixin.com

                                广告 & 商务合作:bd@jiqizhixin.com


                                  已同步到看一看

                                  发送中

                                  蒙娜丽莎.gif:三星新研究用一张图像合成动图,无需3D建模 2019-05-23

                                  机器之心报道

                                  参与:思源、张倩、杜伟

                                  蒙娜丽莎开口说话你见过吗?这位神秘的画中人也能做出各种 gif 表情?来自三星莫斯科 AI 中心和 Skolkovo 科学技术研究所的研究人员创建了一个模型,利用这个模型可以从一张图像中生成人物头像的动图,而且是开口说话的动图。而且,这一模型没有采用 3D 建模等传统方法。

                                  开口说话的蒙娜丽莎好像看着没那么高冷。


                                  除了蒙娜丽莎,研究人员还生成了风情万种的玛丽莲·梦露。


                                  他们生成的名人头部动画包括玛丽莲·梦露、爱因斯坦、蒙娜丽莎以及 Wu Tang Clan 的 RZA 等。

                                  近年来出现了很多利用 AI 模拟人脸的研究。2018 年,华盛顿大学的研究人员分享了他们创建的 ObamaNet,它是一种基于 Pix2Pix 的唇语口型模型,以美国前总统奥巴马的视频进行训练。去年秋天,加州大学伯克利分校的研究人员开发出一个模型,使用 YouTube 视频来训练 AI 数据集,生成的人物可以做跳舞或后空翻等杂技动作。

                                  为了创建个性化模型,上面这些研究需要在大量个人数据上进行训练。但是,在许多实际场景中,我们需要从个人的少量甚至是一张图像中学习。因此在这项研究中,三星和 Skolkovo 研究所的研究人员只用少量甚至一张图像或画作就合成了人物开口说话状态的头部动画。

                                  研究人员利用了 Few-shot learning 等技术,主要合成头部图像和面部 landmark,可应用于电子游戏、视频会议或者三星 Galaxy S10 上现在可用的数字替身(digital avatar)。这种虚拟现实项目的数字替身技术可用于创建 deepfake 图像和视频。

                                  Few-shot 学习意味着该模型在仅使用几幅甚至一幅图像的情况下模拟人脸。研究人员使用 VoxCeleb2 视频数据集进行元训练(meta trainning)。在元学习过程中,系统创建了三种神经网络:将帧映射到向量的嵌入器网络、在合成视频中映射面部特征点的生成器网络以及评估生成图像真实性和姿态的判别器网络。

                                  联合三种网络,该系统能在大型视频数据集上执行长时间的元学习过程。待元学习收敛后,就能构建 few-shot 或 one-shot 的神经头像特写模型。该模型将未见过的目标任务视为对抗学习问题,这样就能利用已学习的高质量生成器与判别器。

                                  论文作者表示:「至关重要的一点是,尽管需要调整数千万参数,该系统能够因人而异地初始化生成器和判别器参数,因此训练可以在仅借助几幅图像的情况下快速完成。这种方法能够快速学习新面孔甚至是人物肖像画和个性化的头像特写模型。」

                                  该论文已被 2019 CVPR 会议接收,本届会议将于六月份在加利福尼亚州的长滩举行。

                                  论文:Few-Shot Adversarial Learning of Realistic Neural Talking Head Models


                                  论文地址:https://arxiv.org/abs/1905.08233

                                  新颖的对抗学习架构

                                  在这项研究中,研究者提出了一种新系统,可以只使用少量图像(即 Few shot learning)和有限的训练时间,构建「头像特写」模型。实际上,研究者的模型可以基于单张图像(one-shot learning)生成合理的结果,而且在添加少量新样本后,模型能生成保真度更高的个性化图像。

                                  与很多同类工作相同,研究者的模型使用卷积神经网络构建头像特性,它通过一个序列的卷积运算直接合成视频帧,而不是通过变形(warping)。研究者模型创建的头像特写可以实现大量不同的姿态,其性能显著高于基于变形(warping-based)的系统。

                                  通过在头像特写语料库上的大量预训练(meta-learning),模型能获得 few-shot 学习的能力。当然这需要语料库足够大,且头部特写视频对应不同的说话者与面孔。在元学习过程中,研究者的系统模拟了 few-shot 学习任务,并学习将面部 landmark 位置转换到逼真的个性化照片。在 few-shot 学习中,他们只需要提供转换目标的少量训练图像就可以。

                                  随后,转换目标的少量图像可视为一个新的对抗学习问题,其高复杂度的生成器与判别器都通过元学习完成了预训练。新的对抗问题最终会完成收敛,即在少量训练迭代后能生成真实和个性化的图像。

                                  元学习架构

                                  下图 2 展示了研究者方法中的元学习阶段,简单而言它需要训练三个子网络。注意,若我们有 M 个视频序列,那么 x_i(t) 表示第 i 个视频的第 t 帧。

                                  • 第一个子网络 embedder E:它会输入视频帧 x_i(s) 以及对应的 landmark 图像 y_i(s),该网络会将输入映射到 N 维向量 e hat_i(s) 中。

                                  • 第二个子网络 generator G:它会输入新的 landmark 图像 y_i(t),且 embedder 看不到其对应的视频帧;该网络还会输入 embedder 输出的 e hat_i,并希望能输出合成的新视频帧 x hat_i(t)。

                                  • 第三个子网络 discriminator D:它会输入视频帧 x_i(t)、对应的 landmark 图像 y_i(t),以及训练序列的索引 i。该网络希望判断视频帧 x_i(t) 到底是不是第 i 个视频中的内容,以及它到底匹不匹配对应的 landmark 图像 y_i(t)。

                                  图 2:元学习架构的整体结构,主要包含嵌入器(embedder)、生成器和判别器三大模块。

                                  嵌入器网络希望将头像特写图像与对应的人脸 landmark 映射到嵌入向量,该向量包含独立于人脸姿态的信息。生成器网络通过一系列卷积层将输入的人脸 landmark 映射到输出帧中,其生成结果会通过嵌入向量以及自适应实例归一化进行调整。在元学习中,研究者将相同视频一组视频帧传递到嵌入器,并对嵌入向量求均值以便预测生成器的自适应参数。

                                  随后,研究者将不同帧的 landmark 输入到生成器中,并对比标注图像和生成图像之间的差别。模型的整体优化目标包括感知和对抗两种损失函数,后者通过条件映射判别器实现。

                                  此外,元学习的三大子网络在原论文中都有具体的表达式,读者可具体查阅原论文 3.2 章。

                                  Few-shot 学习过程

                                  一旦元学习完成收敛,那么系统就能学习到如何合成新目标的头像特写序列,即使元学习中不曾见过这个人。当然,除了要提供新目标的一些图像样本,我们还需要提供新目标的 landmark,合成过程是以这些目标 landmark 为条件的。

                                  很自然地,我们可以使用元学习收敛后的嵌入器(embedder),用来估计新头像特写序列的嵌入向量:

                                  一种比较直观的想法是使用上面的嵌入向量,以及预训练的生成器生成新的视频帧与对应 landmark 图像。理论上这样也能生成真实的图像,但真实性并不是太强。为此,研究者还需要一个精调过程以生成更完美的图像,即 few-shot 学习过程。

                                  精调过程可视为前面元学习过程的简化版,它只在单个视频序列和较少的帧上完成训练。精调过程主要包含判别器与生成器两个模块,这里嵌入器是不需要调整的。

                                  其中生成器还是根据 landmark 合成视频帧,只不过对应具体人物的生成器参数 ψ’会和原来一般人物参数ψ共同优化,以学习生成目标人物的某些特征。判别器和元学习阶段也差不多,只不过会增加一个新参数以学习更好地预测真实度分数。

                                  实验

                                  研究者在定性和定量评估实验中用到了两个数据集:VoxCeleb1 和 VoxCeleb2。后者的视频数量大约是前者的 10 倍。VoxCeleb1 用于与基线和控制变量研究作对比,VoxCeleb2 用于展示本文中所提方法的全部潜力。实验结果如下表所示:

                                  如表 1 所示,基线模型在两个相似度度量标准上始终优于三星的方法。三星研究人员认为,这是方法本身所固有的:X2Face 在优化期间使用 L_2 损失函数,因此 SSIM 得分较高。另一方面,Pix2pixHD 只最大化了感知度量,没有 identity preservation 损失,导致 FID 最小化,但从 CSIM 一栏中可以看出,Pix2pixHD 的 identity 不匹配更大。

                                  此外,这些度量标准和人类的感知并没有特别紧密的关联,因为这些方法都会产生恐怖谷伪影(uncanny valley artifact),这从图 3 和用户研究结果中可以看出。另一方面,余弦相似度与视觉质量有更好的相关性,但仍然倾向于模糊、不太真实的图像,这也可以通过表 1 与图 3 中的结果对比来看出。

                                  图 3:在 VoxCeleb1 数据集上的结果。对于每一种对比方法,研究者在一个元训练或预训练期间未见过的人物视频上执行 one-shot 和 few-shot 学习。他们将训练的帧数设为 T(最左边的数字)。Source 列显示了训练帧之一。

                                  接下来,研究者扩展了可用的数据,开始在视频数目更多的 VoxCeleb2 上训练模型。他们训练了两种模型:FF(前馈)和 FT。前者训练 150 个 epoch,没有嵌入匹配损失 LMCH,因此用的时候不进行微调。后者训练 75 个 epoch,但有 LMCH,支持微调。

                                  他们对这两种模型都进行了评估,因为它们可以在 few-shot 学习速度和结果质量之间进行权衡。与在 VoxCeleb1 上训练的小型模型相比,二者都得到了很高的分数。值得注意的是,FT 模型在 T=32 的设定下达到了用户研究准确率的下界,即 0.33,这是一个完美的分数。两种模型的结果如图 4 所示:

                                  图 4:三星最好的模型在 VoxCeleb2 数据集上的结果。

                                  最后,研究者展示了模型在照片或画像上的结果。为此,研究者评估了在 one-shot 设定下训练的模型,任务姿态来自 VoxCeleb2 数据集的测试视频。他们使用 CSIM 度量给这些视频排序,并在原始图像和生成图像之间进行计算。这使得研究者可以发现拥有相似标志几何特征的人脸,并将它们由静态变为动态。结果见图 5 和图 1.

                                  图 5:使静止的照片栩栩如生。

                                  本文为机器之心报道,转载请联系本公众号获得授权

                                  ✄————————————————

                                  加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

                                  投稿或寻求报道:content@jiqizhixin.com

                                  广告 & 商务合作:bd@jiqizhixin.com


                                    已同步到看一看

                                    发送中

                                    ICRA 2019最佳论文公布:斯坦福大学李飞飞组获奖 2019-05-23

                                    机器之心报道

                                    参与:路、shooting

                                    机器人领域顶级会议 ICRA 2019 正在加拿大蒙特利尔举行(当地时间 5 月 20 日-24 日),刚刚大会公布了最佳论文奖项,来自斯坦福大学李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文。


                                    图源:https://twitter.com/animesh_garg/status/1131263955622604801

                                    ICRA 最佳论文奖项设立于 1993 年,旨在表彰最优秀的论文。据了解,今年一共有三篇论文入围最佳论文奖项:

                                    • 论文 1:Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks

                                    • 作者:Michelle A. Lee, Yuke Zhu, Krishnan Srinivasan, Parth Shah, Silvio Savarese, Li Fei-Fei, Animesh Garg, Jeannette Bohg(斯坦福大学)

                                    • 论文链接:https://arxiv.org/abs/1810.10191

                                    • 论文 2:Deep Visuo-Tactile Learning: Estimation of Tactile Properties from Images

                                    • 作者:Kuniyuki Takahashi, Jethro Tan(Preferred Networks 公司)

                                    • 论文链接:https://arxiv.org/abs/1803.03435


                                    • 论文 3:Variational End-to-End Navigation and Localization

                                    • 作者:Alexander Amini, Guy Rosman, Sertac Karaman, Daniela Rus(MIT、丰田研究院)

                                    • 论文链接:https://arxiv.org/abs/1811.10119

                                    ICRA 最佳论文

                                    其中,斯坦福大学 Michelle A. Lee、Yuke Zhu、李飞飞等人的论文《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》荣获最佳论文奖项。


                                    摘要:在非结构化环境中执行需要大量接触的操纵任务通常需要触觉和视觉反馈。但是,手动设计机器人控制器使其结合具备不同特征的模态并不容易。尽管深度强化学习在学习高维输入的控制策略时获得了很大成功,但由于样本复杂度,这些算法通常很难在真实机器人上面部署。

                                    该研究使用自监督学习感知输入的紧凑、多模态表征,然后使用这些表征提升策略学习的样本效率。研究者在植入任务上评估了该方法,结果表明该方法对于外部扰动具备稳健性,同时可以泛化至不同的几何、配置和间隙(clearances)。研究者展示了在模拟环境中和真实机器人上的结果。

                                    该研究提出的多模态表征学习模型架构如下图所示:

                                    图 2:利用自监督进行多模态表征学习的神经网络架构。该网络使用来自三个不同传感器的数据作为模型输入:RGB 图像、力矩传感器在 32ms 窗口上读取的力矩数据、末端执行器的位置和速度。该模型将这些数据编码并融合为多模态表征,基于这些多模态数据可学习用控制器执行需要大量接触的操纵。这一表征学习网络是通过自监督端到端训练得到的。

                                    控制器设计

                                    下图展示了该研究的控制器架构,该架构可分为三部分:轨迹生成、阻抗控制和操作空间控制。


                                    实验

                                    下图展示了该模型在模拟环境中的训练。图 a 展示了 TRPO 智能体的训练曲线:

                                    图 4:模拟植入任务:对基于不同感知模态数据训练得到的表征进行模型简化测试。研究者将使用结合了视觉、触觉和本体感觉的多模态表征训练得到的完整模型和未使用这些感知训练的基线模型进行了对比。b 图展示了使用不同反馈模态的部分任务完成率,其中视觉和触觉模态在接触丰富的任务中发挥不可或缺的作用。

                                    下图展示了在真实环境中的模型评估。

                                    图 5:a)在真实机器人实验及其间隙上使用 3D 打印 peg。b)定性预测:研究者对来自其表征模型的光流预测示例进行可视化。

                                    下图展示了在真实机器人上对该模型的评估,同时展示了该模型在不同任务设置上的泛化效果。


                                    最佳论文入围论文简介

                                    另外两篇入围最佳论文的研究分别是来自日本 Preferred Networks 公司的《Deep Visuo-Tactile Learning: Estimation of Tactile Properties from Images》,以及来自 MIT 和丰田研究院的《Variational End-to-End Navigation and Localization》。

                                    论文:Deep Visuo-Tactile Learning: Estimation of Tactile Properties from Images

                                    摘要:基于视觉估计触觉特性(如光滑或粗糙)对与环境进行高效互动非常重要。这些触觉特性可以帮助我们决定下一步动作及其执行方式。例如,当我们发现牵引力不足时可以降低驾驶速度,或者如果某物看起来很光滑我们可以抓得更紧一些。

                                    研究者认为这种能力也会帮助机器人增强对环境的理解,从而面对具体环境时选择恰当的行为。因此他们提出了一种模型,仅基于视觉感知估计触觉特性。该方法扩展了编码器-解码器网络,其中潜变量是视觉和触觉特征。

                                    与之前的研究不同,该方法不需要手动标注,仅需要 RGB 图像及对应的触觉感知数据。所有数据都是通过安装在 Sawyer 机器人末端执行器上的网络摄像头和 uSkin 触觉感知器收集的,涉及 25 种不同材料的表面。研究者展示了该模型可以通过评估特征空间,泛化至未包含在训练数据中的材料,这表明该模型学会了将图像和重要的触觉特性关联起来。

                                    该研究提出的网络架构图示。

                                    论文:Variational End-to-End Navigation and Localization


                                    摘要:深度学习彻底变革了直接从原始感知数据学习「端到端」自动车辆控制的能力。虽然最近在处理导航指令形式的扩展方面取得了一些进步,但这些研究还无法捕捉机器人所有可能动作的完整分布,也无法推断出机器人在环境中的定位。

                                    在本文中,研究者扩展了能够理解地图的端到端驾驶网络。他们定义了一个新的变分网络,该网络能够根据环境的原始相机数据和更高级路线图进行学习,以预测可能的控制指令的完整概率分布,以及能够在地图内指定路线上导航的确定性控制指令。

                                    此外,受人类驾驶员可以进行粗略定位的启发,研究者根据地图和观察到的视觉道路拓扑之间的对应关系,制定了如何使用其模型来定位机器人的方案。研究者在真实驾驶数据上评估了该算法,并推断了在不同类型的丰富驾驶场景下推断的转向命令的稳健性。另外,他们还在一组新的道路和交叉路口上评估了其定位算法,并展示了该模型在没有任何 GPS 先验的情况下也具备粗略定位的能力。

                                    模型架构。

                                    ICRA 其他奖项

                                    除了最佳论文,ICRA 大会还设置了最佳学生论文,以及自动化、认知机器人、人机交互等分支的最佳论文。

                                    其中获得最佳学生论文提名的研究有:

                                    • 论文 1:Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience

                                    • 作者:Yevgen Chebotar, Ankur Handa, Viktor Makoviichuk, Miles Macklin, Jan Isaac, Nathan Ratliff, Dieter Fox(英伟达、南加州大学、哥本哈根大学、华盛顿大学)

                                    • 论文链接:https://arxiv.org/abs/1810.05687


                                    • 论文 2:Online Multilayered Motion Planning with Dynamic Constraints for Autonomous Underwater Vehicles

                                    • 作者:Eduard Vidal Garcia, Mark Moll, Narcis Palomeras, Juan David Hernández, Marc Carreras, Lydia Kavraki(西班牙赫罗纳大学水下机器人实验室、美国莱斯大学 Kavraki 实验室)

                                    • 论文链接:http://www.kavrakilab.org/publications/vidal2019online-multilayered-motion-planning.pdf


                                    • 论文 3:Drift-free Roll and Pitch Estimation for High-acceleration Hopping

                                    • 作者:Justin K. Yim, Eric K. Wang, Ronald Fearing(加州大学伯克利分校)

                                    • 论文链接:https://people.eecs.berkeley.edu/~ronf/PAPERS/jyim-icra2019.pdf

                                    值得一提的是,机器之心昨天报道了其中一项研究,详见:UC 伯克利造出会「轻功」的机器人,飞檐走壁,一条腿跳遍天下

                                    其他机器人学分支领域的最佳论文提名名单参见:https://www.icra2019.org/program/awards。

                                    本文为机器之心报道,转载请联系本公众号获得授权

                                    ✄————————————————

                                    加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

                                    投稿或寻求报道:content@jiqizhixin.com

                                    广告 & 商务合作:bd@jiqizhixin.com


                                      已同步到看一看

                                      发送中

                                      Science子刊封面:用DNA创造生命特征机器人,中科大校友、康奈尔教授力作 2019-04-13




                                        新智元报道   

                                      来源:techxplore

                                      编辑:元子

                                      【新智元导读】华人工程师利用DNA来创造“栩栩如生”的机器。DNA是所有已知生命的原因,但DNA也是一种聚合物。通过利用分子的独特性质,康奈尔大学的华人工程师们创造了由具有生物特性的生物材料构成的简单机器。他们用DASH(基于DNA的装配和层次的合成)材料,让机器人具备了DNA材料的代谢功能。


                                      作为遗传物质,DNA为所有已知生命负责。然而,DNA也是一种聚合物,通过利用分子的独特性质,康奈尔大学的工程师们使用具备生物特性的生物材料构成了简单机器,并于4月10日在Science Robotics上发表论文《动态DNA材料具有由人工代谢驱动的紧急运动行为》。

                                      使用被他们称为DASH(基于DNA的装配和合成的分层)的材料,康奈尔工程师构建的DNA材料,具有新陈代谢能力、自我组装和组织,这是生命的三个关键特征。


                                      中科大生物系84级,康奈尔农业与生命科学学院生物与环境工程教授Dan Luo解释到:“我们正在推出一种全新的、逼真的材料概念,由自身的人工新陈代谢提供动力。我们不是在制造生命,而是在创造比以往任何时候都更像生命的材料”。


                                      Dan Luo:康奈尔大学农业与生命科学学院,2001年10月任教职,科大生物系84级。

                                      对于任何维持生命的生物体,必须有一个管理变化的系统。必须生成新的细胞; 旧细胞和废物必须被清除。生物合成和生物降解是自我可持续性的关键要素,需要新陈代谢来维持其形式和功能。

                                      通过这个系统,DNA分子被合成、并以分层方式组装成模式,从而可以延续动态、自主的生长和衰变过程。

                                      该生物材料,可以从纳米级构建块中自主地出现并自行排列:首先是聚合物;最后是中尺度形状。从55个核苷酸的基础种子序列开始,DNA分子成倍增加,产生几毫米大小的重复DNA链;然后将反应溶液注入微流体装置中,该装置提供液体能量流和用于生物合成的必要构建块。

                                      随着在材料表面流过,DNA合成了自己的新链,材料的前端生长、尾端降低、优化平衡,通过这种方式不断向前蠕动。这些DNA不断竞争,最终其中一个首先越过终点线。


                                      “这些设计仍然是原始的,但他们展示了一条通过生物分子创造动态机器的新途径。我们迈出了通过人工新陈代谢构建逼真机器人的第一步,”Luo实验室讲师和研究助理、论文的共同作者Shogo Hamada说道。“即使从简单的设计,我们也能够创造出像赛车这样的复杂行为。人工新陈代谢可以开启机器人领域的新领域。”

                                      工程师们正在探索如何让材料识别并自动找出刺激物,例如光线或食物,或者避开有害物。

                                      嵌入DNA材料的程序化代谢是关键创新。DNA含有一套新陈代谢和自主再生的说明,在那之后,由其自生自灭。


                                      “一切都来自于其移动和竞争的能力,所有这些过程都是独立的。没有外部干扰,”Luo说,“生命从几种分子开始数十亿年。这可能是相同的。”

                                      团队创建的材料在到期之前可以持续两个合成和降级周期。 研究人员表示寿命还有延长的可能,因为它可以自我复制更多的“世代”的材料。“最终,该系统可能会导致逼真的自我复制机器,”Hamada说。

                                      Luo认为,最让人兴奋的是DNA的使用为整个系统提供了一种自我进化的可能性!从理论上讲,它可以设计成使后代在几秒钟内出现,以这种超高速度进行的繁殖将利用DNA的自然突变特性,加速进化过程。


                                      将来,该系统可用作生物传感器,以检测任何DNA和RNA的存在。该概念还可用于创建动态模板,用于制造没有活细胞的蛋白质。

                                      工程师正在向技术许可中心申请专利。


                                      参考链接:

                                      https://techxplore.com/news/2019-04-dna-lifelike-machines.html


                                      【2019新智元 AI 技术峰会精彩回顾


                                      2019年3月27日,新智元再汇AI之力,在北京泰富酒店举办AI开年盛典——2019新智元AI技术峰会。峰会以“智能云•芯世界“为主题,聚焦智能云和AI芯片的发展,重塑未来AI世界格局。


                                      同时,新智元在峰会现场权威发布若干AI白皮书,聚焦产业链的创新活跃,评述AI独角兽影响力,助力中国在世界级的AI竞争中实现超越。


                                      嘉宾精彩演讲:


                                        已同步到看一看

                                        发送中

                                        经典ResNet结果不能复现?何恺明回应:它经受住了时间的考验 2019-04-13





                                          新智元报道   

                                        编辑:小芹

                                        【新智元导读】ResNet原始结果无法复现?大神何恺明的经典之作受到了网友质疑,不过何恺明本人现身解答之后,让真理越辩越明。


                                        大神何恺明受到了质疑。


                                        今天,Reddit 上一位用户对何恺明的ResNet提出质疑,他认为:


                                        何恺明 2015 年的原始残差网络的结果没有被复现,甚至何恺明本人也没有。


                                        网友称,他没有发现任何一篇论文复现了原始 ResNet 网络的结果,或与原始残差网络论文的结果进行比较,并且所有的论文报告的数字都比原始论文的更差。

                                        论文中报告的 top1 错误率的结果如下:


                                        • ResNet-50 @ 20.74

                                        • resnet – 101 @ 19.87

                                        • resnet – 152 @ 19.38


                                        何恺明等人在2015年提出ResNet之后,ResNet很快成为计算机视觉最流行的架构之一,这篇论文已经被引用了超过20000次。


                                        不过,网友称,DenseNet (https://arxiv.org/abs/1608.06993, 3000 + 引用) 和 Wide ResNets (https://arxiv.org/abs/1605.07146, ~1000 引用) 都没有使用这个结果。甚至在何恺明最近的一篇论文中,也没有使用这个结果。

                                        按理说,何恺明这篇论文应该是这个领域被引用最多的论文之一,原始 ResNet 的结果真的没有被复现出来吗?在继续讨论之前,让我们先来回顾一下ResNet的思想,以及它之所以强大的原因。


                                        重新审视 ResNet:计算机视觉最流行的架构之一


                                        2015 年,ResNet 大大吸引了人们的眼球。实际上,早在 ILSVRC2012 分类竞赛中,AlexNet 取得胜利,深度残差网络(deep Residual Network)就成为过去几年中计算机视觉和深度学习领域最具突破性的工作。ResNet 使得训练深达数百甚至数千层的网络成为可能,而且性能仍然优异

                                        由于其表征能力强,ResNet 在图像分类任务之外的许多计算机视觉应用上也取得了巨大的性能提升,例如对象检测和人脸识别。 

                                        自 2015 年以来,许多研究对 ResNet 架构进行了调整和改进。其中最著名的一些 ResNet 变体包括:

                                        • 何恺明等人提出的 ResNeXt

                                        • 康奈尔大学、清华大学和 Facebook 联合提出的 DenseNet

                                        • 谷歌 MobileNet

                                        • 孙剑团队 ShuffleNet

                                        • 颜水成团队的双通道网络 DPN

                                        • 最近南开大学、牛津大学等提出的 Res2Net

                                        • ……

                                        那么 ResNet 的核心思想是什么呢?

                                        根据泛逼近定理(universal approximation theorem),如果给定足够的容量,一个单层的前馈网络就足以表示任何函数。但是,这个层可能是非常大的,而且网络容易过拟合数据。因此,研究界有一个共同的趋势,就是网络架构需要更深


                                        从 AlexNet 的提出以来,state-of-the art 的 CNN 架构都是越来越深。虽然 AlexNet 只有 5 层卷积层,但后来的 VGG 网络和 GoogLeNet 分别有 19 层和 22 层。


                                        但是,如果只是简单地将层堆叠在一起,增加网络的深度并不会起太大作用。这是由于难搞的梯度消失(vanishing gradient)问题,深层的网络很难训练。因为梯度反向传播到前一层,重复相乘可能使梯度无穷小。结果就是,随着网络的层数更深,其性能趋于饱和,甚至开始迅速下降。


                                        网络深度增加导致性能下降


                                        在 ResNet 之前,已经出现好几种处理梯度消失问题的方法,例如,2015 年 C. Szegedy 等人提出的 GoogLeNet 在中间层增加一个辅助损失(auxiliary loss)作为额外的监督,但遗憾的是,没有一个方法能够真正解决这个问题。


                                        ResNet 的核心思想是引入一个 “恒等捷径连接”(identity shortcut connection),直接跳过一层或多层,如下图所示:


                                        一个残差块


                                        何恺明等人于 2015 年发表的论文《用于图像识别的深度残差学习》(Deep Residual Learning for Image Recognition)中,认为堆叠的层不应该降低网络的性能,因为我们可以简单地在当前网络上堆叠identity映射(层不处理任何事情),并且所得到的架构性能不变。这表明,较深的模型所产生的训练误差不应比较浅的模型的误差更高。作者假设让堆叠的层拟合一个残差映射(residual mapping)要比让它们直接拟合所需的底层映射更容易。上面的残差块(residual block)显然仍让它做到这点。

                                        ResNet 的架构

                                        那么这次质疑“不能复现”的结果是什么呢?讨论点集中在原始论文中的表3和表4:


                                        表3:ImageNet验证集上10-crop测试的错误率


                                        表4:ImageNet验证集上sigle-model的错误率结果

                                        由于其结果优异,ResNet 迅速成为各种计算机视觉任务最流行的架构之一。


                                        新智元昨天发表的文章《对 ResNet 本质的一些思考》,对 ResNet 做了较深入的探讨。作者表示:

                                        不得不赞叹 Kaiming He 的天才,ResNet 这东西,描述起来固然简单,但是对它的理解每深一层,就会愈发发现它的精妙及优雅,从数学上解释起来非常简洁,非常令人信服,而且直切传统痛点。
                                        ResNet 本质上就干了一件事:降低数据中信息的冗余度
                                        具体说来,就是对非冗余信息采用了线性激活(通过 skip connection 获得无冗余的 identity 部分),然后对冗余信息采用了非线性激活(通过 ReLU 对 identity 之外的其余部分进行信息提取 / 过滤,提取出的有用信息即是残差)。


                                        其中,提取 identity 这一步,就是 ResNet 思想的核心

                                        何恺明回应ResNet结果不能复现

                                        再回到文章开头的讨论:原始 ResNet 的结果真的无法复现吗?


                                        针对网友的质疑,不少人在帖子下回复,可以总结为两个方面:

                                        1. ImageNet 有多种测试策略,后来的论文在复现ImageNet时采用的是当时流行的策略,而非 ResNet 原始论文的策略;

                                        2. 后来的论文在训练时采用了一些与原始论文不同的优化技巧,使得结果甚至比原始 ResNet 论文的结果更好


                                        何恺明本人也第一时间作出回复:


                                        ImageNet 上有几种测试策略:(i) single-scale, single-crop 测试; (ii) single-scale, multi-crop 或 fully-convolutional 测试;(iii) multi-scale, multi-crop 或 fully-convolutional 测试;(iv) 多个模型集成。


                                        在这些设置下,这篇论文的 ResNet-50 模型的 top-1 错误率为:(i) 24.7% (1-crop,如我的 GitHub repo 所展示), (ii) 22.85% (10-crop,论文中的表 3),(iii) 20.74% (full -conv, multi-scale, 论文中的 Table 4)。论文中使用的 (ii) 和 (iii) 的描述见第 3.4 节。


                                        当时是 2015 年,(ii) 和 (iii) 是最流行的评估设置。策略 (ii) 是 AlexNet 的默认值 (10-crop), (ii) 和 (iii) 是 OverFeat、VGG 和 GoogleNet 中常用的设置。Single-crop 测试在当时并不常用。


                                        2015/2016 年后,Single-crop 测试开始流行。这在一定程度上是因为社区已经变成一个对网络精度的差异很感兴趣的环境 (因此 single-crop 足以提供这些差异)。


                                        ResNet 是近年来被复现得最多的架构之一。在我的 GitHub repo 中发布的 ResNet-50 模型是第一次训练的 ResNet-50,尽管如此,它仍然十分强大,并且在今天的许多计算机视觉任务中仍然是预训练的骨干。我认为,ResNet 的可复现性经受住了时间的考验


                                        Reddit用户ajmooch指出:


                                        你忘记了测试时数据增强 (test-time augmentation, TTA)。表 4 中的数字来自于不同 scales 的 multi-crop 的平均预测 (以计算时间为代价优化精度),而其他论文中的数字是 single-crop 的。


                                        表 3 列出了 10-crop 测试的数据。表 4 的数字更好,所以它肯定不是 single crop 的数字。我的猜测是 n-crop,可能还包括其他增强,比如翻转图像。


                                        这个帖子读起来有点像指责,我不喜欢。ResNet 因为在 ImageNet 测试集上表现出色而著名,而 ImageNet 测试集隐藏在服务器上,他们没有办法在那里处理这些数字。ResNet 是我能想到的被复现最多的架构之一。它显然是合理的。在开始批评别人之前,我们应该先了解我们在批评什么。

                                        谷歌大脑工程师hardmaru也回复道:


                                        在何恺明加入 FAIR 之前, FAIR Torch-7 团队独立复现了 ResNet:https://github.com/facebook/fb.resnet.torch


                                        经过训练的 ResNet 18、34、50、101、152 和 200 模型,可供下载。我们包括了使用自定义数据集,对图像进行分类并获得模型的 top5 预测,以及使用预训练的模型提取图像特征的说明。

                                        他们的结果如下表:


                                        经过训练的模型比原始 ResNet 模型获得了更好的错误率。


                                        但是,考虑到:

                                        这个实现与 ResNet 论文在以下几个方面有所不同:

                                        • 规模扩大 (Scale augmentation):我们使用了 GooLeNet 中的的规模和长宽比,而不是 ResNet 论文中的 scale augmentation。我们发现这样的验证错误更好。

                                        • 颜色增强 (Color augmentation):除了在 ResNet 论文中使用的 AlexNet 风格的颜色增强外,我们还使用了 Andrew Howard 提出的的亮度失真 (photometric distortions)。

                                        • 权重衰减 (Weight decay):我们将权重衰减应用于所有权重和偏差,而不仅仅是卷积层的权重。

                                        • Strided convolution:当使用瓶颈架构时,我们在 3×3 卷积中使用 stride 2,而不是在第一个 1×1 卷积。


                                        何恺明的 GitHub 有 Caffe 模型训练的原始版本和更新版本的 resnet,而且报告的也不同:

                                        (https://github.com/KaimingHe/deep-residual-networks/blob/master/README.md)



                                        也许他的 GitHub 报告中的方法与论文不一致,但为了可重复性而不使用相同的方法也有点奇怪。

                                        也许 arxiv 或 repo 应该使用一致的数字进行更新,或者更好的是,使用多次独立运行的平均值。


                                        但是随着 SOTA 的改进和该领域的发展,其他人花费资源来产生旧的结果的动机就更少了。人们宁愿使用他们的资源来复现当前的 SOTA 或尝试其他新想法。


                                        许多人引用它是因为它的概念本身,而不是为了报告排行榜分数。



                                        【2019新智元 AI 技术峰会精彩回顾


                                        2019年3月27日,新智元再汇AI之力,在北京泰富酒店举办AI开年盛典——2019新智元AI技术峰会。峰会以“智能云•芯世界“为主题,聚焦智能云和AI芯片的发展,重塑未来AI世界格局。


                                        同时,新智元在峰会现场权威发布若干AI白皮书,聚焦产业链的创新活跃,评述AI独角兽影响力,助力中国在世界级的AI竞争中实现超越。


                                        嘉宾精彩演讲:


                                        文章已于修改

                                          已同步到看一看

                                          发送中