西湖大学AI分支 | 让机器成为人类感官的延伸

新闻与活动西湖新闻大学新闻

大学新闻

冯怡公共事务部 2021年06月11日

媒体联系张弛邮箱: zhangchi@westlake.edu.cn
电话: +86-(0)571-86886861 公共事务部

教机器学会说话，甚至可以像心理医生一样，疏导排解你的坏情绪；

教机器擦亮眼睛，看穿医学影像中的复杂性，辅助临床疾病诊断；

教机器竖起耳朵，不仅要听清、听懂，还要学会提供个性化的听音环境；

教机器伸展四肢，赋予机器人快速适应新任务和新环境、快速模仿学习新技能的能力；

教机器展开翅膀，像鸟一样，学会飞行、列队和抓捕……

得益于深度学习技术进步，人工智能在感知识别和大数据分析等信息技术领域的研究和产业取得了巨大成功，并广泛推动其它领域的发展。在西湖大学工学院人工智能分支的实验室里，我们教机器学做很多事——学会计算、学会思考，让机器成为人类感官的延伸。

今天的头条推送，我们了解了李子青老师和AI分支的概况。在这条推送中，我们来认识一下AI分支的其他几位PI。

心聆机器人，和你谈谈心

蓝振忠：深度学习实验室

心理健康是现代人的健康问题不可分割的重要方面。近年来，人们越来越认识到精神卫生在实现全球发展目标方面的重要作用，并将精神卫生纳入可持续发展目标。然而，由于心理健康保障资源有限以及人们长期对心理健康问题有病耻感与污名化的现象，使得抑郁症、焦虑等心理问题成为人们精神困苦的主要根源。调查报告显示，自杀已经成为年轻人群的第二大死因，而与心理健康相关有效的医疗与服务资源的覆盖率仍然极低。

面对当前的心理健康现状，迫切需要寻找到一条能够普惠大众的，更专业、及时、有效的心理健康资源的路径。基于对传统心理咨询技术的解构，并以人工智能技术为依托，西湖大学深度学习实验室致力于研究出一款能够提供高质量心理服务的机器人。

实验室主要研究方向是心理健康的数字化，主要包含几个方面的研究：在AI技术支持下，通过基于开放领域的长程对话系统和情感计算，在初级研究阶段实现AI辅助心理咨询的功能，最终达到全自动化的支持性对话，并通过语言理解模型的预训练和应用完成咨询效果的评估系统，同时不断探索语言理解和计算机视觉技术的交叉创新，特别是表情识别系统等来实现人类心理状态的量化研究。

听清、听懂、听出个性

李晓飞：音频信号与信息处理实验室

语音是信息的载体，是人与人或人与机器交互的重要途经。更广泛地讲，声音是人类和机器进行环境感知的重要信息源。我们研究声音与语音的智能处理，包括三个方面：

一、听清。拾音技术从嘈杂的环境中提取出有意义的语音和声音信号，去除环境噪声、声音反射等干扰，可以使人（特别是有听力损伤的人）和机器听清楚声音。

二、听懂。进行语音信号、声音事件和背景环境的自动识别，使机器对声学环境进行综合理解，也包括空间信息的理解，如声音源定位等。

三、听出个性。通过控制补偿声音信号的传播，重建或增强局部声场，使每个人在不穿戴听音设备的情况下拥有个性化的听音环境。

实验室网站

https://audio.westlake.edu.cn/

助力下一代行为智能机器人

王东林：机器智能实验室（MiLAB）

以机器人学习为研究方向，我们关注如何用深度学习理论来提高机器人的通用行为智能，让机器人能够更加“聪明”地服务于人类。

一是研究深度强化学习理论，探索环境并自主学习技能、提高技能学习效率、解决环境差异问题和持续技能学习问题，以赋予机器人在各种环境下自主技能学习能力和灵活高效的行为能力。

二是研究深度元学习（小样本）理论，聚焦领域泛化和组合泛化，提高元学习的泛化能力；融合因果和常识，提高元学习的推理能力；进一步研究元强化学习新方法，提高策略泛化能力，从而赋予机器人快速适应新任务和新环境、快速模仿学习新技能的能力。

三是研究机器人行为智能上的应用。在研究深度强化学习和元学习的基础上，融合数据挖掘、感知控制、定位导航等机器人学新方法，帮助机器人进行最终智能决策。MiLAB实验室自成立之后已发表包括IJCAI、AAAI、CVPR、KDD、CIKM等人工智能顶会和期刊论文40余篇。

实验室网站：

https://milab.westlake.edu.cn

优化疾病诊断的“金标准”

杨林：人工智能与生物医学影像实验室

在生物医学图像分析的领域中，病理图像一直是癌症等疾病诊断的“金标准”。随着近年来数字病理技术及计算机深度学习技术的发展，数字病理图像的AI分析，能够大大提升医生的效率，从而帮助解决我国病理医疗资源分布不均导致的一系列问题。

尽管当前AI的图像分析技术日益成熟，但面对生物医学临床中的图像，仍存在复杂的问题。为此我们团队将从模型的泛化性及复杂训练偏差条件下建模这两个方面开展理论创新，此外我们还考虑从弱监督或无监督技术平衡模型精度及建模成本，以及从模型可解释性入手，为AI临床辅助诊断提供更有力的依据。在整体技术框架上，我们希望将AI技术与医生诊疗过程中的各个方面进行结合，以开展图像更智能化的高集成的AI分析系统。

实验室网站：

https://www.yanglinlab.com/

一场取代传统方法的革命

原发杰：表征学习实验室

基于深度神经网络的表征学习技术在近年引起了人工智能（AI）社区的广泛关注，表征学习在AI多个子领域都已取得了革命性突破，例如，以GPT-3为代表的语言表征模型在多个自然语言理解任务上接近人类水平；以ResNet为代表的视觉表征模型，将神经网络学习能力推广到数百层，甚至在很多视觉任务上超过人类识别能力；以AlphaFold2.0为代表的蛋白质表征模型，几乎终结了蛋白质三级结构预测这一世纪问题；同时，在语音识别，信息检索，个性化推荐等领域，表征学习也在酝酿一场取代传统方法的革命。表征是复杂事物的高级抽象表示，是可以被解释，被可视化的大型神经网络，可以说表征无处不在，万物皆可表征。

表征学习的发展既带来了机遇也伴随着挑战，如何将表征学习应用到更广阔的领域是一个有前景的研究方向，如应用到生命科学和医学领域，进行恶性肿瘤筛查，预测晚期癌症患者生存率，辅助蛋白质设计和个性化精准制药等；应用到用户画像建模领域，挖掘和推测用户兴趣点、喜好、行为习惯，个性，构造通用的用户表征模型，辅助政府和商业决策，实现个性化广告分发，个性化推荐引擎，个性化教育等。技术角度，表征学习并不成熟，首先强大的表征模型通常需要百亿乃至千亿级别的参数规模，需要大规模计算集群支持，对于普通研究工作者是很大的门槛；同时基于大型表征模型的迁移学习、元学习、终生学习技术仍有很多未解决的难题。

西湖大学表征学习实验室致力于研究表征学习的基础性问题，以表征学习AI算法研究为主，设计具有通用智能的大型表征模型，同时，我们对于研究表征学习的下游应用场景也富有兴趣，尤其是在生命科学领域与用户画像建模领域。我们的研究包括：大型预训练网络，表征迁移学习技术，表征终生学习技术，图神经网络表征技术，自动机器学习表征建模技术等。

我们期待在西湖大学推动表征学习的基础研究和跨学科应用研究，同时推动表征学习技术的成果转化与产业落地。

实验室网站：

https://fajieyuan.github.io/

为科研的想象插上“翅膀”

赵世钰：智能无人系统实验室

微型无人机（也称为空中机器人）近些年已经被广泛的应用于工业、农业等社会众多领域，发挥着不可替代的作用。除了广阔的应用前景，其中也蕴含着非常丰富的基础与应用研究问题。西湖大学智能无人系统实验室专注于微型无人机系统的相关研究，面向国家和社会重要需求，从事高影响力的研究工作。

我们关注的一个研究方向是空中无人机集群追捕。随着小型无人机广泛应用，恶意无人机时常出现并严重威胁社会安全。空中无人机集群追捕的想法是受到自然界当中鹰隼追捕空中鸟类猎物的启发，能够为恶意无人机反制提供有效的解决方案。我们更以此为牵引力，深入研究其中众多有趣而具有挑战性的科学问题，涉及到估计与控制、目标与环境感知、对抗与合作等基础理论问题与原型系统研制。

此外，我们关注的另外一个方向是空中作业机器人：通过将无人机与作业机构相结合，能够实现无人机从“飞行的摄像机”到“飞行的操作手”的跨越式发展，未来能够代替人类到更高、更远、更危险的地方去完成作业任务，而这其中蕴含着丰富而具有挑战性的研究问题。此外，我们也不断探索与不同学科的合作，例如3D打印、水文探测、环境监测等，希望在交叉学科领域做出新颖而有影响力的研究工作。

实验室网站：

https://shiyuzhao.westlake.edu.cn/

教机器像人一样说话

张岳：文本智能实验室

如何让计算机理解和生成人类语言是信息科学和人工智能研究长久以来不断探索的一个重要问题。自然语言处理技术的进步不仅将给我们带来更便捷的人机交互方式，让机器人在生活中更加善解人意，还能让人工智能算法掌握打开浩瀚文献宝库的钥匙，帮助专业人士进行知识检索、意见咨询、决策辅助。

随着深度学习技术的进步，语言处理技术近几年取得了长足发展，在机器翻译、智能对话、问答系统等应用上崭露头角。在法律、医疗、金融等行业也给人们带来更多的帮助。然而，当前最先进的语言处理技术距离实际产业化的应用还有相当大的差距。主要原因是语言理解和生成需要一个复杂的认知过程，在其中分析、归纳、推理和记忆都扮演着重要的角色。而当前的深度学习技术上处于以记忆为主的“题海战术”学习模式，因此存在脆弱性、不可解释、不可靠等问题。

西湖大学文本智能实验室致力于研究自然语言处理技术的基础问题，以算法研究为主，同时涉猎认知、脑科学、神经科学、量子计算等方向，探索能够主动学习、可解释、稳定理解和生成人类语言的计算模型。我们的研究包括基础的词法、句法、语义理解，信息抽取中的命名实体、关系、事件和情感分析，文本生成中的数据评论、文本摘要、机器翻译、问答对话系统等任务，同时不断探索最先进的语言处理技术对于跨学科的医疗、金融等领域的帮助作用。

实验室网站：

https://frcchang.github.io/