新闻中心

当前位置: 首页 > 新闻中心 > 学院新闻 > 正文

【DeeCamp 2021赛题解读】AIR公众号报名赢开复、亚勤签名书籍

来源:       发布时间:2021-05-12

DeeCamp2021报名已启动

关注AIR公众号并扫码报名成功的

第5、第10、第15名同学

将分别获得一本由李开复、张亚勤共同签名的

《创新工场讲AI课:从知识到实践》


deecamp报名.jpg

扫描此二维码报名

【赛道介绍】

DeeCamp2021开放性竞赛赛题来啦,快来看看有没有你感兴趣的题目!加入DeeCamp2021,你将和来自全球的优秀小伙伴组队挑战真实世界的难题,还能冲刺大奖,四大赛道,13个新颖赛题,总有一款适合你!

DeeCamp2021开放性竞赛不以完成某一具体指标为目的,而是让同学们组队完成一个完整的创新项目,鼓励其用创意向现在和未来人类面临的科技问题发起挑战,找到用 AI 技术改变真实世界的机会。对于提交的最终结果,评委将从创新性、先进性、潜在价值、呈现结果等多个维度进行评估,最终评出总冠军及各赛道冠军。

特别注意:报名并录取成为学员后,你将与其他学员自由组队并选定要挑战的项目,每队3~5名学员。如果你希望与身边的小伙伴一起组队,那就叫上TA一起报名吧!

【赛道详解】

赛道一:语言与知识的智能创新

理解人类语言、掌握并运用人类知识是人工智能皇冠上的明珠。自然语言处理(NLP)及相关的知识发现、知识表示、知识理解、知识推理等技术,共同推进着人工智能科技的深入发展与持续创新。近年来,以预训练模型为代表的新技术、新突破正大幅扩展这一领域的视野与未来可能性。

欢迎加入DeeCamp,一起围绕可控文本生成、多语言实时翻译、专业领域知识理解和推理等最前沿的应用场景,发挥你们的创造力和想象力,开拓人工智能应用的新领域,解决科技与商业的真实问题。

建议赛题:

建议赛题1:知识科普文章自动撰写

赛题介绍:

如何生成一篇维基百科文章?比如基于全网百科知识图谱,通过对优质数据资源的组织聚合和计算推理的介绍性文字,如人物介绍、历史知识、菜谱,保健知识等。

要求对给定的文章题目,寻找必要的参考文献,在此基础上,利用多文档文摘和基于预训练的文本生成技术,生成一篇通顺、符合事实、观点正确的文章。

需要学习多文档文摘技术、预训练模型技术、基于预训练模型的微调。

建议赛题2:营销性质短文的生成

赛题介绍:

如何生成一篇营销文案?根据关键词,或从文本中抽取商家主要特征,生成短文本营销性描述,常应用于信息流广告。

要求对给定的要素(人设、地点、品牌、季节等等),生成一篇通顺、有趣、观点正确的营销文案。

需要学习预训练模型技术、基于预训练模型的微调和可控文本生成技术。

建议赛题3:远程会议的翻译服务

赛题介绍:

随着经济全球化的加强,各国之间在经济、文化、生活中的交流日益频繁,加之疫情的影响,跨国界、跨语言以线上会议交流的方式成为当今社会的普遍现象。然而由于语言障碍的存在,不同语言背景的人在交流中仍面临诸多问题。尤其是线上会议往往是多源信息输入——不同语言背景的人会使用不同的文字、不同语言的语音进行交流,在这种场景下做到高效率、精准信息的处理和分析必定十分复杂,其中至少包括语音机器翻译、多语言会议信息的自动整理和挖掘等关键技术。目前,语音机器翻译基本采用语音识别到文本翻译、再到语音合成的方式,然而,远程会议跨语言、多人参与、多源信息输入等特性约束下,这样的信息处理方法效果往往不好,针对线上会议的信息处理还处于起步和发展阶段。

如何利用机器翻译、会议自动摘要和会议搜索等技术,提升操不同语言的人的线上开会效率及形成一系列解决方案,实现多语言智能会议系统呢?

注意考虑到时间有限,本赛题在实现上暂局限于文本翻译部分。不考虑语音识别和会议摘要。

赛道二:AI 赋能的医疗与健康

随着生命科学、人工智能和大数据技术的飞速发展,前沿科技开始在医疗与大健康服务的诸多环节中发挥巨大作用,一个医疗与健康产业智能化的时代将全面开启。预训练模型、强化学习等典型的人工智能算法在基因数据分析、蛋白质折叠、药物分子发现、公共卫生大数据等领域不断取得突破性进展。

在DeeCamp训练营中,大家可以在专业导师的指导下,一起探索前沿科技与真实世界场景、真实医疗与健康数据结合的各种可能性,一起创造提升人类健康水平的新方法、新思路、新设计。

建议赛题:

建议赛题1:大规模基因数据预训练模型及应用

赛题介绍:

近年来,大规模数据上的预训练技术极大的促进了自然语言处理技术的进步,并应用到了图像等各领域。尤其是OpenAI2020年提出的GPT-3模型,不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。被认为是近几年人工智能领域的重大突破之一。

随着人类基因组计划和测序技术的发展,我们已经获取高通量的基因片段数据与对照的人类基因组。那么从这些序列数据中我们是否能够使用类似于自然语言处理的预训练技术,学到一个人类基因组的“语言模型”?从而应用到各种下游监督任务(例如变异位点检测等)中,提高这些任务的性能?或者产生一些新的应用?

给团队的建议:

本赛题是开放课题,团队可选择一个或多个侧重方向,包括但不限于:• 一个大规模的基因预训练模型• 一个基于基因预训练模型的下游模型,得到性能的极大提升。

建议赛题2:基于脑电信号(EEG)的情感识别

赛题介绍:

脑机接口(Brain-Computer Interface, BCI)是在人/动物脑与计算机或其他电子设备之间建立的不依赖于常规大脑信息输出通路的一种全新通讯和控制技术。作为当前神经工程领域中最活跃的研究方向之一,脑机接口在生物医学、神经康复和智能机器人等领域具有重要的研究意义和巨大的应用潜力。近10年来,脑机接口技术得到了长足的进步和飞速的发展。尤其是2020年8月29日,埃隆·马斯克召开Neuralink发布会,向世界展示了一只大脑植入脑机接口设备的“赛博朋克猪”,植入设备后,小猪不仅仍然活蹦乱跳,且其每一步动作的大脑电信号都可以直观的在大屏幕上显示。引发了大众对脑机接口技术的无限想象。

脑机接口中一个重要的研究方向就是基于脑电信号的情感识别。人和动物的大脑,特别是皮层细胞,存在着频繁的自发电活动。从脑电极记录到的电位是对脑部大量神经元活动的反应,这种电活动的电位随时间的波动称为脑电波(EEG) 。

BCI的先驱曾经指出“在理论上,脑的感觉、运动及认知意识在自发EEG中应该是可辨识的”,因此EEG成为BCI研究中的常见工具。BCI技术就是要通过识别这种意图,将之表达为对外部设备的直接控制。

给团队的建议:

本项目侧重于探讨新技术来改善我们对脑电信号的情感识别,以及是否能够产生一些新颖的应用场景,例如根据脑电可以生成一段自然语言文字来描述人类感受,从而与机器产生交互?• 可以综合使用深度学习、图像识别和自然语言处理等多种技术,来提高脑电信号识别的准确性。评价指标可以是定义在相关数据集上的分类指标。• 也可以设计一个有趣的应用场景,来体现脑电信号的情感识别对于该场景的重要作用。• 产出可以是算法的演示程序,也可以是创新应用的app或解决方案等。

建议赛题3:智能诊疗方案推荐

赛题介绍:

医疗领域积累了大量的诊疗数据,有大量可供挖掘的价值从中发现更好的诊疗策略及方案,帮助医生更好更快速的根据病人的实际情况,提供精准、有效的治疗。然而基于数据的最优诊疗方案的寻找同时也面临较多挑战,例如大量的医疗数据偏向于重症病例,轻症或者罕见病例数据较少。同时对从数据中找到的最优诊疗策略也有极高的要求,不恰当的诊疗方案可能会对病人的健康造成严重影响,试错成本高昂。因此如何充分利用数据中的信息,同时找到安全可靠的诊疗方案非常重要。

智能诊疗方案推荐问题可以被考虑成一个序列决策优化问题。病人的整个治疗阶段可以被划分为多个等长的时间段,每个时间段内通过考虑病人自身的特点及多种动态临床检测指标状况,给出最优的动作推荐(例如诊疗干预时机或干预时长、特定药物使用剂量,最佳的药物或药物组合,或者不同医治措施的组合方案),最终实现病人死亡率的降低,提高患者治愈率或者康复速度。

给团队的建议:

本赛题是开放课题,团队可选择一个或多个侧重方向,包括但不限于:

• 利用医疗数据寻找最佳的诊疗干预的时机或用药剂量,提高患者的治愈率或者康复速度,例如:

1.基于大量真实诊疗数据,根据病人血氧饱和度等多个指标,确定接入呼吸机的最佳时机和使用时长(注:病人过长或过短时间接入呼吸机都可能增加死亡率)。

2.针对特定疾病,例如冠状动脉粥样硬化心脏病,败血症等,确定某几种常用药的最佳使用时机和使用剂量,提高患者治愈率。

• 最有效的药物或者药物组合,可以最有效的控制病情,例如:针对特定或多种疾病,在不同的时间段从成百上千种药物中筛选最有效的药物,或者药物组合处方,协助人类医生从多种的用药方案中找到最佳方案(为降低问题复杂度,此问题只考虑用药种类,暂不考虑用药剂量,可假设用药剂量由人类医生把握)。

• 不同医治措施的组合方案,提高患者的治愈率或者康复速度,例如:针对特定疾病(尤其是重症案例),根据病人不断变化的临床指标找到最优的物理治疗(例如呼吸机)、不同药物治疗方案的使用次序、时长或组合方案,尽可能降低病人的死亡率。

团队在构建智能诊疗AI模型完成赛题过程中,还可以考虑以下问题:

• 如何利用有限且潜在有偏的医疗数据学习可靠的诊疗推荐方案。

• 如何利用已有数据对学习得到的诊疗推荐方案进行可靠的事前评价,规避实际用于真实病人诊疗过程中存在的风险。• 如何在在诊疗方案推荐过程中提供一些具有可解释性的指标,指导医生或者专业人员进行最终决策。

• 如何打造一个可学习、可优化的框架,通过少量诊疗结果快速的改进和优化现有诊疗方案、策略。

赛道三:人工智能的创新与创意

自上世纪四五十年代发端以来,AI技术经历多次迭代,今天以深度学习为代表的新一代AI已经创造出超越人类的围棋程序,可以自动驾驶汽车的智能算法,可以独立执行任务或与人协作的机器人……但AI在认知能力、推理能力、创造与决策能力等方面,还与人类水平相差甚远。

人类与生俱来的创意思维、艺术审美等能力该如何在AI算法中体现?有哪些新思路、新方法、新技术可能帮助我们开辟更广阔的 AI 新天地?请利用你们的科研积累,发挥你们大胆突破的创新能力,用最直观的创意演示系统向人们揭示 AI 未来可能的技术路线与应用场景。

建议赛题:

建议赛题1:因材施教的游戏

赛题介绍:

一直以来,因材施教和寓教于乐都是教育界推崇的方法。近年来,随着大数据和人工智能技术的发展,个性化教育和游戏化教育的深度结合逐步成为了可能。也有越来越多的互联网教育企业开始提供相关产品和服务。但行业内仍普遍存在一些问题:例如教学游戏在设计上很难做好娱乐性和教育性之间的平衡,教学游戏中教授的知识点单一且内卷化,可选择的个性化教育目标和教育手段有限,学习成果缺少有效的评价体系以至于难以判断等等。这些问题是否能够通过技术手段得以提升?

在完成技术实现的同时,希望团队从教育的角度思考:

1.为什么好玩的游戏通常教育属性不足?

2.教育的个性化可以体现在教育的哪些环节和要素上?

3.如何评价学生进行教学游戏后的学习成果?是否有量化的指标?

希望参赛队完成一个完整的教育系统而不仅仅是其中的一部分,建议课题至少能够覆盖:

知识点的集合、教育过程的个性化和参数化、学生状态评价方法、以及课程及游戏的内容呈现。除非独特的设计效果会对教学产生关键影响,通常不需要把太多精力花在游戏的美术及特效层面,可用相对简单的仿真环境进行模拟和演示。

建议赛题2:基于AI对话系统的服装设计

赛题介绍:某集团旗下的 “犀牛智造”是一家从服装业切入的制造企业,为服装行业带来一场“数字”制衣的革命,在制造端已经具备了5分钟生产2000件不同衣服的能力。这时,如何将消费者对服装定制化设计的需求高效转化为产品设计,就成为了下一个亟待解决的问题。我们能否通过设计一个AI对话系统来达到目的呢?

人:“我想要一个某明星在某综艺的同款”;机:“那套我知道的,我已经根据你的身形进行了尺寸调整,请看效果图”;人:“袖子有点长,可以短一些么?领口也可以再收一些;”机:“没问题,这就进行剪裁,请看调整后的效果图”;人:“还不错,转到背面也看一下?哦,还有,搭配我红色的那双鞋会不会更合适?”…

本课题是开放课题,团队可选择完成以下一个或多个任务:

1.建立服装数据库,通过文字对话系统与用户交互,选取接近用户描述的数据;

2.建立窄域知识图谱,通过服装设计相关的“常识”来提高交互效率和准确率;

3.利用服装相关大数据,采用图像综合或其他技术手段,根据用户需求生成设计;

4.利用技术手段为用户提供“虚拟试衣”的体验;

5.其他可以针对用户需求转化为服装设计的过程提升效率的任务。

建议赛题3:积木说明书自动生成

赛题介绍:

对于一套积木玩具,说明书设计的质量会大大影响用户体验。然而,人工设计拼装说明书是非常繁琐的。因为设计过程通常要考虑到许多因素,例如模型的分组,拼装顺序的合理性,对称性,中间结构的稳定性,便于理解的难易程度,以及最终的排版。给定一套乐高积木模型(可以是特定品类),能否通过AI技术实现拼装说明书的自动生成?为了节省印刷成本,说明书的排版应当充分的利用纸张。因此说明书中每一步的拼装示意图应在不降低用户体验的前提下尽量密集排布。

赛道四:人工智能驱动的商业场景

在金融、能源、交通、制造、物流等特定的商业领域,人工智能赋能业务的过程通常会经历一个从数据建设到智能应用的完整发展周期,其中包括积累商业数据、构建大数据架构、建立适合智能应用的数据资产视图、引入智能算法引擎、提供业务指导因子、辅助业务评估与业务决策、实现业务流程与业务决策自动化等关键阶段。人工智能领域的前沿科技可以在这些阶段中发挥极为关键的作用。

在DeeCamp中,大家可以结合真实的商业场景和真实的商业数据,探索与设计提升商业价值、帮助商业流程自动化、辅助商业决策的创新方法、创新产品形态,为人工智能驱动的商业未来做出贡献。

建议赛题:

建议赛题1:金融文档事件抽取

赛题介绍:

随着人类社会进入信息爆炸时代,如何从海量新闻、公告中高效地提取出有价值的金融信息,为投资者提供及时有效的参考决策依据,已经成为金融行业高速发展的重要瓶颈。事件抽取技术正是克服困境的关键突破口之一。当前,金融领域事件抽取依旧存在诸多难点与挑战,如论元分散,单文档多事件等。

本赛题瞄准金融事件抽取领域的难点与痛点问题,展开一定深度的探索。

建议赛题2:新闻中的风险舆情信息提取

赛题介绍:

从海量的非结构化中文新闻信息提取相关实体或者个人信息,进行机器阅读,识别相关风险舆情信息,做到实时监控,按照相关风险类型,进行识别分类,并作出风险提示。在业务续存期之间,实时监控客户和投资项目的舆情风险,可以帮助客户及时地做出规避风险的操作。本课题中,希望从非结构化中文新闻信息提取相关实体或者个人信息,然后进行舆情分析并识别相关风险。

本研究需要聚焦于数据增强和模型训练两个方面。数据增强是指,在缺少训练数据的时候,如何利用迁移学习技术把其他语言的数据或者其他相关任务的数据利用起来。模型训练方面,需要研究如何利用合适的预训练模型增强句子和文档的编码以及设计优化的神经网络模型提升舆情分析和风险预测能力。

建议赛题3:债券市场结构化数据提取

赛题介绍:

目前金融行业的很多静态数据存在于大量的非结构化文本当中,并且需要大量的人工操作实现非结构化数据到结构化数据的转换。例如固定收益债券处理中存在大量的募集说明书需要通过人工阅读及录入的方式导入到系统当中。随着NLP技术的日趋成熟,特别是谷歌推出BERT之后,从非结构化数据中抽取实体信息的准确率大幅上升。本课题的目标是将募集说明书(PDF文件)中将所需信息,例如发行人、承销商、赎回权等数据点自动抽取出来,并形成结构化的数据(key/value形式)。目前世界各国发行的债券的募集说明书大部分都是本地语言,也可以通过迁移学习技术把在一种语言上训练好的模型扩展到其他各种语言的债券募集说明书的处理当中,验证和提升模型的范化能力。

准确率要求:85%以上

输入输出样例:输入为募集说明书PDF文件,输出提取的数据点为Key/Value形式

建议赛题4:通过知识图谱评估企业合规风险

赛题介绍:

合规和监管的风险管理是银行等金融机构的重要义务,功能完善且符合政策法规的风险管理系统是各金融机构的重点项目。目前存在金融机构信息不对称及多渠道信息人工整合效率低的问题。是否可以通过大数据、人工智能、NLP等前沿技术帮助解决这样的问题呢?比如从工商信息、统计年鉴、产业研究报告、新闻报道等信息中深入挖掘企业的社会关系和社群属性,整合多维度信息,通过企业关系网络分析企业之间的潜在关联和异常,识别空壳公司、关联企业协同等风险行为,建立企业的实力、价值、潜在金融风险等多维度评分矩阵,为企业做出综合评价,为企业监管合规、信用分析、商机发现等领域提供客观准确的数据基础,帮助金融机构判断企业资质、识别企业风险,实现风险前置,制定差异化客户管理策略。

【奖项设置】

总冠军 1队:

奖金100,000元 特别奖励

赛道冠军 4队:

奖金30,000元 特别奖励

特别奖励可从以下方案中任选其一

– 受邀参与与特邀嘉宾的交流会(线上或线下)

– 投资人一对一项目辅导

– 合作企业参访交流

注:

赛道冠军不与总冠军叠加。

紧密关注AIR公众号,最快获得第一手赛道信息

qrcode_for_gh_bdc3afa2129e_430.jpg

上一条:强强联合!百度携手清华大学智能产业研究院(AIR)发布Apollo Air计划 下一条:马维英:未来十年AI在生命科学领域会有爆发式发展

关闭

相关新闻

最新动态

邮箱:Airoffice@air.tsinghua.edu.cn
电话:(010)82151160  

地址:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院