架构师
互联网
推荐课程
average > 0 ? $model->average . '分' : '10.0分' ?>

深度学习时代的跨模态信息建模

前Keep首席科学家 北京航空航天大学副教授

现任北京航空航天大学自动化学院副教授、北航科技传播研究中心主任。 2001毕业于黑龙江大学自动化系获学士学位,并与2002年和2005年获得英国布里斯托(Bristol)大学硕士、博士。美国加州大学伯克利分校 (UC Berkeley) 博士后、牛津 (Oxford) 大学与卡内基梅隆大学 (CMU) 访问学者。目前主要研究方向为人工智能、机器学习、数据挖掘、跨媒体检索与自然语言理解。出版英文专著1本;编辑论文集2本;在WSDM,CVPR,ICASSP,EMNLP等国际会议与Information Sciences, Neurocomputing等期刊共发表论文100余篇。10年教育部新世纪优秀人才获得者。同时广泛参与信息产业界的技术咨询工作,并曾任马上金融人工智能研究院副院长、Keep首席科学家兼人工智能研究院院长。

现任北京航空航天大学自动化学院副教授、北航科技传播研究中心主任。 2001毕业于黑龙江大学自动化系获学士学位,并与2002年和2005年获得英国布里斯托(Bristol)大学硕士、博士。美国加州大学伯克利分校 (UC Berkeley) 博士后、牛津 (Oxford) 大学与卡内基梅隆大学 (CMU) 访问学者。目前主要研究方向为人工智能、机器学习、数据挖掘、跨媒体检索与自然语言理解。出版英文专著1本;编辑论文集2本;在WSDM,CVPR,ICASSP,EMNLP等国际会议与Information Sciences, Neurocomputing等期刊共发表论文100余篇。10年教育部新世纪优秀人才获得者。同时广泛参与信息产业界的技术咨询工作,并曾任马上金融人工智能研究院副院长、Keep首席科学家兼人工智能研究院院长。

课程费用

5800.00 /人

课程时长

3小时

成为教练

课程简介

Feature representation of different modalities is the main focus of current cross-modal information retrieval research. Existing models typically project texts and images into the same embedding space. In this talk, we will introduce some basic ideas of text and image modeling and how can we build cross-modal relations using deep learning models. In details, we will discuss a joint model by using metric learning to minimize the similarity of the same content from different modalities. We will also introduce some recent research developments in image captioning and vision question answering (VQA)

【工作坊大纲】
1. 语义鸿沟
2. 图像建模与CNN
3. 文本模型与词向量
4. 联合模型
5. 自动标注
6. 文本生成
7. 视觉问答

目标收益

了解到深度学习的前沿研究,了解如何利用深度学习进行图像、文本信息的联合建模并如何跨模态的实现语义搜索和图像问答系统。

培训对象

课程内容

Feature representation of different modalities is the main focus of current cross-modal information retrieval research. Existing models typically project texts and images into the same embedding space. In this talk, we will introduce some basic ideas of text and image modeling and how can we build cross-modal relations using deep learning models. In details, we will discuss a joint model by using metric learning to minimize the similarity of the same content from different modalities. We will also introduce some recent research developments in image captioning and vision question answering (VQA)。

outline:
-语义鸿沟
-图像建模与CNN
-文本模型与词向量
-联合模型
-自动标注
-文本生成
-视觉问答

课程费用

5800.00 /人

课程时长

3小时

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

活动详情

提交需求