我们的日常动态

实验室的日常新闻动态、通知公告、科研进展、活动开展状况。



恭喜庞志飞同学在顶级期刊TKDE2019上发表论文!

NEIST: a Neural-Enhanced Index for Spatio-Temporal Queries

作者 Sai Wu, Zhifei Pang, Gang Chen, Yunjun Gao, Cenjiong Zhao, Shili Xiang

论文链接 https://www.computer.org/csdl/journal/tk/5555/01/08861025/1dVZAm21LyM

数据集 https://www.kaggle.com/crailtap/taxi-trajectory/version/1

相关代码 http://10.214.224.201/pangzhifei/neist.git

主要工作

TPR树是针对移动对象广泛应⽤的时空索引。TPR树的基本假设是移动对象都呈直线运动,因此当预测查询的时间 离当前时间越久,查询准确率会急剧下降,并且由于查询范围的扩大导致节点之间overlap过大,从而使得查询性能也急剧下降。针对以上问题,本课题提出了 NEIST(Neural-Enhanced Index for SpatioTemporal Queries),引入Ssq2seq模型来预测移动物体的轨迹,并替换原有的TPR树的直线模型,提出了新的索引结构 TS-TPR 以及相关理论。实验证明,TS-TPR比TPR树准确率高70%以上,性能提高3倍以上。

主要贡献点

1. 构造了适用于城市车辆的轨迹预测的深度学习模型

2. 提出TS-TPR索引结构,并提出了massive batch loading算法,同时给出了时间以及空间复杂度

3. 提出了利用LSH聚类的加速TS-TPR查询的算法

4. 实验证明,TS-TPR比TPR树准确率高70%以上,性能提高3倍以上。





实验室关于构建“数据智能普适化平台”相关研究的讨论

实验室目前的研究目标主要定位为构建“数据智能普适化平台”,降低人工智能在各个领域的使用门槛。在这个平台的建设中,可以从以下几个方面的研究进行展开:

1. 可以以文本数据的知识抽取 (Extraction) 和知识获取 (Retrieval) 作为这个普适化平台的一项主要功能。知识抽取的数据源是一堆海量文本数据(形式不限,可以是长、短自由文本或者半结构化文本),输出是知识条的集合;知识获取的输入是知识库(存放知识条)以及一个用户查询,输出是相关的知识条列表按照排序方式给出。知识条是比较泛的概念,可以是一个实体、一个关系、一个规则等等。

2. 降低用户使用门槛,比如由自然语言直接转成SQL语言、或者转成其他半结构化的语言比如XQuery等。这项研究可以通用于一般的数据库查询,而知识获取可以作为这一项的一个应用。

3. 降低算法工程师的人力代价,比如一次建模后可以“一劳永逸”地保持标注和反馈数据的增量更新,系统在更新后能够适应、迁移到新的数据集而不需要算法工程师干预。

4. 降低算法模型对数据标注的饥渴程度,使用创新的算法模型(比如半监督模型),实现“标注少,学习快”的目标。

5. 提高信息抽取、知识抽取过程中的信息泛化和保护,使得知识更加General,而那些特殊Adhoc的信息不会带到Output里面,从而保护数据隐私。知识更加General也是知识抽取的一大目标。

6. 机器学习所使用的计算平台应提供海量数据上的高速学习,支持“增量标注”的学习,支持分布式的“联邦学习”,学习任务之间可以有某些“计算共享”来加速。

实验室将在这些目标里面探索研究问题,实现创新的方法,并将这些创新方法和应用Physically添加到真正的平台里面去。





恭喜王皓波同学在IJCAI2019上发表论文!

Discriminative and Correlative Partial Multi-Label Learning

作者 Haobo Wang, Weiwei Liu, Yang Zhao, Chen Zhang, Tianlei Hu and Gang Chen

论文链接 https://www.ijcai.org/proceedings/2019/512

数据集 http://mulan.sourceforge.net/datasets-mlc.html

相关代码 http://10.214.224.201/whb/ijcai-2019-discriminative-and-correlative-partial-multi-label-leanring

主要工作

偏多标签学习(Partial Multi-Label Learning, PML)假设每个样本关联了一个候选标签集,其中,有多个标签是真实标签。PML问题是多标签问题的一个弱监督学习形式,最大的两个挑战是消歧和提取多标签之间的相关性(对应Partial Label Learning和Multi-Label Learning)。

本文提出的算法为两个阶段,在第一个阶段,我们假设特征空间和标签空间具有相同的流形结构。因此我们采用了局部线性嵌入算法得到了样本在标签空间的低维表示。特别的,我们在原LLE的目标函数中,加入了带有弱监督标签信息的约束。因此,第一阶段可以将逻辑标签值转化成数值标签,达到消除歧义的作用。

完成数据集转化后,我们认为该数值化标记能够反应较为真实的标签信息。在第二阶段,我们要从数据集中学习得到一个多标签分类器。本文提出了一个基于GBDT的多标签算法。在GBDT的每个Boosting轮次,我们都使用前面学到的标签增强特征空间。由于每个弱分类器能够捕获一定的标签信息,因此,模型可以自动学习标签之间的相关性,达到更好的泛化性能。

主要贡献点

1. 现有的算法主要关注消歧和提取相关性中的一个方面,而我们提出了一个双阶段的PML算法,有效解决了这个问题。

2. 第一阶段的流形算法中,我们的约束是精心设计的,能够更好地学习得到良好的Confidence信息。

3. 我们首次提出了基于特征增强的多标签GBDT回归算法。





数据智能实验室2019新版主页发布上线!

2019年2月20日,浙江大学数据智能实验室2019年新版主页正式发布上线,功能和界面采用简洁科技风格,更新了实验室最新的相关介绍!




实验室最新GPU服务器资源说明

实验室目前已经采购了多块大显存容量的GPU,并配置在几台服务器上。为有效平衡大家的资源利用,由骆歆远和史飞超搭建了GPU服务器资源监控页面,大家可以参照 此页面 选择想要进行模型训练的服务器。服务器的使用账号请联系管理员骆歆远。




实验室新版GitLab上线!

经过系统管理员骆歆远的努力,实验室目前已经在新的服务器上重新部署了最新版本的GitLab,在网站交互和性能上大幅度提高体验。新版访问地址仍然和以前一样保持不变,http://10.214.224.201,并且原先GitLab的数据都已经进行了迁移,欢迎大家测试使用。新用户请联系管理员骆歆远进行注册。




恭喜李环同学在数据库顶级会议VLDB上发表Demo论文!

恭喜实验室李环同学发表的Demo论文 TRIPS: a system for translating raw indoor positioning data into visual mobility semantics 被数据库顶级会议VLDB接收!

以上视频是该论文的一个系统演示,可在该页面进一步查看论文的相关介绍内容。