Sorry, your browser cannot access this site
This page requires browser support (enable) JavaScript
Learn more >

code

https://github.com/neurocard

problem

cardinity即解的大小(解包含多个tuple(有多个tuple都是解),解的大小是tuple的数量)

前置知识

AR模型即用采样的方法得到条件概率

AR

结构:

Conor Durkan and Charlie Nash. 2019. Autoregressive Energy Machines. In
Proceedings of the 36th International Conference on Machine Learning (Proceedings
of Machine Learning Research), Kamalika Chaudhuri and Ruslan Salakhutdinov
(Eds.), Vol. 97. PMLR, Long Beach, California, USA, 1735–1744

Naru

是AR模型
形式化query

inference阶段:

model

总体

T是ARmodel中的“给定一个T”的T

我们的目标:构建一个输入为所有表格的所有列的模型

模型结构:

采集样本(作为训练数据)

从full join中选取tuple
采样的目标:

算法框架:

[step1]得到join_key列step1:Computing join counts(别人提出) 得到采样的概率

对一个表格进行采样:这个表由很多tuple组成,每个tuple有一个采样它的概率,
这个阶段就是给每个表格的每个tuple计算这个概率

[step2]得到join_key列step2:采样

举例

join中null部分的处理

[step3]得到join key列之后把内容列补全

外加:full join中总行数

comment:采集多个样本可以并行(因为独立同分布)

factorization(处理训练数据:将采样得到行转换成特征向量)

名词解释:embeding matrix

每个tuple的每一列在这一步之后都对应1~多个特征向量了:

这样处理的话,对于列的filter条件可以如何处理:

评论