手机版 客户端

FCS 文章精要 清华大学李国良等:监督学习任务中的表格生成模型

  FCS 文章精要 清华大学李国良等:监督学习任务中的表格生成模型。论文标题:Synthesizing tables for supervised learning

  

期刊:Frontiers of Computer Science

  

作者:Yaoyu ZHU, Guoliang LI, Jianhua FENG, Nan TANG

  

发表时间:8 Jan 2025

  

DOI:10.1007/s11704-025-40424-2

  

微信链接:点击此处阅读微信文章

   引用格式:

   Yaoyu ZHU, Guoliang LI, Jianhua FENG, Nan TANG. Synthesizing tables for supervised learning. Front. Comput. Sci., 2026, 20(3): 2003603

   阅读原文:

   问题概述

   学习数据分布面临着几个独特的挑战。首先,样本空间需要进一步讨论,包括单个样本的特征和数据域的范围。其次,传统的生成对抗网络(GAN)难以捕捉多个记录之间的隐藏关系。最后,在某些情况下,引入差分隐私是必不可少的。

   技术步骤

   为了捕捉组的局部分布,本文提出使用组打包与组填充的方式将记录转化成组矩阵。给定组矩阵后,文章使用离散数据作为条件,连续数据作为值,训练一个条件生成对抗网络,以控制生成多少组/记录以及如何生成它们,进而满足组级和表级的相似性。此外,文章还优化了离散嵌入的训练方式,以更好地处理离散值。

   实验结果

   使用本文的合成数据训练的模型与使用真实数据集训练的模型具有相似的F1分数、高匹配率和高余弦相似度,这远远优于使用其他方法生成的表格训练的模型。

   期刊简介

   Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办,南京大学支持,SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华院士,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐B类期刊;两次入选中国科技期刊国际影响力提升计划;入选第4届中国国际化精品科技期刊;两次入选中国科技期刊卓越行动计划(一期梯队、二期领军)。

  

中国学术前沿期刊网

http://journal.hep.com.cn

  
来源:Frontiers of Computer Science

FCS 文章精要 清华大学李国良等:监督学习任务中的表格生成模型

参考标签

声明:本文转载仅出于学习和传播信息所需,并不意味着代表本站观点或证实其内容的真实性;其他网站或个人转载使用须保留本站所注“来源”,并自负相关法律责任;如作者不希望被转载或其他事宜,请及时联系我们!