本文共 1030 字,大约阅读时间需要 3 分钟。
对网络文本内容的建模,重点需要解决文本数据内在复杂关联的语义特征,以及网络文本特征稀疏和语义稀疏并存的难题。针对这些挑战,我们研究了单词、话题和篇章的语义表达方法,提出了一系列多关系约束的文本语义表征模型[6-8],通过引入稀疏性、显著性等多种约束目标,提升不同层次文本语义表达的质量。代表性成果如下所述。
单词表示是文本建模的基础问题。分布式表达将单词表示为低维连续实数向量,可以很好地捕捉单词间的语义规则性。单词表达学习算法大体都基于同一个假设——分布式假设,即单词的语义由其周围的上下文决定。实际上,单词之间存在着横向(syntagmatic)和纵向(paradigmatic)两种关系(如图2所示)。其中,横向关系主要关注的是词与词之间的共现关系;而纵向关系则关注的是词与词之间的替代关系。现有模型通常只考虑一种关系,如隐式语义索引(latent semantic indexing,LSI)建模了横向关系,而Word2Vec建模了纵向关系。我们提出了两种新的单词表达学习模型[6],以并列(PDC模型)或层次(HDC模型)的方式同时建模两种共现关系,以得到更好的单词表达。我们发现,这两个模型在单词类比、单词相似度等任务中都取得了最好的(state-of-the-art)结果。
对网络文本的话题建模,有助于提取其中重要的语义信息用于信息检索和内容分析。但是,传统的话题模型(如Latent Dirichlet Allocation)在面对网络文本,特别是大量的短文本数据(如微博、微信等)时,面临着特征稀疏和语义稀疏的双重挑战。特征稀疏是指文本数据非常简短,导致用于建模话题的词共现信息非常少;而语义稀疏是指虽然整个文本数据集包含的话题数量庞大,但是单个文本包含的话题数量极少。传统模型在这两种情况下难以学得有效的话题表达。针对特征稀疏的问题,我们提出了双词话题模型[7](如图3所示),它通过直接建模词语共现模式,以及利用文档集全局信息来解决单个短文本特征稀疏的难题,该模型在主题内聚性、分类准确率和内存开销上均显著优于传统话题模型;针对语义稀疏的问题,我们提出了基于成组约束的编码模型[8](如图4所示),它通过直接对词进行稀疏编码,利用成组lasso约束有效控制学习得到的主题模型的稀疏性,在获得具有显著语义话题的同时,大幅提高了模型的学习效率和存储效率。
转载地址:http://fikzl.baihongyu.com/