中国人工智能学会通讯——互联网搜索技术的前沿探索 2 文本内容建模-白红宇

2 文本内容建模

对网络文本内容的建模，重点需要解决文本数据内在复杂关联的语义特征，以及网络文本特征稀疏和语义稀疏并存的难题。针对这些挑战，我们研究了单词、话题和篇章的语义表达方法，提出了一系列多关系约束的文本语义表征模型[6-8]，通过引入稀疏性、显著性等多种约束目标，提升不同层次文本语义表达的质量。代表性成果如下所述。

2.1 联合关系建模的单词表示学习

单词表示是文本建模的基础问题。分布式表达将单词表示为低维连续实数向量，可以很好地捕捉单词间的语义规则性。单词表达学习算法大体都基于同一个假设——分布式假设，即单词的语义由其周围的上下文决定。实际上，单词之间存在着横向（syntagmatic）和纵向（paradigmatic）两种关系（如图2所示）。其中，横向关系主要关注的是词与词之间的共现关系；而纵向关系则关注的是词与词之间的替代关系。现有模型通常只考虑一种关系，如隐式语义索引（latent semantic indexing，LSI）建模了横向关系，而Word2Vec建模了纵向关系。我们提出了两种新的单词表达学习模型[6]，以并列（PDC模型）或层次（HDC模型）的方式同时建模两种共现关系，以得到更好的单词表达。我们发现，这两个模型在单词类比、单词相似度等任务中都取得了最好的（state-of-the-art）结果。

2.2 建模稀疏特性的话题模型

对网络文本的话题建模，有助于提取其中重要的语义信息用于信息检索和内容分析。但是，传统的话题模型（如Latent Dirichlet Allocation）在面对网络文本，特别是大量的短文本数据（如微博、微信等）时，面临着特征稀疏和语义稀疏的双重挑战。特征稀疏是指文本数据非常简短，导致用于建模话题的词共现信息非常少；而语义稀疏是指虽然整个文本数据集包含的话题数量庞大，但是单个文本包含的话题数量极少。传统模型在这两种情况下难以学得有效的话题表达。针对特征稀疏的问题，我们提出了双词话题模型[7](如图3所示），它通过直接建模词语共现模式，以及利用文档集全局信息来解决单个短文本特征稀疏的难题，该模型在主题内聚性、分类准确率和内存开销上均显著优于传统话题模型；针对语义稀疏的问题，我们提出了基于成组约束的编码模型[8]（如图4所示），它通过直接对词进行稀疏编码，利用成组lasso约束有效控制学习得到的主题模型的稀疏性，在获得具有显著语义话题的同时，大幅提高了模型的学习效率和存储效率。