关于文本摘要，知道这些足以!

生活百科5个月前发布星尘导航

62 0 0

说到文章摘要大家并不陌生，就是给长文本在不丢失任何重要信息的情况下做个精确的总结。具体有哪些方法呢？可以看以下总结。

文章摘要

基于抽取的文章摘要: 从长文本中提取代表最重要要点的单词或句子的子集，并结合起来形成摘要，结果在语法上可能不准确。

基于概要的文章摘要：使用深度学习技术（主要在seq-to-seq模型中）像人类一样解释和缩短原始文档。由于抽象机器学习算法可以生成代表源文本中最重要信息的新短语和句子，因此它们可以帮助克服基于抽取技术的语法错误。

虽然抽象在文本摘要方面表现得更好，但开发其算法需要复杂的深度学习技术和复杂的语言建模。因此，抽取式文本摘要方法仍然广泛流行。

word

清除文档中的停用词、数字、标点符号和其他特殊字符。

把文档拆分成句子。

计算每个单词在文档中出现的次数，并将其除以文档中出现频率最高的单词的出现次数，以获得单词频率。

将出现在同一句子中的所有单词的词频相加，并获得每个句子的分数。

句子的分数高于某个阈值，并将其用作文章摘要。

-based with

把文档分成几个句子。

算出每个句子的句向量。

构建一个图，其中节点是句子，边权重是句子嵌入的相似性（如余弦相似性）。

在图上运行算法，以获得每个句子的分数。分数高表示节点对网络很重要。

保留分数高于某个阈值的句子，将其用作文档摘要。

-based with and

解析文档中的共同引用。

把文档拆分成句子。

获得每个句子的句向量（例如使用BERT）。

对句子嵌入使用K-Means，得到K个簇。K是总结中的句子数。

找到最接近每个聚类中心的句子，并使用它们来撰写摘要。

-based with seq-to-seq

获取一个包含文档和摘要的数据集。

为文本摘要选择合适的，例如ROUGE。

训练一个seq-to-seq模型（如），以监督方式从文本中生成摘要。

文章版权归作者所有，未经允许请勿转载。

仿生学会更深入

生活百科 # 仿生学 # 创新 # 微观

5个月前

0590

大湾区内民生经济融合发展迎利好！一文读懂跨境支付通

生活百科 # 人民币汇款 # 便捷汇款 # 大湾区内民生经济

5个月前

01030

汾阳：智慧环保打造“空天地一体化”环境感知物联网

生活百科 # 大数据分析 # 智慧环保 # 污染联防联控

5个月前

0580

科学家提出连续多视角任务学习让机器人“更快”认知不同世界

生活百科 # 多视角学习 # 机器人 # 深度学习

5个月前

0600

暂无评论

暂无评论...