什么是停用词,它们如何影响有趣文本?如何清除文本中的冗余词汇?让我们来探讨一下。
什么是停用词
停用词是一些不提供任何信息的单词或短语。它们可以从文本中删除,而整体语义负载不会改变。停用词包括代词、小品词和某些动词。
停用词的影响
停用词影响文本的信息性。例如,在内容营销中,建议尽可能少使用停用词,以便文本更容易被理解。文章中的水分(或噪音)越多,阅读起来就越困难。完全消除停用词是不可能的,但可以减少其冗余性。
大量的停用词也会影响材料在搜索结果中的出现。水分越多,文章排名越低,因此在搜索结果中的位置也不会靠前。
请注意:如果您必须在搜索查询中包括停用词,请使用特殊符号。例如“+购买 +电话 +在 +莫斯科”。如果查询中单词或短语前没有“+”操作符,搜索引擎可能会用其他词替换它。那么在查询“购买 +电话在莫斯科”时,您可能看到“出售”、“在卡卢加”、“便宜”等答案。
停用词简要清单

摄影师:DS stories: https://www.pexels.com/ru-ru/photo/6005253/
尽量在文本中少用停用词。通常停用词包括:
- 小品词、连词、介词(为了、结果、然后、以至于等);
- 代词(我、我们、他、哪个、所有、这样等);
- 感叹词(哎、哦、对不起等);
- 引导词(顺便说,如说、总之、因此、幸运的是等);
- 套话(积极发展、个性化方法、赢得信任、最佳传统、高速等);
- 时间寄生词(当今、现在、当下、当前等);
- 情态词(可能、应该、需要等);
- 不确定词(某种、某物、某处、大约、近似等);
- 评价词(豪华、昂贵、极好的、便宜等);
- 增强词(非常、强烈、最、最有);
- 名词化动词(开始实施、进行活动等);
- 俚语(修复、放松、迷恋、尴尬等);
- 复杂语句结构,使读者难以理解。
每个搜索引擎都有包含数千个停用词的列表。列表不断补充和更改,完全消除文章中的所有停用词是不可能的,也不需要这样做:没有它们,文本会显得干巴巴且不完整。最好清理掉垃圾,保留适当数量的停用词。还可以向Postmypost AI提交请求,它会撰写出色的无冗余文本。
如何检查文本中的停用词
语义分析服务可以帮助确定文章的水分(或水样性)。它们在文本中找到停用词,数数,并标记出来,还能确定文本的其他参数。
Text.ru
Text.ru线上识别恶心和水分,找到拼写错误,进行SEO检查并分析文本的独特性。
Glvrd.ru
Glvrd.ru标记停用词、官方用语、套话、概述并解释为什么不应使用它们。评分从0到10分。
Advego.com
Advego.com进行语义分析,确定字符数量、水分、垃圾度和恶心。
文本的可接受水分

摄影师:Pixabay: https://www.pexels.com/ru-ru/photo/261857/
文本的水分通常以百分比表示。不同的服务有自己可接受的指标。例如,Text.ru认为15%以内的水分为正常,15-30%为过高噪声指标。
Advego认为63%的水分正常,而64-75%为过高。
对于不同的写作风格,文本的水分也可能不同。例如,新闻应尽量干燥,而文学文本可以添加一些“水分”。