对 Twitter 的许多专利进行审查,可以发现一些对排名有影响但并不明显的标准迹象。
Twitter 专利和其他出版物揭示了推文如何在用户时间线推送中得到推广的可能方面。
Twitter 的一些时间线排名因素非常令人惊讶,调整您的推文方式可能会帮助您提高推文的可见性。
基于一些关键专利和其他来源,我在此概述了 Twitter 算法的一些可能的排名因素。
Twitter 时间线
Twitter于 2016 年开始使用基于算法的时间线,当时它不再单纯地按时间顺序推送用户关注的所有账户的推文。这一变化对用户的时间线进行了排名,以便他们能够“优先看到最好的推文”。从那时起,Twitter 一直在尝试各种不同的方式,直到现在。
基于信息流的社交媒体算法并不罕见。Facebook 和其他社交媒体平台也做了同样的事情。
改变时间线推文算法组合的原因非常明显。仅由关注的账户组成的纯个人、按时间顺序排列的时间线非常孤立,因此非常有限——而引入来自直接联系人之外的账户的帖子可能会增加用户在平台上花费的时间,从而增加整体粘性,进而增加服务对广告商和数据合作伙伴的价值。
用户的各种兴趣分类以及与其帐户和推文相关的兴趣主题进一步实现了基于用户人口统计和内容主题的广告定位的潜力。
Twitter 高级用户可能已经对各种推文因素形成了一些直觉,这可以提高算法的可见性。
关于专利的提醒
公司一直在为它们实际上并未在实际服务中使用的发明注册专利。我在 Verizon 工作时,曾亲自为同事和我在工作过程中开发的各种发明撰写了大量专利草案,其中包括我们最终未在生产中使用的发明。
因此,Twitter 拥有提及事物如何运作的想法的专利这一事实根本无法保证事物就是这样运作的。
此外,专利通常包含多种实施例,这些实施例本质上是可以实施一项发明的各种方式——专利试图尽可能广泛地描述一项发明的关键要素,以便主张可能归因于该发明的任何可能用途。
最后,就像谷歌搜索引擎的基础——著名的 PageRank 算法专利一样,当 Twitter 使用其某项专利的实施例时,很有可能他们已经改变并改进了所描述的简单、广泛的发明,并且将继续这样做。
尽管存在所有这些典型的模糊性和不确定性,但我在 Twitter 专利描述中发现了许多非常有趣的概念,其中许多概念很有可能被纳入他们的系统中。
Twitter 和深度学习
在我继续之前还有一个额外的警告涉及 Twitter 的时间线算法如何将深度学习融入其 DNA,再加上不同程度的人类监督,使其成为一个经常(如果不是不断地)自我进化的野兽。
这意味着,Twitter 的内容排名方式可能会发生大的变化,也可能会进行小的渐进式变化。此外,由于所生成的排名模型过于抽象,这种机器学习方法可能会导致 Twitter 自己的人类工程师无法直接准确地知道某些内容为何会显示或排名高于其他内容,这与我在撰写 Google通过机器学习生成的质量排名模型时描述的情况类似。
尽管 Twitter 算法的运行方式非常复杂且精密,但了解可能进入黑匣子的因素仍然可以揭示影响排名的因素。
Twitter 最初的时间线只是由用户自上次访问以来所关注的所有账户发布的所有推文组成,这些推文以倒序方式收集和显示,最新的推文首先显示,而每个较早的推文随着用户向下滚动而逐一显示。
当前的算法仍然主要由相同的按时间倒序排列的推文列表组成,但 Twitter 会进行重新排名,尝试从最近的推文中首先显示最有趣的推文。
在后台,相关性模型会为推文分配一个排名分数,该模型可以预测每条推文对你来说可能有多有趣,并且这个分数值决定了排名顺序。
得分最高的推文会显示在时间线列表中的第一条,其余最新推文则会显示在下方。值得注意的是,现在您的时间线中还会穿插一些您未关注的帐户的推文以及一些广告推文。
Twitter 的连接图
首先,Twitter 时间线最具影响力的方面之一是 Twitter 现在不仅根据您当前的直接联系显示推文,而且本质上还根据您独特的社交图谱显示推文,Twitter 在专利中将其称为“连接图”。
连接图将账户表示为节点,将关系表示为连接一个或多个节点的线(“边”)。关系可能指 Twitter 账户之间的关联。
例如,关注、订阅(比如通过Twitter 的 Super Follows 程序,或者可能是 Twitter宣布的关键字查询订阅功能)、喜欢、标记等——所有这些都会建立关系。
一个人的连接图中的关系可能是单向的(例如,我关注你)或双向的(例如,我们都关注对方)。如果我关注你,但你不关注我,我会更期望看到你的推文和转推出现在我的时间线上,但你不一定期望看到我的。
仅基于连接图,您可能会看到您所关注的人的推文和转推,以及您的联系人喜欢或回复的推文。
Twitter 算法扩展了您可以看到的推文,使其不仅限于您直接互动的帐户。现在,您在时间线上看到的推文还包括其他人发布的与您关注的主题相关的推文、与您之前喜欢的推文在某些方面相似的推文以及基于算法预测您可能喜欢的主题的推文。
即使在您可能收到的这些扩展类型的推文中,算法的排名系统也适用 – 您不会收到所有符合您的主题、喜欢和预测兴趣的推文 – 您收到的是通过 Twitter 的算法策划的列表。
兴趣度排名
Twitter 的许多专利和推文排名算法都包含“兴趣度”的概念。
这很可能是受到 2006 年授予雅虎的一项专利的启发,该专利名为“媒体对象的兴趣度排名”,描述了 Flickr(占主导地位的社交媒体照片共享服务,随后被 Instagram 和 Pinterest 所取代)算法中使用的排名方法。
Flickr 的早期算法与 Twitter 的当代专利有很多相似之处。它使用类似甚至相同的因素来计算兴趣度。这些因素包括:
- 位置信息。
- 内容元数据。
- 年表。
- 用户访问模式。
- 感兴趣的信号(例如标记、评论、收藏)。
人们可以很容易地将 Twitter 的算法描述为采用 Flickr 兴趣度算法,扩展其中涉及的一些因素,通过更复杂的机器学习过程进行计算,基于自然语言处理 (NLP) 解释内容,并结合许多其他变体,以便能够同时向大量用户近乎实时地呈现内容。
Twitter 排名和垃圾邮件
关注 Twitter 用于检测垃圾邮件、垃圾用户帐户以及降级或抑制垃圾推文的方法也是很有趣的。
对于虚假信息、其他违反政策的内容和骚扰的监管同样很严厉,但这并不一定与排名评估相一致。
一些垃圾邮件检测专利很有意思,因为我看到用户经常无意间违反 Twitter 的垃圾邮件抑制流程,而且人们可能会做很多事情,导致他们无法推广和与 Twitter 受众互动。Twitter 不得不建立积极的监督流程来监督和删除垃圾邮件,即使是最知名的用户也会不时违反 这些流程。
因此,了解 Twitter 的垃圾信息因素非常重要,因为它们可能会导致推文的趣味性降低,并且相关性分数的损失会降低推文的可见性和分发能力。
Twitter 排名因素
那么,Twitter 的专利中提到的评估“兴趣”的因素是什么,哪些因素会影响 Twitter 对推文的排名评分?
推文发布的最近程度
越近的推文通常越受欢迎。除了特定关键词和其他类型的搜索外,大多数推文都来自最近几个小时。一些“以防你错过”的推文也可能包括在内,这些推文似乎主要出现在最近一两天内。
图片或视频
总体而言,谷歌和其他平台都表示用户倾向于更喜欢图像和视频媒体,因此包含其中任一内容的推文都可能获得更高的分数。
Twitter 特别引用了图像和视频卡,指的是已经实施Twitter Cards 的网站,当推文包含带有卡片标记的网页链接时,Twitter 可以轻松显示更丰富的预览片段。
带有显示图片和视频的链接的推文通常更能吸引用户,但链接到带有卡片标记的页面以显示卡片内容的推文可能具有额外的优势
与推文的互动
Twitter 引用了“点赞”和“转发”,但与推文相关的其他指标也可能适用于此。互动包括:
- 喜欢
- 转推
- 点击推文中可能存在的链接
- 点击推文中的主题标签
- 点击推文中提到的 Twitter 账户
- 详细信息扩展 – 单击即可查看有关推文的详细信息,例如查看谁喜欢它或转发了它。
- 新关注者——有多少人将鼠标悬停在用户名上然后点击关注该帐户。
- 个人资料访问量——有多少人点击了头像或用户名来访问发帖人的个人资料。
- 分享——通过分享按钮分享推文的次数。
- 推文回复
印象
虽然大多数展示次数来自推文在时间线上的展示,但有些展示次数是通过嵌入网页分享推文而获得的。这些展示次数也可能会影响推文的趣味性得分。
相互作用的可能性
Twitter 的一项专利描述了如何计算一条推文的分数,该分数表示社交消息系统中该推文作者的关注者与该消息互动的可能性,该分数基于计算出的互动水平偏差,该偏差介于作者关注者的观察到的互动水平与关注者的预期互动水平之间。
推文长度
一种分类是推文中包含的文本的长度,可以将其分类为数值(例如 103 个字符),也可以将其指定为几个类别之一(例如短、中或长)。
根据推文所涉及的主题,它可能会被评估为更有趣或更无趣——对于某些主题,简短的推文可能更有益,而对于其他一些主题,中长篇幅的推文可能会使推文更有趣。
先前作者的互动
与推文作者的过去互动将增加人们看到同一作者的其他推文的可能性(以及在时间线上的排名分数)。
这些社交图谱互动指标可以包括根据关系起源进行的评分。
因此,即使没有关注该帐户,过去回复、喜欢或转发作者推文的历史也可以增加看到其最新推文的可能性。
最近与推文作者的互动也可能是影响这一情况的因素,因此,如果您很长时间没有与他们的某条推文互动,那么您对其新推文的潜在可见度可能会降低。
在算法中,“作者”和“账户”本质上是同一个意思,因此来自公司账户的推文与来自个人的推文处理方式相同。
作者可信度评级
该分数可以通过作者与其他用户的关系和互动计算得出。
专利中给出的例子是,拥有多个高知名度或多产账户的作者将拥有很高的可信度分数。
虽然引用的评级值之一是“低”、“中”和“高”,但该专利还建议将评级值分为 1 到 10 的等级,并且可以包含定性和/或定量因素。
我猜 1 到 10 这样的范围更有可能。一些垃圾邮件评估值似乎可以用来从作者可信度评级中减去。本文后半部分将详细介绍潜在的垃圾邮件评估因素。
作者相关性
被评估为与特定主题更相关的作者可能具有更高的作者相关性值。此外,在提及作者的推文中提及作者可能会使其更具相关性。
该专利还谈到了将作者与主题联系起来,因此,如果作者经常发布涉及特定主题的推文,并且参与率较高,那么当他们的推文涉及该主题时,可能会被认为具有更高的相关性。
作者指标
推文可以根据作者的属性进行分类。这些指标可能会影响作者消息的相对趣味性。此类作者指标包括:
- 作者所在地(如城市或国家)
- 年龄(根据账户详情中提供的出生日期)
- 关注者数量
- 作者关注的账户数量
- 关注者数量与关注账户的比率,关注者数量与关注账户数量之比越大,表示与原始关注者数量一样,人气也越高。比率越接近 1,则表明作者遵循了互惠互利的哲学,因此推断人气的可能性越小,给人一种虚假人气的感觉。
- 作者在每个时间段(例如:每天或每周)发布的推文数量。
- 账户年限(例如,账户开立后的月数)——最近开设的账户的权重要低得多。
- 相信。
主题
推文会根据其涉及的主题进行分类。对推文进行分类需要使用一些非常复杂的算法。
Twitter 用户通常会选择与他们的帐户关联的主题,并且您显然会看到所选主题的热门推文。但是,Twitter 还会根据推文中找到的关键字自动创建主题。
根据您与推文和您关注的帐户的互动,Twitter 还会预测您可能感兴趣的主题,并向您显示一些来自这些主题的推文,尽管您并未正式订阅这些主题。
短语分类
Twitter 的系统非常复杂,并且允许将自定义排名模型应用于特定主题和特定短语的推文。
Twitter 拥有大量员工致力于开发特定“客户旅程”的模型,这似乎与专利描述相吻合,即编辑如何为主题帖子以及帖子中的关键词或短语设置规则。
例如,包含有关“现在招聘”或“将在电视上播出”等文字的帖子可能会被认为对于某个主题而言很无聊,而“新鲜”、“特价”或“仅限今天”等短语可能会被赋予更大的权重,因为可以预测它们会更有趣。
这可能很难满足,因为存在大量潜在主题和可应用的自定义权重。
Twitter 最近发布了一则招聘信息,招聘“客户旅程”产品设计师,该职位描述了以下优势:
“无论您是在寻找 Ariana Grande 粉丝艺术、#herpetology 还是极限单轮车,Twitter 上都有。我们的团队负责帮助新成员浏览 Twitter 上发生的各种公开对话,并快速找到归属感……”
“从数据和定性研究中收集见解,提出假设,用原型勾勒解决方案,并与我们的研究团队一起在实验中测试想法。”
“记录详细的交互模型和 UI 规范。”
“具有机器学习、丰富分类法和/或兴趣图表的设计经验。”
这个描述听起来与 Twitter 的“确定社交内容相关性的系统和方法”专利中描述的非常相似,其中:
“编辑可能会制定规则,将某些短语归类为更有趣或更不有趣……”
“…编辑可能会认为某些短语和属性在所有内容中都很有趣,而不管内容作者属于哪个类别。例如,短语‘on sale’或‘event’可能在所有情况下都很有趣,因此可以应用正权重。”
一项专利描述了如何为检测到包含商业语言的推文分配比不包含商业语言的推文更低的分数。(相反,如果用户进行搜索时表示有兴趣购买某物,则可以翻转这些权重,这样就可以为包含商业语言的推文分配更高的权重。)
时间
一天中的时间可用于影响相关性。例如,可以实施一条规则,为上午 8:00 至 10:00 之间提及“咖啡”的推文和/或咖啡店发布的推文赋予更多权重。
位置
专利描述了推文中的“地点引用”如何为有关某个地点的推文和/或与地点引用相关的帐户带来比仅提及该地点的其他帐户更大的权重。此外,用户设备的位置与与内容项(推文文本、图像、视频和/或作者)相关的位置之间的地理接近性可以增加或减少潜在的相关性。
语言
可以对推文的语言进行分类(例如英语、法语等)。
可以使用各种自动语言评估工具自动确定语言。
某种语言的推文可能会引起该语言使用者的更多兴趣,而其他语言使用者的兴趣则较小。
回复推文
推文可以根据其是否是对之前推文的回复进行分类。对之前推文的回复可能被认为不如涉及新主题的推文有趣。
在一项专利描述中,推文的主题可以决定该推文是否被指定显示给另一个帐户或包含在其他帐户的消息流中。
当您查看时间线时,有些情况下推文的部分回复也会与主推文一起显示 – 例如回复推文由您关注的帐户发布。在大多数情况下,只有点击查看主题或点击推文查看所有回复时,才能看到回复推文。
“蒙福”的记载
这是一个奇怪的概念,我相信它可能不会投入生产。
Twitter 将受祝福的账户描述为在特定对话图中被识别,其中对话中的原始作者将被视为“受祝福的”,并且在对原始帖子的后续回复中,任何随后由受祝福的账户回复的回复也将成为“受祝福的”。
对话中由 Blessed Accounts 发布的推文将获得更高的相关性分数。
网站简介
Twitter 专利中没有提到这一点,但考虑到他们提到的所有其他不容忽视的因素,这一点太有意义了。
许多主要内容网站频繁地在 Twitter 上分享其链接,并且 Twitter 可以轻松创建网站资料声誉/受欢迎程度分数,这也可以作为发布网站内容链接时推文排名的一个因素。
新闻网站、信息资源、娱乐网站——所有这些网站都可以从评估 Twitter 帐户的相同因素中得出分数。来自更受欢迎和参与度更高的网站的推文可以比相对不知名和互动较少的网站获得更高的权重。
Twitter 验证
是的,如果您怀疑用户名旁边的蓝色徽章传达了优惠待遇,那么 Twitter 的一项专利中有具体的措辞可以证实他们至少考虑过这一点。
由于已验证帐户通常已关联了各种其他受欢迎程度指标,因此尚不清楚此因素是否正在使用。已验证帐户发布的推文可能会获得更高的相关性分数,从而使其比未验证帐户的推文出现得更多。
以下是专利描述:
“在本发明的一个或多个实施例中,对话模块 (120) 包括应用相关性过滤器来增加对话图中的一个或多个创作帐户的相关性分数的功能,这些创作帐户在经过验证的帐户白名单中被标识。例如,经过验证的帐户白名单可以是容易被冒充的高调帐户列表。在这个例子中,名人和商业帐户将由消息传递平台 (100) 验证,以便通知消息传递平台 (100) 的用户这些帐户是真实的。在本发明的一个或多个实施例中,对话模块 (120) 被配置为将经过验证的创作帐户的相关性分数增加预定义的量/百分比。”
有趋势
这是一个二进制标志,表示该推文是否被识别为包含消息广播时流行的话题。
应用程序检测性别、性取向和兴趣
Twitter 可能能够使用账户持有人的移动设备信息来推断账户持有人的性别,或者推断对新闻、体育、重量训练等主题的兴趣。
一些移动设备会提供有关手机上加载的其他应用程序的信息,以诊断潜在的应用程序编程冲突。因此,一些与您的性别、性取向和主题兴趣相匹配的推文可能会根据您手机应用程序的推断获得更多的趣味性点数。(参见: https: //screenrant.com/android-apps-collecting-app-data/)
还有更多排名因素
Twitter 表示:
“我们考虑的特征及其各种相互作用的列表不断增长,为我们的模型提供了更加细微的行为模式。”
因此,这个因素列表很可能没有充分体现出他们可能使用的因素,而且他们的列表可能还在不断扩大。
还可以想象一下,上述某些因素的自定义组合可以用作与特定主题相关的推文的模型,从而通过机器学习方法为排名带来巨大的潜在复杂性。(同样,用于创建针对特定查询或主题的排名权重模型的机器学习与 Google 可能使用的方法非常相似。)
Twitter 表示,每次用户访问 Twitter 时,以及每次用户刷新时间线时,都会对推文进行评分。考虑到其中涉及的一些复杂因素,这个速度非常快!
Twitter 使用 A/B 测试来衡量排名因素的权重和其他算法变更,并根据参与度和查看/与推文互动的时间来判断提议的变更是否是一种改进。这用于训练排名模型。
机器学习参与这一过程表明,排名模型可以针对许多特定场景生成,并可能针对特定主题和用户类型。一旦开发完成,该模型就可以进行测试,如果它提高了参与度,就可以迅速推广给所有用户。
营销人员如何使用这些信息
从潜在排名因素列表中可以得出很多推论,营销人员可以使用这些推论来改进他们的推文策略。
仅发布有关其产品和公司促销信息的 Twitter 帐户可能不会像与其社区互动更多的帐户那样具有高知名度,因为互动会产生更多的排名信号和潜在利益。
社交媒体专家长期以来一直推荐一种混合各种帖子类型的方法,而不是仅仅发布自我参照的推广——这些策略包括“三分法则”、“80/20 法则”等。
Twitter 排名因素可能支持这些理论,因为引起与大量 Twitter 用户的更多互动更有可能提高帐户的知名度。
例如,拥有众多粉丝的大型公司账户可以发布有趣的民意调查,以获得有关为其产品添加哪些功能的建议。用户发布的投票和评论将使受访者更有可能看到该公司的下一篇帖子,因为最近的互动,而下一篇帖子可能是宣传或宣布新事物。而且,受访者的粉丝也可能更有可能看到该公司的下一篇帖子,因为 Twitter 似乎考虑到具有相似兴趣的用户可能更愿意看到符合他们兴趣的内容。
此外,这些因素还表明了许多可能有益的方法。
当发布推文来推广产品或发布公告时,结合某些内容来引起关注者的回应可以轻松扩大平台的曝光率,因为每个回应者对您的推文的回复可能会增加其直接关注者看到原始推文和其联系人的回复推文的几率。
利用 Twitter 算法的社交图谱方面可以帮助增加您的推文的趣味性,并可以增加您的推文对其他用户的曝光率。
垃圾邮件因素可能会对推文排名产生负面影响
垃圾邮件检测算法可能会对推文排名能力产生负面影响。
首先,Twitter 会非常迅速地暂停那些公然发送垃圾邮件的账户,在明显且明确的情况下,人们可以预料到该账户会被突然终止,导致其所有推文从对话图和时间线上消失,并且导致账户资料不再可供查看。
在其他情况下,如果无法明确某个帐户是否在发送垃圾邮件,则可以通过应用负排名权重分数将该帐户的推文降级,或者锁定或暂停推文,直到帐户持有人采取纠正措施或验证其身份。
例如,一个长期发布良好推文的 Twitter 帐户可能会突然开始发布伟哥广告或恶意软件链接,例如当一个老帐户被黑客入侵时。Twitter 可能会暂时暂停该帐户,直到采取纠正措施,例如通过 CAPTCHA 验证,或通过手机接收验证码并更改密码。另一个例子可能是新用户在短时间内意外超过某些阈值,即关注了太多帐户,或者发帖过于频繁。
Twitter 采用多种方法来检测垃圾邮件并将其排除在外,以便用户减少看到它们。
大部分自动检测依赖于检测账户资料特征、账户推文行为以及账户推文中的内容的组合。
Twitter 开发了大量特征性垃圾邮件“指纹”,以便快速进行模式检测。Twitter 的一项专利描述了如何:
“通过比较已识别的垃圾账户的特征并构建可与其他疑似垃圾账户进行比较的‘相似度图’来确定垃圾账户。”
被识别为可能包含垃圾信息的推文将会被标记为“是”或“否”之类的二进制值,然后被标记的推文就会从时间线中过滤掉。
同样,也有可能存在一个垃圾内容等级,该等级由多个因素计算得出,一旦推文或帐户超过阈值,就会被降级。我认为值得提及这些,因为 Twitter 用户可能不了解他们使用该平台的含义。例如,发布一条过于激进的推文可能会在一段时间内对帐户的后续推文产生负面影响。反复的尖锐行为可能会导致更糟糕的结果,例如帐户被彻底删除,并且没有机会恢复。
我将在此添加一些 Twitter 专利或博客文章中未明确提及的因素,因为出于显而易见的原因,Twitter 不会透露所有垃圾邮件识别因素。但是,一些垃圾邮件和垃圾邮件帐户特征似乎非常明显,因此我将从个人观察或知名研究来源添加一些特征,以便更广泛地了解哪些因素会导致垃圾邮件降级。
垃圾邮件因素和其他负面排名因素
- 包含商业信息的推文,如果发布时没有关注者/被关注者关系,或者只有单向关系(推文作者关注了它提到的帐户,但接收者帐户没有关注作者),但之前没有互动,就会开始显得可疑。如果多次使用类似或相同的文本进行此类操作,很快就会被视为垃圾信息,尤其是对于较新的帐户。
- 账户年龄 – 年龄表明账户是最近才建立的。(SparkToro 最近对 Twitter 垃圾邮件的研究表明账户年龄为 90 天或更短。)
- 帐户 NSFW 标记——该帐户带有标记,表明其被认定链接到列入潜在攻击性网站黑名单的网站(如包含色情、露骨材料、血腥等的网站)。
- 攻击性标记——该推文被标识为包含攻击性术语黑名单中的一个或多个术语。
- 潜在虚假账户 – 该账户涉嫌冒充真实个人或组织,且尚未得到验证。
- 账号发文频繁侵犯版权
- 黑名单——一项专利建议使用黑名单,该黑名单将应用相关性过滤器来降低账户的相关性分数,包括但不限于:垃圾邮件发送者、潜在的虚假账户、可能或曾经发布成人内容的账户、可能或曾经发布非法内容的账户、被其他用户标记的账户、和/或满足任何其他标记账户标准的账户。
- 帐户机器人标记 – 确定广播推文的帐户已被识别为可能由软件应用程序而不是人类操作。这个特定的标准有许多含义,特别是对于那些使用调度应用程序发布推文或其他生成自动推文的软件的帐户。例如,通过 Hootsuite 或 Sprout Social 等应用程序安排每个时间段发布太多推文可能会导致用户帐户被暂停,或者通过 Twitter API 访问应用程序被暂停。这可能特别令人恼火,因为如果每个时间段手动发布相同数量的推文,帐户就不会遇到问题。Facebook 和 Twitter 的营销人员长期以来一直认为,各自的算法可能会降低通过软件发布的帖子与手动发布的帖子的可见性,而这个因素表明 Twitter 很可能就是这种情况。
- 包含攻击性语言的推文可能会被允许降低其趣味性得分。
- 通过 Twitter 的 API(例如通过依赖 Twitter API 的社交媒体管理工具)发布的推文通常会受到更严格的审查,正如 Twitter 所描述的那样,“当内容共享服务向开发人员开放其应用程序编程接口 (API) 时,问题可能会加剧。”我的观察是,仅依赖第三方发布应用程序和 API 的帐户(尤其是较新的帐户)可能会发现其分发能力有些不足。较新的帐户应该在最初一段时间内通过人工使用来建立,然后再更多地依赖安排和发布应用程序,即使是已建立的帐户,如果将一些人工手动发布与其安排/自动/第三方应用程序发布的帖子相结合,也可能会看到更大的分发潜力。
- 长期处于休眠状态的帐户 – 长时间未发布帖子的帐户突然恢复活力,但不会立即获得原本应有的排名能力。原因是垃圾邮件发送者有时可能会成功劫持不活跃的帐户,以破坏之前真实的帐户,使其发布垃圾邮件。
- 与垃圾邮件发送者或其他违反政策者关联的设备配置文件——从本质上讲,专利表明 Twitter 正在使用浏览器指纹识别和设备指纹识别来检测垃圾邮件发送者和其他不良行为者。指纹识别使技术服务能够生成包含 IP 地址、设备 ID、用户代理、浏览器插件、设备平台型号和版本以及应用程序下载等数据组合的配置文件,以创建独特的“指纹”来识别特定设备。从中得出的一个主要结论是,如果您在手机或浏览器上使用两个或多个 Twitter 帐户,如果您通过其中一个帐户进行恶意推文,则很有可能会损害您在同一设备上运行的更“专业”帐户的排名。在最坏的情况下,它甚至可能会让您因在一个帐户上所做的操作而被锁定在两个帐户之外。这对公司和机构的影响非常严重,因为这些公司和机构的员工会进行专业推文,而他们也可能打开设备发布个人推文。可能引发问题的推文类型包括:垃圾邮件、骚扰、虚假或误导性信息、威胁、反复侵犯版权、发布恶意软件链接等等。虽然我认为个人帐户也可能导致同一设备上的专业帐户被暂停,但我大胆猜测,它可能只会暂停该特定设备持有者的专业帐户,随后可以通过其他设备访问专业帐户。
- 缺乏其他应用程序使用数据——Twitter 很可能能够从移动设备接收数据,这些数据表明设备操作员是否下载或最近在设备上使用了 Twitter 应用程序以外的其他应用程序。(请参阅:https: //screenrant.com/android-apps-collecting-app-data/)垃圾账户的一个常见特征是它们不反映其他应用程序的使用情况,因为该设备主要用于向 Twitter 发送垃圾信息,并没有表现出人类的使用特征。或者,该账户托管在网络服务器上,而不是移动设备上,并试图模仿人类用户的使用情况。
- 阻止——其他用户多次阻止的帐户或在特定时间段内被阻止的帐户可能表明是垃圾帐户。
- 推文频率——如果在给定时间段内从同一帐户发送的推文数量超过阈值,则该帐户可能会被标记为垃圾邮件并被拒绝发送后续推文。这不是一个硬性规定,或者在实际应用中会有所不同,因为有些规模较大的公司帐户有许多员工负责向大量客户群发布推文,例如美国航空公司的情况。有些帐户被添加到白名单中,以避免由于在短时间内发布大量推文而被自动暂停。
- 大量使用相同主题标签或提及相同 @用户名的推文 – 显然,大量推文是有风险的,在短时间内增加推文量将使您的帐户越来越接近被视为垃圾邮件发送者的帐户。因此,试图淹没特定主题标签的时间线将被视为令人讨厌且可能属于垃圾邮件。同样,坚持通过反复提及某个帐户来引起其注意将开始显得令人讨厌、不必要、辱骂性骚扰和/或垃圾邮件。
- CAPTCHA – 如果怀疑是垃圾邮件,该服务可能会阻止推文的撰写或发布,要求用户帐户首先通过 CAPTCHA 挑战以确认该帐户是由人类操作的。(我的代理机构在代表客户设置新帐户时遇到过这种情况。当用于设置帐户的计算机最近用于设置其他帐户,并且帐户是使用免费电子邮件服务帐户而不是通过手机设置的,则更有可能发生这种情况。Twitter 还经常要求发送手机短信以确认电话号码,然后才能解除帐户阻止。)
- 账户注册反映异常 – 新账户在 Twitter 系统中受到更严格的审查和怀疑,而批评新账户的一种方法是基于与初始账户注册相关的数据,因为垃圾邮件发送者已经使用自动化技术尝试创建大量新账户供机器人使用。Twitter 使用情况可以反映真实的账户设置或虚假的账户设置,因此 Twitter 分析了许多虚假账户,并开发了指纹类型的模式来检测可能的垃圾邮件/机器人账户。例如,当人类用户在浏览器窗口中访问 Twitter 的账户注册页面以提交注册信息时,浏览器将快速调用 Twitter 的服务器以获取用于在浏览器中编写页面的数十个元素 – 例如 Javascript、层叠样式表和图像。机器人更有可能在不首先调用所有注册页面元素的情况下提交注册信息。因此,注册提交之前的图像请求和其他文件类型请求可用于确定新注册是否反映了表明发生了机器人生成的注册的异常。因此,注册时具有异常特征的账户的推文可能会被扣除一些相关性。
- 批量关注已验证帐户——垃圾帐户通常会批量关注知名和/或已验证帐户,以便在社交图中立足。以前,在为真实人类用户设置 Twitter 帐户时,我们曾经在注册过程中关注 Twitter 建议的少数已验证帐户。奇怪的是,仅此行为就会导致帐户被暂停,直到通过 CAPTCHA 或其他验证。因此,这里的要点是,如果您要设置新帐户,请不要在注册过程中关注向您建议的所有帐户。绝对不要使用人们多年前经常使用的自动关注服务,否则您的帐户可能会被降级或暂停。
- 关注者较少 – 垃圾账户通常较新,而且由于它们通常不会以对社区有益的方式宣传自己,因此很少能吸引到关注者。因此,关注者较少的账户可以与其他因素结合起来,成为识别潜在垃圾用户的因素之一。
- 回复推文中的不相关标签——推文中的标签与原始推文的主题无关。
- 包含附属链接的推文——不言自明。
- 短时间内频繁请求与用户交友
- 在多个帐户间重新发布重复内容 – 尤其是在时间接近时发布的重复内容。
- 仅发布 URL 推文的帐户
- 发布与热门话题/标签无关或误导性的内容
- 错误或虚构的个人资料位置——例如,个人资料位置显示“纽约州波基普西”,但用户的 IP 是中国,会产生明显的不匹配,表明存在潜在的诈骗者或垃圾邮件发送者帐户。
- 账户 IP 地址与滥用者账户范围相匹配,或与滥用行为较多的国家/地区相匹配 – 例如俄罗斯。同样,众所周知的代理 IP 地址很容易被 Twitter 检测到,并被标记为可疑。
- 默认个人资料图片——人类用户更有可能设置自定义帐户图片(“头像”),因此不设置头像并继续使用 Twitter 的默认个人资料图片是一个危险信号。
- 重复的个人资料图片——多个帐户中重复的个人资料图片是一个危险信号。
- 默认封面图片——未能在个人资料的标题中设置自定义封面图片并不像继续使用默认个人资料图片那样可疑,但使用不同的标题图片更能代表真实帐户。
- 个人资料中的非解析 URL – SparkToro 建议这样做,并且它确实与许多垃圾邮件帐户一致。有时这是因为垃圾邮件发送者更有可能设置可能被暂停的网站,或旨在创建也可能被暂停的特洛伊木马网站的域名抢注。
- 个人资料描述匹配垃圾邮件发送者的关键字/模式
- 显示符合垃圾邮件模式的用户名 – 用户名是无意义的字母数字序列,或专有名称后跟多个数字,这反映出垃圾邮件发送者缺乏想象力,他们可能试图批量注册数百个帐户,每个名称都是随机生成的,或者每个用户名都是通过按顺序添加下一个数字生成的。例如:John32168762 是大多数人都不喜欢的用户名。
- 模式 – 垃圾邮件发送者使用的个人资料和推文模式通常会暴露垃圾邮件发送者的帐户。例如,如果许多具有默认 Twitter 个人资料图片和类似模式的显示用户名的帐户都发推文链接到特定页面或域,那么这些帐户都变得非常容易被识别和排除。
简单地列出垃圾邮件识别因素严重低估了 Twitter 用于垃圾邮件识别和垃圾邮件管理的复杂系统。
多年来,硅谷各大科技公司一直在与垃圾邮件作斗争,这被描述为一种军备竞赛。
科技公司会创建一种方法来检测垃圾邮件,然后垃圾邮件发送者会改进他们的流程来逃避检测,然后这个循环不断重复。
综上所述
Twitter 的专利表明,它在运用人工智能组件、社交图谱分析以及结合同步和异步处理的方法以便极其快速地传递内容方面具有极大的复杂性。
AI组件包括:
- 神经网络。
- 自然语言处理。
- 消音符计算。
- 马尔可夫建模。
- 逻辑回归。
- 决策树分析。
- 随机森林分析。
- 监督和无监督的机器学习。
由于排名确定可以基于根据特定短语、主题和兴趣概况的独特、抽象的机器学习模型,因此对一个兴趣领域有效的方法可能对其他兴趣领域略有不同。
即便如此,我认为,查看 Twitter 专利中描述的众多潜在排名因素,对于想要在 Twitter 平台上获得更多曝光的营销人员来说还是很有用的。
作者披露
今年,我在一家公司起诉 Twitter 不公平贸易行为的仲裁中担任专家证人,该案最近得到了友好解决。
作为专家证人,我经常了解秘密信息,包括大公司内部员工电子邮件等私人通信,以及其他可能包含数据、报告、演示文稿、员工证词和其他信息的关键文件。
在这种情况下,我受法律保护令和协议的约束,不得泄露为充分了解我被要求发表意见的事项而向我透露的信息,这次也不例外。
我没有在本文中披露我最近解决的案件中保护令所涵盖的任何信息。
通过背景信息、对 Twitter 公共使用情况的观察、基于其各种算法描述的逻辑预测以及阅读 Twitter 的专利和在我所处理的案件解决后的其他公开披露,我对 Twitter 功能的某些方面有了更深入的理解和洞察,包括以下来源:
- 在对话图中识别相关信息
- 提供消息平台广播的内容
- 在实时消息平台上推广内容
- 用于确定社交内容相关性的系统和方法
- 用于建立或维护个性化可信社交网络的系统和方法
- 显示对话图的相关信息
- 搜索基础设施
- 可见性过滤
- 在消息网络中确定消息的优先级
- 应用图表生成器
- 在 Twitter 时间线上大规模使用深度学习
- 多层反垃圾邮件系统和方法
- 检测与社交媒体平台的脚本或其他异常交互
- Twitter 如何打击垃圾邮件和恶意自动化
- 回顾暂停帐户:对 Twitter 垃圾邮件的分析
- Twitter 分析:19.42% 的活跃账户是虚假或垃圾信息