操操操

一文解析今日头条引流获客方法精髓,文末附福利!

2020-03-29
10分钟阅读时长

今日头条成长成为国内最大的资讯分发平台,构建这么大一个体系,并且要让用户对推荐信息满意,今日头条是如何解决这些问题的呢?

你是否注意过这样的现象,你在京东或者是淘宝搜索了相应产品以后,打开uc浏览器,在你键入某个可能跟你淘宝京东搜索不相关的关键词的时候,点开界面划到底部,都会看到与你淘宝京东键入关键词类似的产品图片加标题形式的推荐?

20200327233650.png

Tiger一词英文译为“火绒”,是一款国外流行的陌生人交友软件

20200327233840.png

探探是国内一款类似于tiger的陌生人交友软件

你是否留意过,如果你玩过探探,如果对你右滑的人很多,那么,出现在你可划列表中异性头像起码都看起来很漂亮帅气,而如果你被右滑的次数很少,那么,推给你可供右滑的异性质量也都不怎么样?

你是否知晓2012年成立的今日头条,14年才勉强做到了DAU几百万,可是短短两年以后,2016年DAU已经接近一亿,如今更是被称为最有潜力匹敌阿里腾讯的头部公司?

如果你对这些现象都有过留意,那么,可想而知,这些现象的出现不会空穴来风,必然有着它内在的运行规律,这个内在规律就是它们都有自己的分发算法。

因为我最近在做youtube相关的视频,我视频涉足的领域就包括怎么把自己youtube频道的排名提高,获得更多曝光量,获取更多收益。内部课上,大家渐渐流量排名都有了起色,但是由于都是通过翻*出去的,所以广告计划要开通,需要国外有个能接收pin码的地址,这就难为坏了很多原创视频的同学,所以很多人觉得油管虽然单次点击广告的收益更大,但是有些因素的确是不可控的,问我对于国内这些平台流量的获取有没有什么课程,课后我做了调研,今天把阶断性成果公布出来供大家学习。

我研究的是今日头条,所以,我们来说今日头条。 20200327235642.png

今日头条的推荐逻辑

用户对今日头条推荐的内容满不满意,直接关系到品牌形象,用户的流失率,更多的收益,显然,能把用户真正想看的东西推荐给头条用户,同时又令用户满意,这是头条区隔于其他资讯平台的生命线(当然海量三俗信息这点我们就不提了,相比我还是更喜欢腾讯,可惜头条能跟你分钱,但是很少…),抽象上来说,其实头条就在做一件事:推荐系统。就是拟合出一个用户满意的函数,如上图的y=F(Xi,Xu,Xc),下面分别解释几个变量含义。

内容

头条连着抖音、西瓜小视频、抖音火山版、悟空问答、微头条,怎么说呢?有点类似于微博的内容展现方式,但是重点突出,赢利模式清晰,本身的海量数据,几乎对于国内做自媒体吸粉变现人群来说,是不可多得的难得平台,这么多种类型的信息,每种类型都有自己的向量特征,这些向量特征,怎么做好类别划分,是推荐行为依托的基础。

用户特征

这个很好理解,还有新闻说今日头条实际在推荐系统冷启动的时候,用的初始化数据就来自于新浪微博,新浪微博有你哪些信息呢?回忆一下,明显可以确认的:你的年龄,性别,收入层次,偏好(你微博上经常读什么,这些数据微博也都是有记录的),还有很多隐性特征,头条在基础上扩展的,他们认为重要的,在做向量运算时觉得可以得出更精准结果的参数。 这里我必须对推荐系统之所以可以被构建出来的数学基础做下说明,这样对下文的内容才更好理解。

推荐系统实际可以发生作用,本质是利用了与你相关“历史数据”的关联分析,是对你“做出过行为”数据进行的挖掘,而它的数据基础是距离和系数,决定了相似度。

距离:衡量相似度的主要指标之一

空间:欧氏距离 路径:曼哈顿距离 国际象棋国王:切比雪夫距离 欧氏距离、曼哈顿距离、切比雪夫距离统一形式:闵可夫斯基距离 加权:标准化欧氏距离 排除量纲和依存:马氏距离 编码差别:汉明距离

20200328002320.png

闵可夫斯基距离

1. 闵可夫斯基距离

其中p是一个变参数。 当p=1时,就是曼哈顿距离 当p=2时,就是欧氏距离 当p→∞时,就是切比雪夫距离 根据变参数的不同,闵氏距离可以表示一类的距离。

screenshot-www.jianshu.com-2020.03.28-00_57_32.png

摘自《LBS核心技术揭秘》

通过向量部分的内容,我们可以知道,所谓推荐系统的精准就是指向量运算时向量运算的结果越接近,内容类型判断的越精确,在已知用户喜好前提下建模,然后对向量运算得到相似的结果给用户推荐,一般都会比较符合用户的诉求。

20200328004230.png

推荐系统常见算法

那么,今日头条平台到底应用了哪些算法呢?如上图。我这些都是经典的监督学习问题,可以实现的方法有很多,比如说协同过滤模型,基于深度学习模型,监督学习算法logistic Regression模型,factorization machine(因子分解机),gbdt(梯度提升决策树)等等。

20200328005417.png

今日头条平台应用的算法

今日头条作为一个商业平台,像facebook一样,都有自己面向赚钱编程的进化历程,它是对以上算法进行了灵活的组合才最终形成了现有的推荐功能。比如说我们知道facebook就走了lr和gbdt结合的路,今日头条如果把lr和gbdt结合也并不奇怪。今日头条是资讯平台,资讯的展现形式(仅限头条不谈抖音等头条系产品)以图文居多,这就涉及到自然语言处理,文本分析在头条中很重要的作用就是对用户的兴趣建模,冷启动,然后依据文本分析,为用户创建标签,再做同类似数据推荐对文本分析的要求比较高,如果训练数据不充分,系统拟合程度不够或者过拟合都会造成推荐效果的不理想,所以头条推荐系统底层是有个元数据概念存在的,这跟们刚注册微博,完毕准备跳回个人主页前,有个选择订阅喜欢领域和喜欢人物的步骤,其实就是在获取元数据,其实就在应用层次化文本分类算法,这样做可以更好的解决数据倾斜的问题。

20200328012935.png

运算框架调整的原因

20200328012546.png

计算框架调整前

20200328012809.png

计算框架调整后

头条的信息处理流程也因为业务体量的增大,进行过大的调整,最开始的时候用户量不大,每个用户通过埋点生产的个性化信息“标签”汇总回传服务器,依托服务器集群的性能,还能迅速处理,但是随着用户体量的不断增大,单位时间内回传的个性化标签太多,集群都不能很好的消化这些数据从而造成了分析得出的结果响应延迟越来越严重,针对这个问题,头条调整了自己处理数据的方式,就是用户标签有更新(埋点监测到用户的行为),运算捕捉到用户标签的变化(语义分析)都实时的回传服务器立即运算,然后更新进用户的个人信息里面,避免了集群集中处理数据体量过大瓶颈问题的出现。

20200328123313

推荐系统的算法流程

这里又涉及到另一个问题,就是召回和排序,因为每天产生出的内容量特别大,如果头条服务器对所有这些数据进行建模预估那投入将十分巨大,另一方面就算你都预估建模然后精准推送,人接收信息量的能力有限,所以迫切需要一个机制能从海量的信息中触发出尽可能多的正确结果,然后根据用户画像产生用户标签的热度来给用户按热度由高到低把召回的高质量数据展示给用户。那么,什么样的召回策略才是好的呢?

召回率(Recall)=系统检索到的相关内容/系统所有相关的内容总数准确率(Precision)=系统检索到的所有内容/系统检索到的所有内容总和

所以我们看到了协同过滤算法被使用,为什么协同过滤好呢?因为如果基于标签的过滤,比如说用户在某视频网站看了某人的电影,然后推荐了这个人的其他电影,但实际上他可能喜欢只是这个电影中男二男三女二女三,甚至讨厌主角,你这时候按标签给他推内容,很显然用户是不买账的。而协同过滤是基于用户画像,得到用户喜好的信息,然后训练这个推荐模型,用户实时的喜欢信息实时更新到后台,对应着根据用户喜好的新规则给用户推荐信息,这样用户的满意度当然高。

讲了这么多头条推荐系统应用的技术细节,目的就是我们要了解头条作为资讯分发的平台,他们的痛点在哪里。他们所有努力都在以支撑用户访问,给予用户良好推荐体验为前提,所以我们如果想从头条系拿到流量拿到热度,我们就要顺应着人家的意图,不给人家添负担,所以,我们来总结一下,给人家找麻烦添负担的行为有哪些?

  1. 粗枝滥造内容 比如说标题党,胡编乱造,东拼西凑,换头换尾,抄袭搬运,总之,可能会引发用户举报或者点“不感兴趣”,踩你等行为发生的内容,这种内容会使用户对头条本身技术水平和肩负责任产生质疑,会耗费人家资源,还可能会因为推荐系统识别不准确反而给了高流量,导致脚踏实地做内容用户心寒,渐渐脱离平台,头条系,我们现在接触到的某些讯息,可能新闻或者官媒,有媒体牌照公司的媒体团队还没有曝出来,头条或者抖音上就马上出消息了,就因为群众基数最大,依托群众规模化生产信息可以深入到媒体本身局限的细节上,更具覆盖性普遍性,如果你把创作者的心都伤了,都脱离平台了,内容谁来生产,没有高质量产出的内容,又有谁愿意继续留在平台上呢?所以,一定要用户来组织自己的内容,不要有僭越红线的行为出现在你的创作内容当中,同时,要有社会正能量意识,我们知道三农频道是头条扶植的主题,也是响应国家号召,会有流量倾斜,所以,我们做内容的时候,一定要足够正能量,要创作能引领好的社会舆论的作品,弘扬中国的传统文化,有创新,不靠抄袭,洗稿来生产作品。

  2. 违法违规黄色政治等信息 头条是有自己信息安全团队的,目的就是经过机器的过滤之后有些疑似红线的文章还要过人工审核这个环节,始终把信息安全放到头等大事的位置。那么,假如你制作这种类型的信息,会耗费人家的安全团队的人力做人工审核,会占用服务器集群运算资源,运算完了发现还是禁止的内容

  3. 越俎代庖 热点的方向有很多,每天民生、科技、明星、八卦的热点还不够你追吗?可你偏去碰时政类的热点,这种热点确实自带流量,自带热度,但是麻烦搞清楚,你只是个自媒体,这种时政类要向国家相关部门申请,下发了牌照才有资格报道的,你费力不讨好办这事,不被推荐不说,还可能会被隐私权,干嘛一根筋搁这事上轴上了呢?

总结下今天的文章吧,今日头条内容推荐系统从头条12年成立至今已经有快八年的历史,推荐系统应用的分发算法经历时间的洗涤历久弥新,厚重有料,因此,对于想从头条上获取流量,又不想走正常“持续输出高质内容”的“新媒体人”来说,你的任何打算投机取巧的伎俩都很容易被发掘,你可能会说,我看到某某号发的那是些什么什么玩意啊,还不如我搬运,照抄,洗稿输出的内容有价值呢,他干嘛就被推荐那么多,这难道就不是不公平吗?据我观察确实存在这样的现象,但是,我想对你说,你觉得你输出内容的有价值一是触发了监测降权的机制,如果你这种方式都能给你推荐流量的话,那给真正输出干货的自媒体创作者内心造成何种伤害?另外,今日头条上有些内容,确实是很三俗但是推荐量特别大,但是你想过没有,以你的知识水平,你认为有价值的东西,可中国人口基数这么大,绝大多数普通人的素养、知识储备可能确实不及你,那些喜闻乐见的三俗内容,如果恰好满足那些人的需求并且津津乐道,头条给他们推荐,给他们流量,不是再正常不过的事情?所以既然选择在人家订规矩的地方玩耍,就老老实实按人家的规矩来办,引流效果不好,文章阅读量少,文章推荐量少,先反思反思自己,翻翻人家对违规行为的定义,多学习学习高手们运营的方法技巧不掉提升自己运营方面的能力,恐怕这些你可控的因素才应该是你不断优化的方向吧?

今天文章至此结束,感谢阅读!关于我,一个就如何赚钱不断深入的探索者,怀着对各种赚钱方式一探究竟的热情运营了公众号【盘钱】。

完整1000条10w+标题我已经推送到公号文章中,同时整理了基于【pdf版】供你阅读感悟,需要资源的可回复“10万+”直接领取。

你也可以看看我其他的文章: youtube赚钱2020|如何不拍视频简单在youtube上赚钱? 0成本获得25000粉丝,我是怎么做到的 youtube该怎么做?youtube关键词seo优化的30点内幕提示,学到就是赚到!

北方还是不暖和,又冷又干,还在电脑前坚持码字。觉得回答不错就点个赞吧!

20200330170258

扫码关注公众号,可领取以下赠品:
《夯实基础的go语言体系建设》645页涵盖golang各大厂全部面试题,针对云原生领域更是面面俱到;
扫码加微信,可领取以下赠品:
【完整版】本人所著,原价1299元的《爱情困惑者必学的七堂课》; 50个搞定正妹完整聊天记录列表详情点这里
【完整版】时长7小时,原价699元《中国各阶层男性脱单上娶指南》;