官网产品

联系我们

 豪利777官网
地  址:菲律宾马尼拉· 豪利777官网
邮  编:580000
电  话:063-68732653
Email:admin@oil777.com
网  址:www.oil777.com
豪利777官网平台_豪利777娱乐城官网_豪利oil777官网手机下载

官网产品位置:主页 > 官网产品 >

新闻智能引荐之Tensorflow主动生成标题的研讨

编辑: 时间:2017-09-13

       

   跟着人工智能的快速鼓起,Google发布的深度学习结构TensorFlow在短短两年内,就成为了当时的深度学习项目。

  在图画处理、音频处理、自然语言处理和引荐体系等场景中,TensorFlow都有着丰厚的运用。尽管开源没多久,可是TensorFlow正在悄然渗透到我们的作业日子傍边。

  研讨布景:

  某新闻企业经过接入极光智能引荐体系,在其APP端添加智能引荐模块,为其用户私家订制感兴趣的新闻。极光机器学习云能够快速、精准的提取每条新闻的主题,并对新闻进行主题分类,凭借极光自有的用户标签,向用户实时的引荐个性化新闻。

  经过TensorFlow深度学习结构,在自然语言处理方向,极光现已经过机器学习算法完成了文章标题、摘要和关键词的主动生成功用。

  研讨方案:

  文本主动总结的模型一向都是深度学习中的研讨热门。有一些比如 TFIDF和TextRank之类惯例算法,其基本原理是直接抽取文本中重要的语句。也有一些较为杂乱的算法如从头生成新的语句,但作用欠安。现在常用的模型是seq2se豪利777官网公司q,它是根据Encoder-Decoder的一个结构,首先将原始文本中的语句encode成一个固定巨细的向量,然后经过decoder部分一个字符一个字符生成方针语句。

  TensorFlow,也就是Tensor和Flow,这就意味着Tensor和Flow是TensorFlow的根底要素。Tensor意味着数据,Flow意味着活动、核算和映射,这也表现出数据是有向的活动、核算和映射。TensorFlow的结构由会话(session),图(graph),节点(operation)和边(tensor)组成,它运用图(graph)来表明核算使命,图在被称之为会话(Session)的上下文(context)中履行,其状况是经过变量(Variable)来保护的,运用feed和fetch可认为恣意的操作(arbitrary operation)赋值或许从其间获取数据。

  这篇文章中我们将选用根据Tensorflow的Seq2seq+Attention模型,练习一个新闻标题主动生成模型。参加Attention注意力分配机制,是为了使Decoder在生成新的方针语句时,能够得到前面Encode豪利777官网官方网站r编码阶段每个字符躲藏层的信息向量,进步生成方针序列的精确度。

  数据处理:

  样本数据为该企业新闻客户端2016年11月份的新闻,超越10M的语料数据,包括新闻标题和新闻正文信息。因为在Encoder编码阶段处理的信息会直接影响到整个模型的作用,所以对新闻数据的预处理作业需求十分详尽。对新闻中的特别字符、日期、英文、数字以及链接都要进行替换处理。

  文本预处理后,就是练习样本的准备作业。这儿的Source序列,就是新闻的正文内容,待猜测的Target方针序列是新闻标题。为了确保作用,正文部分不能过长,这儿设定分词后的正文不超越100个词,不足用PAD字符补齐,设定标题不超越20个词。在生成练习样本的时分,界说了create_vocabulary()办法来创立词典,data_to_id()办法把练习样本(train_data.txt)转化为对应的词I*********>  练习样本的数据格式如下:

  算法解析:

  Seq2Seq是一个根据输入的sequence,猜测一个不知道sequence的模型。模型由Encoder编码阶段和Decoder解码阶段两部分构成。模型编码阶段Encoder的RNN每次会输入一个字符代表的向量,将输入序列编码成一个固定长度的向量;解码阶段的RNN会一个一个字符地解码,如猜测为X。在练习阶段时会强制将上一步解码的输出作为下一步解码的输入,即X会作为下一步猜测Y时的输入。

  当编码阶段输入的序列过长时,解码阶段LSTM模型将无法针对最早的输入序列解码。Attention注意力分配机制,在解码阶段每一步解码时,都会有一个输入,对输入序列一切隐含层的信息进行加权求和,能够很好的处理这个问题。

  将分词后的新闻文本数据拆分为练习样本和测验样本,共四个文件:train_data.txt,train_title.txt,test_data.txt,test_title.txt 。新闻正文内容和其对应的新闻标题豪利777官网需求分隔存放在两个文件内,一行为一条新闻样本。

  实证作用:

  运转脚本,练习好的模型将被保存下来,部分猜测好的Text Summarizaion如下:

  总结:

  跟着互联网的迅速开展,网络中的新闻资源呈指数级增加,经过深度学习主动生成的标题往往能很直观的表现新闻的主题内容,便于读者快速的阅读新闻,精确挑选自己感兴趣的内容,节省时刻本钱,能够给读者带来很好的体会感。

  智能引荐现已成为一种势不可挡的趋势,跟着人工智能的开展,算法引荐必将成为内容范畴的干流之一。极光行将推出一套完好的智能引荐引擎,模型引进极光用户标签,将根据Tensorflow的LSTM主题分类的个性化引荐和非个性化引荐相结合,不仅能很好的处理用户冷启动问题,并且能够满意企业的个性化需求和用户的实时智能引荐。



上一篇:吃鸡手游《大逃杀》曝光!画风玩法很类似 下一篇:以健康物联网技能撬动万亿大市场 健康猫领衔智能化运动年代