蜘蛛池

站内搜索数据提交流程和格式说明

蜘蛛池qq25496334    2021-12-08 09:10:42    418
大纲 站内搜索数据提交流程 什么是XML数据文件? 什么是sitemap索引文件? 文件大小的限制? 如何设置更新周期? 数据提交后,多久能被百度抓取? 提交的数据都会被收录吗? 站内搜索数据格式说明 数据文件基本结构 固定标签部分 扩展标签部分 数据格式类型 通用-百度站内搜索数据提交模板_0 小说 影视   站内搜索数据提交流程 站内搜索数据提交包含以下4个步骤: 常见问题: 1 什么是XML数据文件? 单个XML数据格式样例如下: XML文件需以utf-8编码 必填,标识整个链接集合的开始和结束 必填,每条数据都用一对标签标识 http://example.com/.../page1.html 必填,页面地址,长度不得超过256字节 2013-08-12 标识该页面的最后更新时间 daily 标识此页面的更新频率 0.8 标识此页面相对于其他页面的优先权比值,介于0.0-1.0之间 必填,标识扩展标签的开始和结束 必填,紧邻,扩展标签都包含在 必填,标签闭合 必填,标签闭合 必填,标签闭合 必填,标签闭合 上述XML数据文件向百度提交了一个url:http://example.com/.../page1.html。 若有多条url,则按照上述格式重复之间的片断,列明所有url地址,打包到一个XML文件进行提交。 2 什么是sitemap索引文件? 如需提交大量XML数据文件,可以将其列在sitemap索引文件中,然后提交该索引文件,而无需分别提交每个数据文件。索引文件包含的各个字段标签如下:   XML文件需以utf-8编码 必填,标识sitemap索引文件 必填,每个数据文件都用一对标签标识 http://example.com/.../aaa.xml 必填,标识数据文件的位置 2013-08-20 标识数据文件的最近一次修改时间 必填,标签闭合 必填,标签闭合 若有多个XML数据文件,则按照上述格式重复之间的片断,列明所有XML数据文件地址,打包到一个sitemap索引文件进行提交。 3 文件大小的限制? 每个XML数据文件包含的网址不得超过 5 万个,且单个文件大小不得超过 10 MB。每个sitemap索引文件包含的XML数据文件不得超过5万个,但是单个索引文件应该小于10MB。这些限制条件有助于避免网络服务器因传输非常大的文件而遇到麻烦。 4 如何设置更新周期? 百度spider会参考设置周期抓取数据,因此请根据数据文件内容的更新情况(比如增加新url)来设置。 请注意若文件内url不变而仅是url对应的页面内容更新(比如论坛帖子页有新回复内容),不在此更新范畴内。 5 数据提交后,多久能被百度抓取? 数据提交后,一般在1小时内百度会开始处理,处理完成的时间视文件大小而定。 当前默认的抓取速度是10url/s,考虑网速等因素造成的折损,每个站点的天级抓取量可达50万。 6 提交的数据都会被收录吗? 站内搜索将收录您提交的全部数据;但对于百度网页搜索来说,是否收录与页面质量相关。 站内搜索数据格式说明 数据文件基本结构 站内搜索的XML数据文件由两部分组成:固定标签部分和扩展标签部分。   固定标签部分 包含共8个标签。虽然未必都要填写,但是它们是所有数据格式的通用字段。 标签名称  属性类型  属性描述  优先级 标签限制  urlset  /  标记整个文档的开始和结束 必选  / url  /  标记每条信息的开始和结束  必选  1个urlset可以包含很多url loc  url  该条数据的存放地址  必选  以"http://"开头 最大长度256个字符 lastmod  日期  该条数据的最新一次更新时间  可选  格式为YYYY-MM-DD changefreq  字符串  该条数据的更新频率  可选  有效值为:always、hourly、daily、weekly、monthly、yearly、never priority  小数  指定此链接相对于其他链接的优先权比值 可选  数值范围:0.0~1.0 data / 标记扩展数据的开始和结束 必选 / display / 标记扩展数据中用作展现的字段的开始和结束 必选 / 注意事项: XML数据文件必须使用UTF-8编码。 所有标签必须按照格式中指定的顺序列出,非必选标签可以不写,但是不能乱序。 标签大小写敏感,请务必细心区分。 url中不能含有中文字符。 lastmod必须严格遵守日期格式,2013-08-01是正确的,2013-8-1则是错误的。 扩展标签部分 不同数据格式类型包含的扩展标签也不同,主要用于标识网页的正文内容和周边属性。通过扩展标签提交的数据将被用于摘要的特型展现、结果的筛选和排序选项设置,甚至直接影响结果的权重。 数据格式类型 站内搜索将根据站点类型分别制定相应的数据格式,以及给出相应的摘要样式模板。 站内搜索的数据格式包含以下类型,后续还会根据需要再添加: 通用-百度站内搜索数据提交模板_0 影视 小说 音乐(建设中) 商品(建设中) 招聘(建设中) 旅游(建设中) 图书资料(建设中) 问答(建设中) 温馨提示: 由于历史原因,“通用”类别的数据结构和后续的其他各个类别(如“影视-电影”)表示嵌套数据的方式不太一样。前者将子标签包含在父标签里,后者子标签独立存在但嵌套在父标签中。例如同样表示演员姓名, “通用”类别的表示方法为: 其他类别的表示方法为:黄晓明http://example.com/path 通用类型-百度站内搜索数据提交模板_0 图1通用类型的摘要示意图(不代表最终效果) 具体格式说明: 注:“可筛选”“可排序”指的是相应字段在搜索结果页可展现为筛选选项或排序选项;因为所有字段都可用于展现,所以未单独标注。具体应用方式可参考《站内搜索外观和功能设置》。 中文标签 英文标签 子标签 属性类型 属性描述&举例 优先级 个数限制 可筛选 可排序 标题 title  / 字符串 建议填写,搜索系统优先选用该title 可选 1     内容 content  / 字符串 如能提交全文,则不需要spider再抓取,既可以降低站点服务器压力,提升收录效率,也可以避免搜索系统解析误差 可选 1     标签 tag  / 字符串 可以是内容主题、领域、分类等的简短说明文字;最多可定义20个  可选 20 是   发布时间 pubTime  / 日期 格式为YYYY-MM-DDThh:mm:ss 只有提交该字段,“外观设置”中按时间排序或筛选的功能选项才能正常生效 注意:YYYY-MM-DD和hh:mm:ss中间必须包含“T” 可选 1   是 面包屑 breadCrumb -- / 用于标记当前网页在站点中所处的层级位置,最多可定义4层,且标签先后顺序必须对应层级顺序,写在最前为最高层级 假设一篇文章位于新浪网“体育>NBA>洛杉矶湖人”路径下,那么可以为这个页面设置3个breadCrumb标签 可选 4     层级名称 title 字符串  常常体现为频道名或版块名 前面例子中3个breadCrumb标签的title分别为“体育”“NBA”“洛杉矶湖人” 可选 1 是   层级首页地址 url url  前面例子中title为“NBA”时url为http://sports.sina.com.cn/nba/ 可选 1 是   缩略图 thumbnail  -- / 支持格式gif、jpg、jpeg、png,主要用于搜索结果的摘要展现 每个网页最多可以提交10个缩略图,目前站内搜索仅选用其中的第一个用于摘要展现 可选 10     缩略图地址 loc url 可选 1     图片 image  -- / 支持格式gif、jpg、jpeg、png 每个网页最多可以提交100张图片,目前当thumbnail不存在时,默认选择image的第一张图片用于摘要展现 可选 100     图片存放地址 loc url  可选 1     图片标题 title 字符串  如果没有标题,也可用于填写该图片的标签等 可选 1     视频 video  -- / 每个网页最多可提交100个视频数据。(近期即将支持)当thumbnail和image不存在时,默认选择video的第一个缩略图用于摘要展现 可选 100     视频地址 loc url 包含2种情形:指向实际视频媒体文件,或者指向特定视频的播放器 前者例如: http://59.63.171.80/youku/65736E30E1C307CC07EF256D1/0300020E004FCFEC663DA204A5719AA5C2599A -5CDB-D8E5-BEB7-C15C62B686F2.flv 后者例如: http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html 可选 1     视频标题 title 字符串  例如上述地址的视频标题为“考研访谈:名师陈文灯教授数学复习指导答疑” 可选 1     视频缩略图地址 thumbnail_loc url 例如上述视频的缩略图地址为 http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB 可选 1     视频时长 duration 整数 单位:秒 可选 1     作者 author -- / 常见于web2.0页面,例如论坛帖子作者、博客作者 可选 1     作者昵称 nickname 字符串 可选 1     作者个人首页地址 url url 该url指向的页面通常提供作者的个人信息介绍 可选 1     作者头像地址 thumbnail url 可选 1     回复数 replyCount  / 整数  通常表示论坛贴子回帖数,或博客评论数  可选 1 是 是 属性 property  / 字符串  主要用于帖子,例如精华、热门、置顶、最新等属性 ,每个网页最多可以提交3个内容属性 可选 3 是   价格 price  -- / 可选 1     现价 new 小数 商品价格或打折优惠后的现价 可选 1 是 是 原价 old 小数 打折优惠前的价格,如果有的话 可选 1 是 是 折扣 discount  -- / 折扣优惠信息 可选 1     折扣值 value 小数 折扣值 可选 1 是 是 折扣描述 description 字符串  折扣优惠介绍  可选 1     评价 review  -- / 评价信息 常用于商品、活动、影视著作等对象 可选 1     评分值 rating 小数 可选 1 是 是 评分基数 rating_base 小数 评分的基数值或“满分”值 各网站采用的评分制不尽相同,例如最典型的5分制(0分-5分),还有10分制(0分-10分),或者用百分比来表示,满分为100%(0%-100%) 站长可根据实际情况来填写,或者保持不填;只填写rating_base而不填rating是没有意义的 可选 1     评分人数 count 整数  评分人数 可选 1 是 是 位置 location -- / 常用于标识机构、商品或者活动 可选 1     地址 address 字符串 可选 1     电话 tel 字符串  可选 1     地域 area 字符串  地域范围 例如“北京市”“海淀区”“王府井” 主要用于地域筛选 可选 1 是   坐标 coordinate 字符串  坐标 采用WGS84标准。格式为:纬度,经度。北纬+,南纬-,东经+,西经-。小数点后最多保留6位。例如“+40.783333,-73.966667”是纽约中央公园的坐标 可选 1     时间 time  -- / 通常用于标识活动;区别于网页内容发布时间 可选 1     开始时间 startDate 日期  开始时间 格式为YYYY-MM-DDThh:mm:ss 可选 1   是 结束时间 endDate 日期  结束时间 格式为YYYY-MM-DDThh:mm:ss 可选 1   是 数据标记示例: http://ky.kaoyan.com/04/467393/ 2013-04-10 always 0.5 【写给即将上战场的你们】努力为王,心态为皇 考研复习经验 2012-12-04T11:20:13 小说类型: 具体格式说明: 中文属性标签 英文属性标签 属性类型 需求对应 优先级 重复次数 举例 作品名字 name Text 作品的名字 必选字段 1 半梦半醒 作者 author Person 作品的作者 必选字段 1 作者字段,包含3部分,具体见下方。 作品配图 image URL 展现的时候会用到 强烈建议 不限   作品简介 description Text 一般的文本 强烈建议 1 小说故事发生于2005年,跨度六年,讲述了主人公朱亚楠一次去北京参加颁奖大会,结识一号女主角王文静。两人开始朦朦胧胧的爱恋。由于不在同一城市生活,两人只能艰难的异地恋。种种阴差阳错导致他们分分离离,其间又交叉了二号女主角苏扬和三号女主角刘琳。朱亚楠游离在三个美貌女孩之间,最终他会选择和谁终生厮守?他们的爱情又会有什么样的波折?敬请期待! 分类 genre Text 作品的分类,方便书籍间的类聚 必选字段 1 言情 完成字数 wordCount Number 作品的总完成字数 强烈建议 1 19221 阅读链接 url URL 作品的阅读链接 必选字段 1 http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99069.html 更新状态 updateStatus Text 完结还是更新中 必选字段 1 已完结 阅读费用 trialStatus Text 免费或者是前多少章免费,或收费 必选字段 1 免费 周点击 weeklyClick Number 最近一周的点击数量 强烈建议 1 50000 月点击 monthlyClick Number 最近一个月的点击数量 强烈建议 1 150000 总点击 totalClick Number 作品的总点击数量 必选字段 1 3197509 最新章节 newestChapter Chapter 作品的最新章节 必选字段 1   章节 chapter Chapter 作品的章节 必选字段 不限   更新时间 dateModified Date 作品的更新时间 必选字段 1 2012/10/5 作者 - author 作者名称 name Text 作者的名称,可能是姓名、笔名或ID 必选字段 1 zhujiaguo1986 作者简介 description Text 作者的简介 强烈建议 1 朱家果,男,80后知名作家、诗人。 网页链接 url URL 作者的网页链接,可能是博客或者个人主页 可选字段 1 http://blog.sina.com.cn/zhujiaguo2007 最新章节 - newestChapter 所属小说名称 articleSection Text 章节所属的小说名称 必选字段 1 半梦半醒 最新章节标题 headline Text 最新章节的标题 必选字段 1 未名湖畔 最新章节链接 url URL 最新章节页面的URL链接 必选字段 1 http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99144.html 更新时间 dateModified Date 最新章节的更新时间 必选字段 1 2012/10/5 章节 - chapter 所属小说名称 articleSection Text 章节所属的小说名称 必选字段 1 半梦半醒 章节标题 headline Text 章节的标题 必选字段 1 欢畅一日 章节内容 acticleBody Text 给用户展现最新内容 强烈建议 1 刚出朝阳宾馆,王文静就嚷嚷着要去对面的桌球馆里打桌球。王文静挽着朱亚楠的手进了桌球馆,在窗口处领了桌号,要了球杆。许妮一声不响地跟在后面,一脸失落落的样子。服务生刚把桌上的球仔摆好,王文静便乐此不彼地打开了。 章节链接 url URL 章节的URL链接 必选字段 1 http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99076.html 更新时间 dateModified Date 章节的更新时间 强烈建议 1   电影类型: 图2影视-电影类的摘要示意图(不代表最终效果) 具体格式说明: “属性类型”说明 1. 含有子标签的属性类型:Person、AggregateRating、VideoObject、InTheaters。子标签内容详见下方各个分支说明。          2. 时间相关的属性类型:Date支持YYYY-MM-DD格式,或者YYYY-MM,或YYYY;Duration支持P[n]Y[n]M[n]DT[n]H[n]M[n]S格式,例如“P3Y6M4DT12H30M5S”表示“3年6个月4天12小时30分5秒”。时间格式说明详见:ISO8601。     3. Number支持各种数字类型,例如整数和小数。   “出现次数”说明 1. 不限次数的情况下,用多组同名标签来表达多个值,例如:爱情青春。        No. 中文标签 英文标签 属性类型 属性描述 优先级 出现次数 举例 可展现 可筛选 可排序 1 名称 name Text 电影名称 必选 1 中国合伙人 是     2 别名 alias Text 电影别名 可选 不限 中国先生 是     3 海报 image URL 电影海报的链接 强烈建议 不限 http://img31.mtime.cn/mt/2013/05/03/163203.48183969_96X128.jpg 是     4 描述 description Text 作品的简介 必选 1 从1980年代到21世纪,30年的大变革背景下,三个好友为了改变自身命运,创办英语培训学校,最终实现“中国式梦想”。 是     5 类型 genre Text 通常指作品本身的分类属性 必选 不限 喜剧 是 是   6 演员 actor Person 演员或动画片中的配音演员 必选 不限   邓超   http://people.mtime.com/1256584/    是     7 导演 director Person 电影导演,包括执行导演等 必选 不限   陈可辛   http://people.mtime.com/892817/    是     8 编剧 author Person 电影等的编剧 可选 不限   周智勇    是     9 内容语言 inLanguage Text 电影对白主题语言 必选 1 中文 是     10 地区 contentLocation Text 影片的制作地区 必选 不限 中国 是 是   11 上映信息 premiere PremiereInfo 电影上映的有关信息 必选 不限 2013-05-17中国 PT112M 是 是 是 12 摘要 abstract Text 显示在网页中的摘要数据 强烈建议 1 略       13 综合评价 aggregateRating AggregateRating 用户综合评价 必选 1   8   10    是   是 14 预告片 trailer VideoObject 预告片信息 强烈建议 不限   钢铁侠3 中国版剧场预告片   http://movie.mtime.com/91881/trailer/43508.html          15 评论数量 commentNum Number 用户评论、意见的数量,表达自己的观点,不一定和作品相关 强烈建议 1 23 是 16 获奖信息 awards Text 电影的获奖信息 强烈建议 不限 金马奖XXX 是     演员 - actor       1 演员姓名 name Text 演员的姓名 必选 1 邓超 是     2 页面链接 url URL 演员页面的URL链接 强烈建议 1 http://people.mtime.com/1256584/       3 角色名称 role Text 角色的姓 智能小程序 投诉平台 百度统计 百度云 百度云加速 百度安全 Web开发者中心 百度大脑 百度开发者中心 联系我们 ©2019 Baidu 使用百度前必读 京ICP证030173号

本文链接:https://zzc.vikiseo.com/s/244.html

转载声明:本站发布文章及版权归原作者所有,转载本站文章请注明文章来源!

上一篇   下一篇

相关文章