angularjs应用prerender.io 搜索引擎优化实践
zhezhongyun 2025-05-08 22:23 4 浏览
上一篇博文(
http://www.cnblogs.com/ideal-lx/p/5625428.html)介绍了单页面搜索引擎优化的原理,以及介绍了两个开源框架的优劣。prerender框架的工作原理在上篇也有介绍,本片博文主要介绍prerender.io的部署实践过程。其实部署的过程还是比较简单的,阅读原网站可以直接移步:
https://github.com/prerender/prerender。
一、支持google优化方案
上篇文也有提到,谷歌提出了自己的一套针对ajax页面的抓取方案,prerender在这里同样对其做了支持。使用起来很简单:
1、添加<meta name="fragment" content="!">标签在每个主页面的header内。
2、如果url中含有#,将它们变成#!(hash-bang)的形式.
关于上面第二点,angular的api $
locationProvider.hashPrefix('!');即可使url变成hash-bang形式。
二、prerender.io服务端部署
prerender官方提供了云服务,获取tocken后便可以配置使用。不过我们这里不想使用官方的服务,选择自己搭建自己的可控prerender服务,当然,最好使用linux机器作为服务器。过程也非常简单,上篇介绍,prerender服务是一个持续在跑的node服务,负责接收client转发过来的请求,然后再请求web服务,获得html、js等静态文件后执行并继续请求后续ajax请求。首先要在服务器上安装node运行环境,执行以下步骤即可安装部署prerender服务:
$ git clone https://github.com/prerender/prerender.git
$ cd prerender
$ npm install
$ node server.js
过程中会安装phantomjs,最后一步“node server.js”便启动了prerender服务。我们先来看一看源码的目录:
最外层的server.js 是启动的主逻辑脚本,内容很短,作用是加载插件,然后启动服务。lib文件夹下有一个plugins文件夹,存放了一系列插件,如黑白名单、缓存、日志等等功能,可以在外层目录的server.js 内选择性加载使用。lib下的index.js定义了监听的端口和启用服务,server.js里是具体的请求和返回处理逻辑,phantomjs的启停也是在其中,prerender会启动多个phantomjs进程并行处理请求。
服务跑起来之后,如无特殊指定和修改,此时的默认端口是3000,可以尝试访问:
看到这里就清楚了,其实就是把咱们页面的url当做参数传给prernder服务,就可以了。如果是在另外的主机,同样可以访问 http://prerender服务的地址:监听端口号/需要渲染的页面url,即可看到通过prerender.io渲染后的页面。如果有条件的话可以通过本地爬虫访问此url,你会发现所有的动态数据也可以同样得到。
http://localhost:3000/http://www.yourwebsite.com
如果你担心你的prerender服务会异常崩溃,可以安装forever指令,使用forever指令用守护进程的方式启动prerender服务,类似于这样:forever start -l prerender.log --spinSleepTime 5000 --minUptime 5000
/usr/local/prerender-linux/server.js 进一步的,你可以将启动指令写入linux启动文件中,做重启的自启动。到这里prerender服务基本上就搭建成功了。
三、prerender.io客户端部署
prerender提供了非常丰富的客户端实现方案,包括node、Ruby、Apache、Nginx、Java、Go、Grails等等官方非官方方案,上面git的连接即可以查到各个方案的部署方式。笔者的应用是前后端分离使用nginx做静态资源容器的环境,这里介绍一下nginx的部署方案,以下是官方提供的nginx.conf 的配置文件:
server { | |
listen 80; | |
server_name example.com; | |
root /path/to/your/root; | |
index index.html; | |
location / { | |
try_files $uri @prerender; | |
} | |
location @prerender { | |
set $prerender 0; | |
if ($http_user_agent ~* "baiduspider|twitterbot|facebookexternalhit|rogerbot|linkedinbot|embedly|quora link preview|showyoubot|outbrain|pinterest|slackbot|vkShare|W3C_Validator") { | |
set $prerender 1; | |
} | |
if ($args ~ "_escaped_fragment_") { | |
set $prerender 1; | |
} | |
if ($http_user_agent ~ "Prerender") { | |
set $prerender 0; | |
} | |
if ($uri ~ "\.(js|css|xml|less|png|jpg|jpeg|gif|pdf|doc|txt|ico|rss|zip|mp3|rar|exe|wmv|doc|avi|ppt|mpg|mpeg|tif|wav|mov|psd|ai|xls|mp4|m4a|swf|dat|dmg|iso|flv|m4v|torrent|ttf|woff)") { | |
set $prerender 0; | |
} | |
#resolve using Google's DNS server to force DNS resolution and prevent caching of IPs | |
resolver 8.8.8.8; | |
if ($prerender = 1) { | |
#setting prerender as a variable forces DNS resolution since nginx caches IPs and doesnt play well with load balancing | |
set $prerender "192.168.1.168:3000*"; | |
rewrite .* /$scheme://$host$request_uri? break; | |
proxy_pass http://$prerender; | |
} | |
if ($prerender = 0) { | |
rewrite .* /index.html break; | |
} | |
} | |
} |
下面对相关参数做简单介绍:
listen:监听端口号,根据项目实际情况而定。
server_name:监听的域名。
root :默认首页的路径。
index:默认的首页页面。
location @prerender 下依次是对:userAgent的配置、可根据需要自行添加;_escaped_fragment_符号的过滤;prerender自己爬虫请求的排除;不需要抓取的文件类型配置,可自行添加。
然后下面 如果$prerender 变量为1,就把请求定向到prerender服务所在的地址。
四、缓存的设置
prerender提供了丰富的缓存机制,用来存储已抓取的页面,当下次同样的页面抓取请求再来的时候prerender便可以命中缓存返回给爬虫。笔者使用的是levelDB的缓存,安装可查看
https://github.com/maxlath/prerender-level-cache,需要安装一个node外壳的levelDB数据库,供prerender服务插件调用。插件的启用方法,就是在server.js里server.use(require('prerender-level-cache'));
即可。
另外在生产环境测试的时候,笔者遇到一个问题,就是pererender服务跑了一段时间之后,爬虫过来的请求有些会返回304状态码回去,这样的话爬虫是收不到页面数据的。304是http协议做缓存控制的状态码,返回304意味着服务端认为请求方拥有最新的缓存。我解决这个问题的方式是又开启了一次phantomjs的本地缓存,在prerender服务的lib\server.js里server.createPhantom方法内将phantomjs的启动参数改为:var args = {'--load-images': false, '--ignore-ssl-errors': true, '--ssl-protocol': 'tlsv1.2'}; 这个问题便没有再出现。
相关推荐
- 「layui」表单验证:验证注册
-
注册界面手动验证获取短信验证码代码原文<!DOCTYPEhtml><htmllang="zh"><head>&...
- Full text: Joint statement between China and Kenya on creating an inspiring example in the all-weather China-Africa community with a shared future for the new era
-
JointStatementBetweenthePeople'sRepublicofChinaandtheRepublicofKenyaonCreatinganInspi...
- 国际组织最新岗位信息送给你
-
国际刑警组织PostingTitleITLogisticsManagerGrade5DutyStationAbidjan,IvoryCoastDeadlineforApplicatio...
- 【新功能】Spire.PDF 8.12.5 支持设置表单域的可见与隐藏属性
-
Spire.PDF8.12.5已发布。该版本新增支持设置表单域的可见与隐藏属性、添加自定义的元数据以及给PDF文档的元数据添加新的命名空间。本次更新还增强了PDF到DOCX和图片的转换...
- AI curbs show Biden's rejection of cooperation
-
AIcurbsshowBiden'srejectionofcooperation:ChinaDailyeditorial-Opinion-Chinadaily.com.cnT...
- “煤气灯效应”上热搜,这几种有毒的“情感关系”也要注意了……
-
近日,“煤气灯效应”(theGaslightEffect)再次进入公众视野并登上热搜,引发网友广泛关注。那么,什么是“煤气灯效应”?以“爱”之名进行情绪控制在心理学中,通过“扭曲受害者眼中的真实”...
- Qt编写推流程序/支持webrtc265/从此不用再转码/打开新世界的大门
-
一、前言在推流领域,尤其是监控行业,现在主流设备基本上都是265格式的视频流,想要在网页上直接显示监控流,之前的方案是,要么转成hls,要么魔改支持265格式的flv,要么265转成264,如果要追求...
- 写给运维的Nginx秘籍
-
要说Web服务器、代理服务器和调度服务器层面,目前使用最大的要数Nginx。对于一个运维工程师日常不可避免要和Nginx打交道。为了更好地使用和管理Nginx,本文就给大家介绍几个虫虫日常常用的秘籍。...
- 突破亚马逊壁垒,Web Unlocker API 助您轻松获取数据
-
在数据驱动决策的时代,电商平台的海量数据是十足金贵的。然而,像亚马逊这样的巨头为保护自身数据资产,构建了近乎完美的反爬虫防线,比如IP封锁、CAPTCHA验证、浏览器指纹识别,常规爬虫工具在这些防线面...
- 每日一库之 logrus 日志使用教程
-
golang日志库golang标准库的日志框架非常简单,仅仅提供了print,panic和fatal三个函数对于更精细的日志级别、日志文件分割以及日志分发等方面并没有提供支持.所以催生了很多第三方...
- 对比测评:为什么AI编程工具需要 Rules 能力?
-
通义灵码ProjectRules在开始体验通义灵码ProjectRules之前,我们先来简单了解一下什么是通义灵码ProjectRules?大家都知道,在使用AI代码助手的时候,有时...
- python 面向对象编程
-
Python的面向对象编程(OOP)将数据和操作封装在对象中,以下是深度解析和现代最佳实践:一、核心概念重构1.类与实例的底层机制classRobot:__slots__=['...
- Windows系统下常用的Dos命令介绍(一)
-
DOS是英文DiskOperatingSystem的缩写,意思是“磁盘操作系统”。DOS主要是一种面向磁盘的系统软件,说得简单些,DOS就是人给机器下达命令的集合,是存储在操作系统中的命令集。主要...
- 使用 Flask-Admin 快速开发博客后台管理系统:关键要点解析
-
一、为什么选择Flask-Admin?Flask-Admin是Flask生态中高效的后台管理框架,核心优势在于:-零代码生成CRUD界面:基于数据库模型自动生成增删改查功能-高度可定制...
- Redis淘汰策略导致数据丢失?
-
想象一下,你的Redis服务器是一个合租宿舍,内存就是床位。当新数据(新室友)要住进来,但床位已满时,你作为宿管(淘汰策略)必须决定:让谁卷铺盖走人?Redis提供了8种"劝退"方案,...
- 一周热门
- 最近发表
-
- 「layui」表单验证:验证注册
- Full text: Joint statement between China and Kenya on creating an inspiring example in the all-weather China-Africa community with a shared future for the new era
- 国际组织最新岗位信息送给你
- 【新功能】Spire.PDF 8.12.5 支持设置表单域的可见与隐藏属性
- AI curbs show Biden's rejection of cooperation
- “煤气灯效应”上热搜,这几种有毒的“情感关系”也要注意了……
- Qt编写推流程序/支持webrtc265/从此不用再转码/打开新世界的大门
- 写给运维的Nginx秘籍
- 突破亚马逊壁垒,Web Unlocker API 助您轻松获取数据
- 每日一库之 logrus 日志使用教程
- 标签列表
-
- HTML 教程 (33)
- HTML 简介 (35)
- HTML 实例/测验 (32)
- HTML 测验 (32)
- HTML 参考手册 (28)
- JavaScript 和 HTML DOM 参考手册 (32)
- HTML 拓展阅读 (30)
- HTML常用标签 (29)
- HTML文本框样式 (31)
- HTML滚动条样式 (34)
- HTML5 浏览器支持 (33)
- HTML5 新元素 (33)
- HTML5 WebSocket (30)
- HTML5 代码规范 (32)
- HTML5 标签 (717)
- HTML5 标签 (已废弃) (75)
- HTML5电子书 (32)
- HTML5开发工具 (34)
- HTML5小游戏源码 (34)
- HTML5模板下载 (30)
- HTTP 状态消息 (33)
- HTTP 方法:GET 对比 POST (33)
- 键盘快捷键 (35)
- 标签 (226)
- HTML button formtarget 属性 (30)