心静致远

The road of learning of a man with nothing and everything

Note of learning xpath

xpath术语

节点

在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book>

<book>
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book>

</bookstore>

以上面的xml文档为例,存在以下节点:

1
2
3
<bookstore> (文档节点)
<author>J K. Rowling</author> (元素节点)
lang="en" (属性节点)

节点关系

父、子、同胞、先辈、后代,以人类社会关系类比即可。


阅读全文 »

随机请求头的使用

在爬取网站内容时,如何同一个ip地址使用同一个请求头向服务器发出大量请求,可能会被服务器识别为恶意爬虫而封ip(个人理解,不一定十分准确)。为了避免这种现象发生,可以采用以下方法:1.随机使用请求头;2.使用ip代理池。当然如果两种方法同时使用,效果更佳。

阅读全文 »

学习正则表达式

正则表达式元字符介绍

元字符 描述
. 匹配任意单个字符(除了换行符)
[] 匹配方括号内的任意字符
[^] 匹配除了方括号内的任意字符
* 匹配>=0个在*号之前的字符
+ 匹配>=1个在+号之前的字符
? 匹配0个或1个在?号之前的字符
{n,m} 匹配num个大括号之前的字符(n<num<m)
(xyz) 匹配与xyz完全一样的字符
| 匹配符号前或后的字符
\ 转义字符
^ 检查匹配的字符串是否在所匹配字符串的开头
$ 检查匹配的字符串是否在所匹配字符串的结尾

阅读全文 »

学习Markdown语法的笔记

字体加粗与斜体

下面展示如何加粗字体,加粗字体是这样的,接下来展示如何使用斜体,斜体是这样的。然后是加粗斜体,答案当然很简单,那就是加粗斜体的组合啦,是这样的。 删除线是这样的,下划线是这样的。



超链接

好的,我们继续往下学习。

github是一个指向我的github账户的链接,知乎是指向我知乎账户的链接。



阅读全文 »