当前位置:首页 > PHP教程 > php高级应用 > 列表

PHP中使用DOMDocument来处理HTML、XML文档的示例

发布:smiling 来源: PHP粉丝网  添加日期:2022-04-25 16:40:27 浏览: 评论:0 

其实从PHP5开始,PHP就为我们提供了一个强大的解析和生成XML相关操作的类,也就是我们今天要讲的 DOMDocument 类。不过我估计大部分人在爬取网页时还是会喜欢用正则去解析网页内容,学了今天的这个类下回就可以尝试下使用这个PHP自带的方式来进行解析分析了。

解析HTML

  1. // 解析 HTML 
  2. $baidu = file_get_contents('https://www.baidu.com'); 
  3.  
  4. $doc = new DOMDocument(); 
  5. @$doc->loadHTML($baidu); 
  6.  
  7. // 百度输出框 
  8. $inputSearch = $doc->getElementById('kw'); 
  9. var_dump($inputSearch); 
  10.  
  11. // object(DOMElement)#2  
  12. //     .... 
  13.  
  14. echo $inputSearch->getAttribute('name'), PHP_EOL; // wd 
  15.  
  16. // 获取所有图片的链接 
  17. $allImageLinks = []; 
  18. $imgs = $doc->getElementsByTagName('img'); 
  19. foreach($imgs as $img){ 
  20.     $allImageLinks[] = $img->getAttribute('src'); 
  21.  
  22. print_r($allImageLinks); 
  23.  
  24. // Array 
  25. // ( 
  26. //     [0] => //www.baidu.com/img/baidu_jgylogo3.gif 
  27. //     [1] => //www.baidu.com/img/bd_logo.png 
  28. //     [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif 
  29. // ) 
  30.  
  31. // 利用 parse_url 分析链接 
  32. foreach($allImageLinks as $link){ 
  33.     print_r(parse_url($link)); 
  34.  
  35. // Array 
  36. // ( 
  37. //     [host] => www.baidu.com 
  38. //     [path] => /img/baidu_jgylogo3.gif 
  39. // ) 
  40. // Array 
  41. // ( 
  42. //     [host] => www.baidu.com 
  43. //     [path] => /img/bd_logo.png 
  44. // ) 
  45. // Array 
  46. // ( 
  47. //     [scheme] => http 
  48. //     [host] => s1.bdstatic.com 
  49. //     [path] => /r/www/cache/static/global/img/gs_237f015b.gif 
  50. // ) 

是不是感觉好清晰,好有面向对象的感觉。就像第一次使用 ORM库 来进行数据库操作一样的感觉。我们一段一段来看。

  1. $baidu = file_get_contents('https://www.baidu.com'); 
  2.  
  3. $doc = new DOMDocument(); 
  4. @$doc->loadHTML($baidu); 

首先是加载文档内容,这个比较好理解,直接使用 loadHTML() 方法加载 HTML 内容。它还提供了其它的几个方法,分别是:load() 从一个文件加载XML;loadXML() 从字符串加载XML;loadHTMLFile() 从文件加载HTML。

  1. // 百度输出框 
  2. $inputSearch = $doc->getElementById('kw'); 
  3. var_dump($inputSearch); 
  4.  
  5. // object(DOMElement)#2  
  6. //     .... 
  7.  
  8. echo $inputSearch->getAttribute('name'), PHP_EOL; // wd 

首先是加载文档内容,这个比较好理解,直接使用 loadHTML() 方法加载 HTML 内容。它还提供了其它的几个方法,分别是:load() 从一个文件加载XML;loadXML() 从字符串加载XML;loadHTMLFile() 从文件加载HTML。

  1. // 百度输出框 
  2. $inputSearch = $doc->getElementById('kw'); 
  3. var_dump($inputSearch); 
  4.  
  5. // object(DOMElement)#2  
  6. //     .... 
  7.  
  8. echo $inputSearch->getAttribute('name'), PHP_EOL; // wd 

接下来我们使用和前端 JS 一样的 DOM 操作API来操作HTML里面的元素。这个例子中就是获取百度的文本框,直接使用 getElementById() 方法获得id为指定内容的 DOMElement 对象。然后就可以获取它的值、属性之类的内容了。

  1. // 获取所有图片的链接 
  2. $allImageLinks = []; 
  3. $imgs = $doc->getElementsByTagName('img'); 
  4. foreach($imgs as $img){ 
  5.     $allImageLinks[] = $img->getAttribute('src'); 
  6.  
  7. print_r($allImageLinks); 
  8.  
  9. // Array 
  10. // ( 
  11. //     [0] => //www.baidu.com/img/baidu_jgylogo3.gif 
  12. //     [1] => //www.baidu.com/img/bd_logo.png 
  13. //     [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif 
  14. // ) 
  15.  
  16. // 利用 parse_url 分析链接 
  17. foreach($allImageLinks as $link){ 
  18.     print_r(parse_url($link)); 
  19.  
  20. // Array 
  21. // ( 
  22. //     [host] => www.baidu.com 
  23. //     [path] => /img/baidu_jgylogo3.gif 
  24. // ) 
  25. // Array 
  26. // ( 
  27. //     [host] => www.baidu.com 
  28. //     [path] => /img/bd_logo.png 
  29. // ) 
  30. // Array 
  31. // ( 
  32. //     [scheme] => http 
  33. //     [host] => s1.bdstatic.com 
  34. //     [path] => /r/www/cache/static/global/img/gs_237f015b.gif 
  35. // ) 

这一段例子则是获取HTML文档中所有的图片链接。相比正则来说,是不是方便很多,而且代码本身就是自解释的,不用考虑正则的匹配失效的问题。配合另外一个PHP中自带的 parse_url() 方法也能非常方便地对链接进行分析,提取自己想要的内容。

XML的解析和对HTML的解析也是类似的,都使用 DOMDocument 和 DOMElement 提供的这个方法接口就可以很方便的进行解析了。那么我们想要生成一个标准格式的XML呢?当然也非常的简单,不需要再去拼接字符串了,使用这个类一样的进行对象化的操作。

生成一个XML

  1. // 生成一个XML文档 
  2. $xml = new DOMDocument('1.0''UTF-8'); 
  3.  
  4. $node1 = $xml->createElement('First''This is First Node.'); 
  5. $node1->setAttribute('type''1'); 
  6.  
  7. $node2 = $xml->createElement('Second'); 
  8. $node2->setAttribute('type''2'); 
  9. $node2_child = $xml->createElement('Second-Child''This is Second Node Child.'); 
  10. $node2->appendChild($node2_child); 
  11.  
  12. $xml->appendChild($node1); 
  13. $xml->appendChild($node2); 
  14. print $xml->saveXML(); 
  15.  
  16. /* 
  17. <?xml version="1.0" encoding="UTF-8"?> 
  18. <First type="1">This is First Node.</First> 
  19. <Second type="2"><Second-Child>This is Second Node Child.</Second-Child></Second> 
  20. */ 

其实只要有一点点的前端 JS 的基础都不难看出这段代码的含义。使用 createElement() 方法创造 DOMElement 对象,然后就可以为它添加属性和内容。使用 appendChild() 方法就可以为当前的 DOMElement 或者 DOMDocument 添加下级节点。最后使用 saveXML() 就能够生成标准的XML格式内容了。

总结

通过上面两个简单的小例子,相信大家已经对这个 DOMDocument 操作XML类文件解析的方式非常感兴趣了。不过相对于正则解析的方式它们的性能有多大的差异并没有找到相关的测试,不过一般正常的情况下网站的HMTL文档都不会太大,毕竟各个网站也会考虑自身的加载速度,如果文档非常大的话用户体验也会很差,所以这套接口用来进行日常爬虫的分析处理工作基本是没有任何问题的。

测试代码: github.com/zhangyue050…

Tags: DOMDocument

分享到: