博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python学习笔记——提取网页信息BeautifulSoup4
阅读量:7282 次
发布时间:2019-06-30

本文共 1132 字,大约阅读时间需要 3 分钟。

1 BeautifulSoup概述

beautifulSoup是勇python语言编写的一个HTML/XML的解析器,它可以很好地处理不规范标记并将其生成剖析树(parse tree);

它提供简单而又常见的导航(navigating),搜索及修改剖析树,此可以大大节省编程时间

2 BeautifulSoup安装

2.1 安装

pip install beautifuilsoup4

当安装不成功时,首先查看windows的命令提示符是否是以管理员身份打开的。

然后再检查其他因素

2.2 使用

from bs4 import BeautifulSoup

这是由于“造”库函数所致,其他引用方法易致错。

 

没有安装成功!当时显示安装包已经在文件夹中

C:\Windows\system32>pip install beautifulsoup4Requirement already satisfied: beautifulsoup4 in c:\users\admin\appdata\local\programs\python\python36-32\lib\site-packages (4.6.0)C:\Windows\system32>pythonPython 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 16:07:46) [MSC v.1900 32 bit (Intel)] on win32Type "help", "copyright", "credits" or "license" for more information.>>> import bs4 import BeautifulSoup  File "
", line 1 import bs4 import BeautifulSoup ^SyntaxError: invalid syntax>>> import BeautifulSoupTraceback (most recent call last): File "
", line 1, in
ModuleNotFoundError: No module named 'BeautifulSoup'>>>

3 beautifulsoup与lxml比较

lxml    C实现,只会局部遍历,快;        复杂,语法不太友好;

BS4     Python实现,会加载整个文档,慢; 简单,API人性化;

详细信息可以参考beautifulsoup文档:

 

转载地址:http://iykjm.baihongyu.com/

你可能感兴趣的文章
通过dbcc page来查看SQL Server表中的数据
查看>>
给linux杀杀毒吧
查看>>
nginx worker进程最大打开文件数
查看>>
windows10序列号
查看>>
进程间的通信---信号量(semget,semctl,semop)
查看>>
基于大数据技术之电视收视率企业项目实战(hadoop+Spark)
查看>>
Java开发环境的搭建(windows)
查看>>
Hello Metro:Windows 8下首个App
查看>>
vim编辑器
查看>>
html表格学习
查看>>
python数据类型 循环语句 循环关键字
查看>>
利用管道完成数据从MySQL到Redis的高效迁移
查看>>
Unity Android真机调试
查看>>
Python使用urllib、urllib2捉取网页内容
查看>>
轻量级的bug管理平台对比
查看>>
keepalived高可用部署
查看>>
linux工程师技术-01 -SElinux、配置高级连接、防火墙管理策略
查看>>
tomcat部署乱码
查看>>
网络安全小实验
查看>>
1月30日
查看>>