本篇文章给大家谈谈python获取网页的标题,以及python 文本标题提取对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
python如何正确抓取网页标题
import beautifulsoup
import urllib2
def main():
userMainUrl = "你要抓取的地址"
req = urllib2.Request(userMainUrl)
resp = urllib2.urlopen(req)
respHtml = resp.read()
foundLabel = respHtml.findAll("label")
finalL =foundLabel.string
print "biaoti=",finalL
if __name__=="__main__":
main();
怎么用python解析网页,并提取出与标题相关的正文
可以使用正则表达式或者xpath方式,下面这个免费教程是说明怎么用正则表达式来取得你要的东西的,供参考。
Python提取网页链接和标题
方法1:BS版
简单写了个,只是爬链接的,加上标题老报错,暂时没看出来原因,先给你粘上来吧(方法2无问题)
from
BeautifulSoup
import
BeautifulSoup
import
urllib2
import
re
def
grabHref(url,localfile):
html
=
urllib2.urlopen(url).read()
html
=
unicode(html,'gb2312','ignore').encode('utf-8','ignore')
content
=
BeautifulSoup(html).findAll('a')
myfile
=
open(localfile,'w')
pat
=
re.compile(r'href="([^"]*)"')
pat2
=
re.compile(r'/tools/')
for
item
in
content:
h
=
pat.search(str(item))
href
=
h.group(1)
if
pat2.search(href):
#
s
=
BeautifulSoup(item)
#
myfile.write(s.a.string)
#
myfile.write('\r\n')
myfile.write(href)
myfile.write('\r\n')
#
s.a.sting
href
myfile.close()
def
main():
url
=
""
localfile
=
'aHref.txt'
grabHref(url,localfile)
if
__name__=="__main__":
main()
方法2:Re版
由于方法1有问题,只能获取到下载页面链接,所以换用Re解决,代码如下:
import
urllib2
import
re
url
=
''
find_re
=
re.compile(r'href="([^"]*)".+?(.+?)/a')
pat2
=
re.compile(r'/tools/')
html
=
urllib2.urlopen(url).read()
html
=
unicode(html,'utf-8','ignore').encode('gb2312','ignore')
myfile
=
open('aHref.txt','w')
for
x
in
find_re.findall(html):
if
pat2.search(str(x)):
myfile,x[0],x[1]
myfile.close()
'Done!'
关于python获取网页的标题和python 文本标题提取的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
2、本站永久网址:https://www.yuanmacun.com
3、本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长进行删除处理。
4、本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
6、本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。
源码村资源网 » python获取网页的标题(python 文本标题提取)