python使用正则表达式提取网页URL的方法

yipeiwu_com6年前Python基础

本文实例讲述了python使用正则表达式提取网页URL的方法。分享给大家供大家参考。具体实现方法如下:

import re
import urllib
url="//www.jb51.net"
s=urllib.urlopen(url).read()
ss=s.replace(" ","")
urls=re.findall(r"<a.*?href=.*?<\/a>",ss,re.I)
for i in urls:
 print i
else:
 print 'this is over'

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg

希望本文所述对大家的Python程序设计有所帮助。

相关文章

浅析python的优势和不足之处

本篇内容介绍了Python编程语言的优势和不足。 首先我们来了解什么是Python? Python是一种面向对象的高级编程语言,具有集成的动态语义,主要用于Web和应用程序开发。它在快速...

Python入门篇之字符串

所有标准的序列操作对字符串都适用,但字符串是不可变的 字符串常量: 单引号:‘spa"m' 双引号:"spa'm" 三引号:'''...spam...''',"""...spam..."...

Python for循环与range函数的使用详解

for 循环 For … in 语句是另一种循环语句,其特点是会在一系列对象上进行迭代(Iterates),即它会遍历序列中的每一个项目 注意: 1、else 部分是可选的。当循环中包含...

Python实现的多进程和多线程功能示例

本文实例讲述了Python实现的多进程和多线程功能。分享给大家供大家参考,具体如下: 听了朋友说起,他们目前开发的测试框架,用python实现的分布式系统。虽然python的执行效率没有...

python简单实现获取当前时间

说起计算机中的时间,还有一些比较有意思的事,比如我们经常听到的Unix时间戳,UTC时间,格林威治时间等,从表示上来讲他们基本属于同一个东西,因为他们的时间表示都是从1970年.1月.1...