Python正则表达式匹配HTML页面编码

yipeiwu_com6年前 (2020-03-06)Python基础

html页面一般都会指定一个编码，如何获取到是处理html页面的第一步，因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个：

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

理解Python中的绝对路径和相对路径

本文介绍了Python中的绝对路劲和相对路径，分享给大家，也给自己留个笔记 1、绝对路径 os.path.abspath("文件名")：显示的是一个文件的绝对路劲 eg：...

Python使用设计模式中的责任链模式与迭代器模式的示例

责任链模式责任链模式：将能处理请求的对象连成一条链，并沿着这条链传递该请求，直到有一个对象处理请求为止，避免请求的发送者和接收者之间的耦合关系。 #encoding=utf-8...

Python中关于浮点数的冷知识

本周的PyCoder's Weekly 上分享了一篇小文章，它里面提到的冷知识很有意思，我稍作补充，分享给大家。它提到的部分问题，读者们可以先思考下：若两个元组相等，即 a==...

python3.5 tkinter实现页面跳转

本文实例为大家分享了tkinter实现页面跳转的具体代码，供大家参考，具体内容如下主函数main.py from tkinter import * from LoginPag...

Python中动态获取对象的属性和方法的教程

首先通过一个例子来看一下本文中可能用到的对象和相关概念。 #coding: UTF-8 import sys # 模块，sys指向这个模块对象 import inspect...

宜配屋

Python正则表达式匹配HTML页面编码

相关文章

理解Python中的绝对路径和相对路径

Python使用设计模式中的责任链模式与迭代器模式的示例

Python中关于浮点数的冷知识

python3.5 tkinter实现页面跳转

Python中动态获取对象的属性和方法的教程

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

Python正则表达式匹配HTML页面编码

相关文章

理解Python中的绝对路径和相对路径

Python使用设计模式中的责任链模式与迭代器模式的示例

Python中关于浮点数的冷知识

python3.5 tkinter实现页面跳转

Python中动态获取对象的属性和方法的教程

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号