java正则表达式去除html中所有的标签和特殊HTML字符（以&开头的）

说下需求，当用一些网页文本编辑器提交一些字符的时候，会带有一些用于控制格式的HTML标记，我们的需求是取出所有标记中的文字

当然也可以用于取出所抓取的网页中的文字内容！

代码很容易看懂！

[code lang=”java”]</pre>
package com.comcons.utils;

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Pattern;

public class ReduceHtml2Text {

/**
* 删除Html标签
* @param inputString
* @return
*/
public static String removeHtmlTag(String inputString) {
if (inputString == null)
return null;
String htmlStr = inputString; // 含html标签的字符串
String textStr = "";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
java.util.regex.Pattern p_special;
java.util.regex.Matcher m_special;
try {
//定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";
//定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";
// 定义HTML标签的正则表达式
String regEx_html = "<[^>]+>";
// 定义一些特殊字符的正则表达式如：     
String regEx_special = "\\&[a-zA-Z]{1,10};";

p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // 过滤script标签
p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); // 过滤style标签
p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); // 过滤html标签
p_special = Pattern.compile(regEx_special, Pattern.CASE_INSENSITIVE);
m_special = p_special.matcher(htmlStr);
htmlStr = m_special.replaceAll(""); // 过滤特殊标签
textStr = htmlStr;
} catch (Exception e) {
e.printStackTrace();
}
return textStr;// 返回文本字符串
}

/**
* 测试用的main函数
* @param args
*/
public static void main(String[] args) {
StringBuffer sb = new StringBuffer();
try {
FileReader fr = new FileReader("D:/test.html");
BufferedReader br = new BufferedReader(fr);
String s = "";
while((s = br.readLine())!=null){
sb.append(s);
}
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
String ssss = ReduceHtml2Text.removeHtmlTag(sb.toString());
System.out.println(ssss);
}
}
<pre>[/code]

5 thoughts on “java正则表达式去除html中所有的标签和特殊HTML字符（以&开头的）”

liu qiang Post author2014/05/11

再添加一个函数，当去除完所有的HTMl标签的时候会出现很多空格，可以用下面的函数去除！
/**
* 去除字符串中的所有空格
* @param str
* @return
*/
public static String trimBlank(String str) {
String dest = “”;
if (str!=null) {
Pattern p = Pattern.compile(“\\s*|\t|\r|\n”);
Matcher m = p.matcher(str);
dest = m.replaceAll(“”);
}
return dest;
}

Reply ↓

yangqing 2014/05/14

ssss 实在是糟糕的变量名。& 打头的是字符实体，对应着根红苗正的 utf8 编码。不应该被替换。html 这种结构化数据，应该采用专门的 parser 。正则太容易出问题了

Reply ↓

tongjun 2015/11/25

2楼yangqing，因为你说的这些话所以才让我觉得我有必要评论了。你觉得你有什么资格说人家垃圾？人家不专业？我说句实在的，我看了他的代码，除了变量可能命名有点随意，别的包括替换尤其是就已经让人觉得他已经考虑的够全面了。你难不成还用专业的jsoup去解析？累不死你，我给你说，你用他的代码，你不管哪个页面肯定都可以给你解析出来的。他的正则表达式希望你看清楚点，不懂就别瞎墨迹了。装什么逼嘛真是恶心

Reply ↓

test 2017/11/22

html实体编码比如' 原来表示的是单引号，你的代码无法转义回原来的

Reply ↓

sasa 2021/12/08

很好用谢谢

Reply ↓

发表评论取消回复

liu qiang Post author2014/05/11

再添加一个函数，当去除完所有的HTMl标签的时候会出现很多空格，可以用下面的函数去除！
/**
* 去除字符串中的所有空格
* @param str
* @return
*/
public static String trimBlank(String str) {
String dest = “”;
if (str!=null) {
Pattern p = Pattern.compile(“\\s*|\t|\r|\n”);
Matcher m = p.matcher(str);
dest = m.replaceAll(“”);
}
return dest;
}

Reply ↓
yangqing 2014/05/14

ssss 实在是糟糕的变量名。& 打头的是字符实体，对应着根红苗正的 utf8 编码。不应该被替换。html 这种结构化数据，应该采用专门的 parser 。正则太容易出问题了

Reply ↓
tongjun 2015/11/25

2楼yangqing，因为你说的这些话所以才让我觉得我有必要评论了。你觉得你有什么资格说人家垃圾？人家不专业？我说句实在的，我看了他的代码，除了变量可能命名有点随意，别的包括替换尤其是就已经让人觉得他已经考虑的够全面了。你难不成还用专业的jsoup去解析？累不死你，我给你说，你用他的代码，你不管哪个页面肯定都可以给你解析出来的。他的正则表达式希望你看清楚点，不懂就别瞎墨迹了。装什么逼嘛真是恶心

Reply ↓
test 2017/11/22

html实体编码比如' 原来表示的是单引号，你的代码无法转义回原来的

Reply ↓
sasa 2021/12/08

很好用谢谢

Reply ↓

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据。

5 thoughts on “java正则表达式去除html中所有的标签和特殊HTML字符（以&开头的）”

发表评论 取消回复

发表评论取消回复