900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > 解析php利用正则表达式解决采集内容排版的问题

解析php利用正则表达式解决采集内容排版的问题

时间:2021-04-10 08:27:56

相关推荐

解析php利用正则表达式解决采集内容排版的问题

php教程|php手册

解析,php,利用,正则,表达式,解决,采集,内容,排版,问题,做,采集,经常,遇到,问题是,内容,排版,问题,

php教程-php手册

做采集经常遇到的问题是内容排版问题,用了一些时间写了个用正则替换html标签和样式的函数,共享下。

音乐点歌台网站源码,vscode放固态,ubuntu唤醒功能,tomcat集群脚本,c sqlite 批量,小程序 服务器 安全证书,js 多视频播放插件,公众号 开发前端框架,爬虫文本识别,php设置环境变量,seo培训一般多少钱,免费的网站代码下载,限定要搜索的网页的时间,迪恩视频风格模板,微信游戏页面,港口管理系统源码,java发的程序源码的后缀lzw

复制代码 代码如下:

科汛源码,vscode代码补全提示,ubuntu备份教程,tomcat进程重复启动,房贷爬虫,apache php集群,seo营销代理打广告,医疗门户网站 源码,css 网站 模板lzw

/**

* 格式化内容

* @param string $content 内容最好统一用utf-8编码

* @return string

* !本函数需要开启tidy扩展

*/

function removeFormat($content) {

$replaces = array (

“//i” => ”,

“//i” => ”,

“//i” => ”,

“//i” => ”,

“//i” => ”,

“//i” => ”,

“/

/i” => “

his系统 源码,ubuntu现在软件,tomcat增加设置参数,cpu怎么爬虫,php oa系统开发流程,杭州优质seo销售价格lzw

“,

“//i” => “

“,

“/<!–*–>/i”=>”,

/* “/

/i” => ”,//遇到有表格的内容就不要启用

“//i” => ”,

“//i” => ”,

“//i” => ”,

“/

/i” => ‘

‘,

“//i” => ‘

‘,

“/

/i” => ”, */

“/style=.+?[‘|\”]/i” => ”,

“/class=.+?[‘|\”]/i” => ”,

“/id=.+?[‘|\”]/i”=>”,

“/lang=.+?[‘|\”]/i”=>”,

//”/width=.+?[‘|\”]/i”=>”,//不好控制注释掉

//”/height=.+?[‘|\”]/i”=>”,

“/border=.+?[‘|\”]/i”=>”,

“/face=.+?[‘|\”]/i”=>”,

“/

[]*/i” => “

“,

“/.*/i” => ”,

“/ /i” => ‘ ‘,//空格替换掉

“/

[ |\x{3000}|\r\n]*/ui” => ‘

‘,//替换半角、全角空格,换行符,用 排除写入数据库时产生的编码问题

);

$config = array(

//’indent’ => TRUE, //是否缩进

‘output-html’ => TRUE,//是否是输出xhtml

‘show-body-only’=>TRUE,//是否只获得到body

‘wrap’ => 0

);

$content = tidy_repair_string($content, $config, ‘utf8’);//先利用php自带的tidy类库修复html标签,不然替换的时候容易出现各种诡异的情况

$content = trim($content);

foreach ( $replaces as $k => $v ) {

$content = preg_replace ( $k, $v, $content );

}

if(strpos($content,’

‘)>6)//部分内容开头可能缺失

标签

$content = ‘

‘.$content;

$content = tidy_repair_string($content, $config, ‘utf8’);//再修复一次,可以去除html空标签

$content = trim($content);

return $content;

}

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。