最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 科技 - 知识百科 - 正文

php 正则匹配中文 乱码问题

来源:动视网 责编:小采 时间:2020-11-02 18:22:45
文档

php 正则匹配中文 乱码问题

php 正则匹配中文 乱码问题:php正则匹配中文乱码的解决办法:首先打开PHP代码文件;然后在代码文件中加上UTF8修饰符即可,其正则表达式的语句如preg_replace('/[万]/u','萬',$a);。推荐:《PHP视频教程》具体问题:PHP字符串中用正则表达式匹配中文出现乱码&l
推荐度:
导读php 正则匹配中文 乱码问题:php正则匹配中文乱码的解决办法:首先打开PHP代码文件;然后在代码文件中加上UTF8修饰符即可,其正则表达式的语句如preg_replace('/[万]/u','萬',$a);。推荐:《PHP视频教程》具体问题:PHP字符串中用正则表达式匹配中文出现乱码&l


php正则匹配中文乱码的解决办法:首先打开PHP代码文件;然后在代码文件中加上UTF8修饰符即可,其正则表达式的语句如“preg_replace('/[万]/u','萬',$a);”。

推荐:《PHP视频教程》

具体问题:

PHP字符串中用正则表达式匹配中文出现乱码

<?php
echo '<h2>正则表达式匹配中文</h2><br>';
$a = '天地不仁,以万物为刍狗';
$b = preg_replace('/万/','萬',$a);
echo $b;
echo '<h2>加上方括号后替换结果出现乱码</h2><br>';
$c = '天地不仁,以万物为刍狗';
$d = preg_replace('/[万]/','萬',$a);
echo $d;
 ?>

以上程序运行结果可以在http://nyaii.com/s/test.php看到。不知为何,为匹配的中文字符加上方括号后就出现了乱码。同样的情形,在javascript中执行就一切正常。

 '天地不仁'.replace(/[天]/,'')
 //outputs "地不仁"

解决办法:

加上UTF8修饰符即可

$d = preg_replace('/[万]/u','萬',$a);

其余修饰符请见

http://php.net/manual/en/reference.pcre.pattern.modifiers.php

以下为对于题主评论中的问题的补充内容

关于为什么[]内就需要加u修饰符的问题,实际上严格来说,两种场合你最好都加上u修饰符

但为什么[]就会导致乱码呢,这就要从字节层面而不是字符层面来解释了。

首先我们知道PHP的字符串并不是Unicode进行存储的,然后我们来看下这个代码

<?php
$a = "万";
echo strlen($a); //3
for ($i = 0; $i < strlen($a); $i++) {
 echo dechex(ord($a[$i])) . ' '; //e4 b8 87
}

我们可以拿到"万"字的utf8十六进制编码是e4b887

所以在没有开启utf8修饰符的时候,正则表达式引擎并没有把"万"当成一个独立的字符,而是三个字节的连续数据。

以下是结论:

当没有[]进行匹配的时候,它寻找的是十六进制编码值为 e4 b8 87 的三个连续字符,换句话说,实际上你的模式是xe4xb8x87,但这种连续字符的出现在你的字符串中,只有"万"字能对上,所以替换了并不会有乱码。但如果你的字符串里面可能还要包括四字节的utf8编码字符,例如emoji,可能就会导致问题了

当你在万外面包装了[],正则表达式引擎实际上找的是[xe4xb8x87],懂正则表达式的很快就能发现它实际上是匹配这三个字符的任意一个,所以这个时候就会影响到除了万以外的别的汉字了

当你加了utf8修饰符之后,"万"会被正则表达式当成是一个独立的字符,所以不再会产生这个问题

至于javascript,因为它对字符编码是原生的unicode,每个字符都会被当成一个字符而不是拆分成字节数据,所以不会产生这个问题

文档

php 正则匹配中文 乱码问题

php 正则匹配中文 乱码问题:php正则匹配中文乱码的解决办法:首先打开PHP代码文件;然后在代码文件中加上UTF8修饰符即可,其正则表达式的语句如preg_replace('/[万]/u','萬',$a);。推荐:《PHP视频教程》具体问题:PHP字符串中用正则表达式匹配中文出现乱码&l
推荐度:
标签: 乱码 中文 php
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top