在 PHP 中计算文章字数可以根据语言类型|php|中英文|文章|标点|汉字|语言类型

在 PHP 中计算文章字数可以根据语言类型（中文或英文）采用不同的方法。以下是几种常见的实现方式：

1. 基础方法（区分中英文）

中文文章（按字符计算）

使用函数正确统计中文字符（UTF-8 编码）：

mb_strlen()

php

$content = "这是一篇中文文章。";

$wordCount = mb_strlen($content, 'UTF-8');

echo $wordCount; // 输出：9（包括标点符号）

英文文章（按单词计算）

使用正则表达式匹配单词：

php

$content = "";

preg_match_all('/\b\w+\b/', $content, $matches);

$wordCount = count($matches[0]);

echo $wordCount; // 输出：5

2. 自动检测语言并计算字数

结合语言检测和对应的计算方法：

php

function countWords($content) {

// 检测是否包含中文（简单判断）

if (preg_match('/\p{Han}/u', $content)) {

// 中文：按字符统计（包括标点）

return mb_strlen($content, 'UTF-8');

} else {

// 英文：按单词统计

preg_match_all('/\b\w+\b/', $content, $matches);

return count($matches[0]);

// 示例

$cnContent = "你好，世界！";

$enContent = "Hello, world!";

echo countWords($cnContent); // 输出：6（中文字符+标点）

echo countWords($enContent); // 输出：2（单词数）

3. 高级方法（忽略标点符号）

如果需要更精确的统计（如仅统计有效单词或汉字）：

中文（仅统计汉字，忽略标点和数字）

php

$content = "你好，世界！123";

preg_match_all('/\p{Han}/u', $content, $matches);

$wordCount = count($matches[0]);

echo $wordCount; // 输出：4（仅“你好世界”）

英文（忽略标点）

php

$content = "This is a test... really!";

$content = preg_replace('/[^\w\s]/', '', $content); // 去除标点

preg_match_all('/\b\w+\b/', $content, $matches);

$wordCount = count($matches[0]);

echo $wordCount; // 输出：4

4. 处理 HTML 内容

如果文章包含 HTML 标签，需要先去除标签再统计：

php

$htmlContent = "";

这是一段加粗的文字。

$text = strip_tags($htmlContent); // 去除HTML标签

$wordCount = mb_strlen($text, 'UTF-8');

echo $wordCount; // 输出：11

5. 完整函数示例

php

* 统计文章字数（支持中英文混合）

* @param string $content 文章内容

* @param bool $ignorePunctuation 是否忽略标点符号

* @return array 返回字数统计结果

function getWordCount($content, $ignorePunctuation = true) {

// 去除HTML标签

$text = strip_tags($content);

// 检测语言并统计

$isChinese = preg_match('/\p{Han}/u', $text);

if ($isChinese) {

// 中文：按字符或汉字统计

if ($ignorePunctuation) {

preg_match_all('/\p{Han}/u', $text, $matches);

$count = count($matches[0]);

} else {

$count = mb_strlen($text, 'UTF-8');

} else {

// 英文：按单词统计

if ($ignorePunctuation) {

$text = preg_replace('/[^\w\s]/', '', $text);

preg_match_all('/\b\w+\b/', $text, $matches);

$count = count($matches[0]);

return [

'total' => $count,

'language' => $isChinese ? 'chinese' : 'english',

'is_html' => ($content !== $text)

// 示例

$article = "";

PHP is great! 编程很有趣。

$result = getWordCount($article);

print_r($result);

// 输出：['total' => 10, 'language' => 'chinese', 'is_html' => true]

关键点总结

中文统计：用避免乱码。
mb_strlen($str, 'UTF-8')
英文统计：用正则匹配单词。
/\b\w+\b/
混合内容：通过检测中文字符（）自动切换统计方式。
\p{Han}
HTML 处理：先用去除标签。
strip_tags()
标点处理：根据需求决定是否忽略。

根据实际需求选择合适的方法即可！

在 PHP 中计算文章字数可以根据语言类型

热搜

热门跟贴

热搜

热门跟贴

相关推荐

日本网民：中国人的文字全都是汉字，写的时候不觉得累吗？

为啥汉语成为不了世界通用语言？网友：汉语不能写代码，这是硬伤

好一个同理可证，还是多读点书吧

用大语言模型求解不等式证明

多会一种语言的重要性

诗歌语言的多义性有3种构建方式

这比喊数字看着舒服多了

你是会划重点的

大家为什么会讨厌缩写？网友：滥用缩写的东西也不会有什么价值

都说了这里是互联网，粤语可以为所欲为的

能看懂的不多

当人工智能有了意识，钱就是一堆数字

仅靠一副眼镜，为何就能将对话转换成文字？这是怎样做到的？

21次是这个分段的极限

这其实是八个字，能看懂的都是高手，中国汉宇博大精深！

中文你就学吧，一学一个不吱声

中文博大精深

探讨文学篇

在自己服务器搭建网站，数据100%自主，是数字时代的基本尊严！

时隔11年后再看周一见事件，一场出轨风波改写三人的演艺人生