在Bash中获取字符串长度

598

如何获取存储在变量中的字符串的长度,并将其分配给另一个变量?

myvar="some string"
echo ${#myvar}  
# 11

你如何将另一个变量设置为输出11

11个回答

648

要获取存储在变量中的字符串的长度,可以使用以下语句:

myvar="some string"
size=${#myvar} 
为确认它已经正确保存,echo它:

要确认它已成功保存,使用echo命令:

$ echo "$size"
11

16
使用UTF-8字符串,你可以拥有一个字符串长度和一个字节长度。请看我的答案 - F. Hauri - Give Up GitHub
1
你也可以直接在其他参数扩展中使用它 - 例如,在此测试中,我检查 $rulename 是否以 $RULE_PREFIX 前缀开头: [ "${rulename:0:${#RULE_PREFIX}}" == "$RULE_PREFIX" ] - Thomas Guyot-Sionnest
2
请问您能否解释一下 #myvar{#myvar} 这两个表达式的含义? - Lerner Zhang
2
@lerneradams 参见Bash参考手册→3.5.3 Shell参数扩展中的${#parameter}替换为参数扩展值的字符长度。 - fedorqui

371

2023-02-13 编辑:使用 printf %n 代替区域设置...

UTF-8字符串长度

除了fedorqui的正确答案之外,我想展示字符串长度和字节长度之间的区别:

myvar='Généralités'
chrlen=${#myvar}
oLang=$LANG oLcAll=$LC_ALL
LANG=C LC_ALL=C
bytlen=${#myvar}
LANG=$oLang LC_ALL=$oLcAll
printf "%s is %d char len, but %d bytes len.\n" "${myvar}" $chrlen $bytlen

将呈现:

Généralités is 11 char len, but 14 bytes len.

您甚至可以查看存储的字符:

myvar='Généralités'
chrlen=${#myvar}
oLang=$LANG oLcAll=$LC_ALL
LANG=C LC_ALL=C
bytlen=${#myvar}
printf -v myreal "%q" "$myvar"
LANG=$oLang LC_ALL=$oLcAll
printf "%s has %d chars, %d bytes: (%s).\n" "${myvar}" $chrlen $bytlen "$myreal"

将会回答:

Généralités has 11 chars, 14 bytes: ($'G\303\251n\303\251ralit\303\251s').

注意: 根据伊莎贝尔·考恩的评论,我已经添加了对$LC_ALL$LANG的设置。

相同的功能,但不需要操作区域设置

我最近学会了printf命令(内置)的%n格式:

myvar='Généralités'
chrlen=${#myvar}
printf -v _ %s%n "$myvar" bytlen
printf "%s is %d char len, but %d bytes len.\n" "${myvar}" $chrlen $bytlen
Généralités is 11 char len, but 14 bytes len.

语法有点反直觉,但这非常高效!(进一步的函数 strU8DiffLen 使用 printf 比之前使用 local LANG=C 的版本快约2倍。)

参数长度,工作示例

参数与普通变量的工作方式相同。

showStrLen() {
    local -i chrlen=${#1} bytlen
    printf -v _ %s%n "$1" bytlen
    LANG=$oLang LC_ALL=$oLcAll
    printf "String '%s' is %d bytes, but %d chars len: %q.\n" "$1" $bytlen $chrlen "$1"
}

将会担任

showStrLen théorème
String 'théorème' is 10 bytes, but 8 chars len: $'th\303\251or\303\250me'

实用的printf纠错工具:

如果您:

for string in Généralités Language Théorème Février  "Left: ←" "Yin Yang ☯";do
    printf " - %-14s is %2d char length\n" "'$string'"  ${#string}
done

 - 'Généralités' is 11 char length
 - 'Language'     is  8 char length
 - 'Théorème'   is  8 char length
 - 'Février'     is  7 char length
 - 'Left: ←'    is  7 char length
 - 'Yin Yang' is 10 char length

不是非常 漂亮 的输出!

为此,这里有一个小函数:

strU8DiffLen() {
    local -i bytlen
    printf -v _ %s%n "$1" bytlen
    return $(( bytlen - ${#1} ))
}

或者写在一行中:

strU8DiffLen() { local -i _bl;printf -v _ %s%n "$1" _bl;return $((_bl-${#1}));}

那么现在:

for string in Généralités Language Théorème Février  "Left: ←" "Yin Yang ☯";do
    strU8DiffLen "$string"
    printf " - %-$((14+$?))s is %2d chars length, but uses %2d bytes\n" \
        "'$string'" ${#string} $((${#string}+$?))
  done 

 - 'Généralités'  is 11 chars length, but uses 14 bytes
 - 'Language'     is  8 chars length, but uses  8 bytes
 - 'Théorème'     is  8 chars length, but uses 10 bytes
 - 'Février'      is  7 chars length, but uses  8 bytes
 - 'Left: ←'      is  7 chars length, but uses  9 bytes
 - 'Yin Yang ☯'   is 10 chars length, but uses 12 bytes

不幸的是,这还不够完美!

但仍存在一些奇怪的UTF-8行为,如双空格字符、零宽度字符、反向移位等等,这些都可能不是那么简单...

请查看diffU8test.shdiffU8test.sh.txt以获取更多限制信息。


2
您可能还需要设置LC_ALL=C和其他一些参数。 - Isabell Cowan
1
@F.Hauri 但是,仍然有一些系统无法使用您的解决方案,因为它保留了LC_ALL。在Debian及其衍生产品的默认安装上可能会很好用,但在其他系统(如Arch Linux)上,它将无法给出字符串的正确字节长度。 - Isabell Cowan
2
谢谢您把一些简单的东西搞得复杂了 :) - thistleknot
3
@thistleknot 对不起,有时候“简单”只是一个概念。 - F. Hauri - Give Up GitHub
1
值得一提的是,如果 $(( bytlen - ${#1} )) 大于 255,函数 strU8DiffLen 将会失败。为什么不直接使用 printf 输出结果并在一个子 shell 中调用该函数呢?相关链接:https://www.gnu.org/software/bash/manual/html_node/Exit-Status.html - Artfaith
显示剩余15条评论

44

我希望得到最简单的情况,最终这是结果:

echo -n 'Tell me the length of this sentence.' | wc -m;
36

7
抱歉,伙计 :( 这是 Bash... 诅咒的锤子,它把一切都看作钉子,尤其是你的拇指。'告诉我这个句子的长度。' 包含36个字符。echo '' | wc -m => 1。你需要使用 -n: echo -n '' | wc -m => 0... 在这种情况下,这是一个好的解决方案 :) - AJP
2
谢谢您的纠正!手册页面上写着: -n 不输出尾随换行符 - dmatej

27

您可以使用:

MYSTRING="abc123"
MYLENGTH=$(printf "%s" "$MYSTRING" | wc -c)
  • wc -cwc --bytes 用于字节计数 = Unicode 字符使用 2、3 或更多字节进行计数。
  • wc -mwc --chars 用于字符计数 = Unicode 字符仅在使用更多字节时才会被计数为多个字符。

4
-c代表字节数,-m代表字符数。 - LLFourn
3
认真吗?为了这么简单的事情需要一个管道、一个子shell和一个外部命令吗? - gniourf_gniourf
这段代码处理类似于 mylen=$(printf "%s" "$HOME/.ssh" | wc -c) 的情况,而被接受的解决方案失败了,你需要先执行 myvar=$HOME/.ssh - JL Peyret
这并不比 ${#var} 更好。你仍然需要将 LC_ALL / LANG 设置为 UTF-8 区域设置,否则 -m 将返回字节计数。 - alexia

23

针对这篇帖子的开头所说:

如果你想在命令行或函数参数中使用这个...

使用以下代码:

size=${#1}

有时候您可能只想检查一个零长度的参数,而不需要存储变量。我相信您可以使用这种语法:

if [ -z "$1" ]; then
    #zero length argument 
else
    #non-zero length
fi

请参考GNUwooledge,以获取更完整的Bash条件表达式列表。


19
如果想在命令行或函数参数中使用此功能,请确保使用size=${#1}而不是size=${#$1}。第二种语法可能更直观,但是是错误的语法。

14
“你无法执行<无效的语法>”的问题在于,该语法无效,读者不清楚应该如何解释它的含义。 size = $ {# 1} 显然是有效的。 - Charles Duffy
哦,这出乎意料。我不知道在这种情况下#1是$1的替代品。 - Dick Guertin
16
"它并没有替换掉 $ 符号 - 大括号外的 $ 仍然是展开运算符。# 符号始终是长度运算符。" - Charles Duffy
我已修复了这个答案,因为它是一个有用的提示,但并不是规则的例外 - 正如@CharlesDuffy所指出的那样,它恰好遵循了规则。 - Zane

18

使用您提供的示例

#KISS (Keep it simple stupid)
size=${#myvar}
echo $size

@Angel 这个问题是关于将一个变量设置为长度命令的输出,而这个问题的答案就在这里。 - Astitva Srivastava

15

以下是计算变量长度的几种方法:

echo ${#VAR}
echo -n $VAR | wc -m
echo -n $VAR | wc -c
printf $VAR | wc -m
expr length $VAR
expr $VAR : '.*'

要将结果设置到另一个变量中,只需将上述命令与反引号分配给另一个变量,如下所示:

并将结果设置到另一个变量中,只需将上述命令与反引号分配给另一个变量,如下所示:

otherVar=`echo -n $VAR | wc -m`   
echo $otherVar

http://techopsbook.blogspot.in/2017/09/how-to-find-length-of-string-variable.html


2

我知道Q&A已经老掉牙了,但今天我第一次面临这个任务。通常我使用${#var}组合,但它对Unicode不起作用:我处理的大多数文本是西里尔字母...根据@atesin的答案,我编写了一个简短(并且可以更简短)的函数,可用于脚本编写。这是导致我提出这个问题的任务:在伪图形框中显示某些长度可变的消息。所以,这就是:

$ cat draw_border.sh
#!/bin/sh
#based on https://dev59.com/VWQm5IYBdhLWcg3wwxLF
border()
{
local BPAR="$1"
local BPLEN=`echo $BPAR|wc -m`
local OUTLINE=\|\ "$1"\ \|
# line below based on https://www.cyberciti.biz/faq/repeat-a-character-in-bash-script-under-linux-unix/
# comment of Bit Twiddler Jun 5, 2021 @ 8:47
local OUTBORDER=\+`head -c $(($BPLEN+1))</dev/zero|tr '\0' '-'`\+
echo $OUTBORDER
echo $OUTLINE
echo $OUTBORDER
}
border "Généralités"
border 'А вот еще одна '$LESSCLOSE' '
border "pure ENGLISH"

这个示例会产生什么结果:

$ draw_border.sh
+-------------+
| Généralités |
+-------------+
+----------------------------------+
| А вот еще одна /usr/bin/lesspipe |
+----------------------------------+
+--------------+
| pure ENGLISH |
+--------------+

第一个例子(用法语?)来自上面某人的示例。 第二个例子结合了西里尔字母和某些变量的值。第三个例子不言自明:只有1/2的ASCII字符。

我使用了echo $BPAR|wc -m而非printf ...,以免依赖于printf是否内置。

上面提到了尾随换行符和-n参数用于echo。我没有使用它,因此只需将$BPLEN加1即可。如果我使用-n,则必须再加2。

为了解释wc -mwc -c之间的区别,请看只有一个小改动的相同脚本:-m被替换为-c

$ draw_border.sh
+----------------+
| Généralités |
+----------------+
+---------------------------------------------+
| А вот еще одна /usr/bin/lesspipe |
+---------------------------------------------+
+--------------+
| pure ENGLISH |
+--------------+

拉丁语中的重音字符和大多数西里尔文字符都是双字节的,因此横线的绘制长度比消息的实际长度更长。

希望这能节省一些人的时间 :-)

p.s. 俄语文本说“这是另一个”

p.p.s. 工作“两行者”

#!/bin/sh
#based on https://dev59.com/VWQm5IYBdhLWcg3wwxLF
border()
{
# line below based on https://www.cyberciti.biz/faq/repeat-a-character-in-bash-script-under-linux-unix/
# comment of Bit Twiddler Jun 5, 2021 @ 8:47
local OUTBORDER=\+`head -c $(( $(echo "$1"|wc -m) +1))</dev/zero|tr '\0' '-'`\+
echo $OUTBORDER"\n"\|\ "$1"\ \|"\n"$OUTBORDER
}
border "Généralités"
border 'А вот еще одна '$LESSCLOSE' '
border "pure ENGLISH"

为了避免代码中重复绘制OUTBORDER而导致混乱,我将OUTBORDER的形成放入单独的命令中。

2
也许只需要使用wc -c来计算字符数:
myvar="Hello, I am a string."
echo -n $myvar | wc -c

结果:

21

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接