how to use sed delete Unicode in some range?

Question

I want to remove Unicode in some range, e.g.:

echo "abcＡＢＣ123" | sed 's/[\uff21-\uff3b]//g'

expect "abc123", but get:

sed: -e expression #1, char 20: Invalid range end

or use:

echo "abcＡＢＣ123" | sed 's/[Ａ-Ｚ]//g'

get:

sed: -e expression #1, char 14: Invalid collation character

See https://ideone.com/woqDKM. Also, see https://stackoverflow.com/questions/8571601/skip-remove-non-ascii-character-with-sed — Wiktor Stribiżew, Jan 09 '18 at 07:21

score 4 · Accepted Answer · answered Jan 09 '18 at 07:23

Unicode support in sed is not well defined. You may be better off using command line perl:

echo "abcＡＢＣ123" | perl -CS -pe 's/[\x{FF21}-\x{FF3B}]+//g'

abc123

It is important to use -CS flags here to be able to get correct UTF8 encodings for input/output/error.

Sundeep · Answer 2 · 2018-01-09T11:27:22.900

1

Not sure why sed is not working, but you can use tr instead

$ echo 'abcＡＢＣ123' | tr -d 'Ａ-Ｚ'
abc123

From man tr

tr - translate or delete characters

-d, --delete delete characters in SET1, do not translate

edited Jan 09 '18 at 11:27

answered Jan 09 '18 at 07:08

Sundeep

2 Answers2