6 字符型数据及其处理
6.1 字符型向量
字符型向量是元素为字符串的向量。 如
注意空字符串并不能自动认为是缺失值,
字符型的缺失值仍用NA
表示。
6.2 paste()
函数
针对字符型数据最常用的R函数是paste()
函数。
paste()
用来连接两个字符型向量,
元素一一对应连接,
默认用空格连接。
如paste(c("ab", "cd"), c("ef", "gh"))
结果相当于c("ab ef", "cd gh")
。
paste()
在连接两个字符型向量时采用R的一般向量间运算规则,
而且可以自动把数值型向量转换为字符型向量。
可以作一对多连接,
如paste("x", 1:3)
结果相当于c("x 1", "x 2", "x 3")
。
用sep=
指定分隔符,
如paste("x", 1:3, sep="")
结果相当于c("x1", "x2", "x3")
。
使用collapse=
参数可以把字符型向量的各个元素连接成一个单一的字符串,
如paste(c("a", "b", "c"), collapse="")
结果相当于"abc"
。
6.3 转换大小写
toupper()
函数把字符型向量内容转为大写,
tolower()
函数转为小写。
比如,toupper('aB cd')
结果为"AB CD"
,
tolower(c('aB', 'cd'))
结果相当于c("ab" "cd")
。
这两个函数可以用于不区分大小写的比较,
比如,不论x的值是'JAN'
, 'Jan'
还是'jan'
,
toupper(x)=='JAN'
的结果都为TRUE。
6.4 字符串长度
用nchar(x, type='bytes')
计算字符型向量x
中每个字符串的以字节为单位的长度,这一点对中英文是有差别的,
中文通常一个汉字占两个字节,英文字母、数字、标点占一个字节。
用nchar(x, type='chars')
计算字符型向量x
中每个字符串的以字符个数为单位的长度,这时一个汉字算一个单位。
在画图时可以用strwidth()
函数计算某个字符串或表达式占用的空间大小。
6.5 取子串
substr(x, start, stop)
从字符串x中取出从第start个到第stop个的子串,
如
## [1] "JAN"
如果x是一个字符型向量,substr
将对每个元素取子串。如
## [1] "JAN" "MAR"
用substring(x, start)
可以从字符串x中取出从第start个到末尾的子串。如
## [1] "07" "66"
6.6 类型转换
用as.numeric()
把内容是数字的字符型值转换为数值,如
substr('JAN07', 4, 5)
## [1] "07"
substr('JAN07', 4, 5) + 2000
## Error in substr("JAN07", 4, 5) + 2000 :
## non-numeric argument to binary operator
as.numeric(substr('JAN07', 4, 5)) + 2000
## [1] 2007
as.numeric(substr(c('JAN07', 'MAR66'), 4, 5))
## [1] 7 66
as.numeric()
是向量化的,
可以转换一个向量的每个元素为数值型。
用as.character()
函数把数值型转换为字符型,如
## [1] "5" "10" "15" "20" "25"
如果自变量本来已经是字符型则结果不变。
为了用指定的格式数值型转换成字符型,
可以使用sprintf()
函数,
其用法与C语言的sprintf()
函数相似,
只不过是向量化的。例如
## [1] "file001.txt" "file099.txt" "file100.txt"
6.7 字符串拆分
用strsplit()
函数可以把一个字符串按照某种分隔符拆分开,例如
## [1] "10" "8" "7"
## [1] 25
因为strsplit()
的结果是一个列表,
这个函数延后再详细讲。
6.8 字符串替换功能
用gsub()
可以替换字符串中的子串,
这样的功能经常用在数据清理中。
比如,把数据中的中文标点改为英文标点,
去掉空格,等等。
如
## [1] "1, 3, 5"
## [1] "1" " 3" " 5"
字符串x
中分隔符既有逗号又有分号,
上面的程序用gsub()
把分号都换成逗号。
更多的文本数据(字符型数据)功能参见36。
6.9 正则表达式
正则表达式(regular expression)是一种匹配某种字符串模式的方法。
用这样的方法,可以从字符串中查找某种模式的出现位置,
替换某种模式,等等。
这样的技术可以用于文本数据的预处理,
比如用网络爬虫下载的大量网页文本数据。
R中支持perl语言格式的正则表达式,
grep()
和grepl()
函数从字符串中查询某个模式,
sub()
和gsub()
替换某模式。
比如,
下面的程序把多于一个空格替换成一个空格
## [1] "a cat in a box"
正则表达式功能强大但也不容易掌握。 详见36。