ES6+ 字符串的扩展_ES6-10 入门教程-慕课网

杀手Kira · 更新于 2020-06-17

ES6+ Math 对象的扩展

ES6+ includes()

1. 前言

由于历史原因，在 JavaScript 创建之初，市面上的编码方式还是很混乱的，JavaScript 在创建之初，使用的是 1990 年公布的 UCS-2 的编码方法，使用 2 个字节表示 1 个字符，那时 UTF-8、UTF-16、UTF-32 还没有完全确定。现在的 JavaScript 主要使用的是 UTF-16 来存储的。

但针对于纷繁复杂的网页字符是不能完全地覆盖的，在早期使用浏览器时，经常会在浏览器中选择字符串编码方式。那么有没有一种编码可以涵盖世界上的所有字符呢？答案是有的 ——Unicode。它是一个字符集，它的定义很简单，用一个码点 (code point) 映射一个字符。码点值的范围是从 U+0000 到 U+10FFFF，可以表示超过 110 万个符号。

所以后来的 ECMAScript 一直致力于解决历史遗留的问题和统一浏览器的编码方式。这时 ES6 出来了，对 Unicode 进行了加强，也修复了 ES5 中的问题。在模版字符串的小节中已经学习了关于字符串模板字符串的内容，本节我们继续学习 ES6 中字符串其他的扩展。

2. Unicode

Unicode 只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。所以出现了 Unicode 的多种存储方式，不同的实现导致了 Unicode 在很长一段时间内无法推广，而且本来英文字母只用一个字节存储就够了，如果 Unicode 统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是空，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。

首先我们来看下一个字符是怎么表示的，JavaScript 提供了 charCodeAt() 获取指定位置的字符的值，返回的值在 0 到 65535 之间的整数。

var str = '慕课';
console.log(str.charCodeAt(0));	// 24917 转成十六进制 0x6155
console.log(str.charCodeAt(1));	// 35838 转成十六进制 0x8bfe
console.log(str.charCodeAt(2));	// NaN

看上面代码打印结果，并转成十六进制了，而 Unicode 表示是把前面的 0x 换成 u，这就是 Unicode 的表示。在 ES5 中还存在一个问题，实例如下：

let str = '?';

console.log(str.length)  // 2 ，str 是 Emoji 表情符

console.log(str.charCodeAt(0)) // 55358 转成十六进制 0xd83e
console.log(str.charCodeAt(1)) // 56618 转成十六进制 0xdd2a

console.log('\ud83e\udd2a' === '?') // true

上面的代码可以看到 str 是一个 Emoji 的表情符号，使用length 属性可以得到它的长度是 2，这完全不符合我们对这个字符串的定义。这就是 JavaScript 的编码问题。为解决 charCodeAt() 方法获取字符码位错误的问题，新增 codePointAt() 方法。

codePointAt() 方法完全支持 UTF-16，参数接收的是编码单元的位置而非字符位置，返回与字符串中给定位置对应的码位，即一个整数，如下实例：

let str = '?';

console.log(str.codePointAt(0)) // 129322 转成十六进制 0x1f92a => u1f92a
console.log(str.codePointAt(1)) // 56618 转成十六进制 0xdd2a => udd2a

上面的代码中，第二行打印位置 0 处的编码单元开始的码位，此例是从这个编码单位开始的两个编码单元组合的字符（四个字节），所以会打印出所有码位，即四字节的码位 129322 即 0x1f92a，大于 0xffff，也证明了是占四个字节的存储空间。

3. 字符串的遍历器接口

ES6 为字符串添加了可遍历接口，使得字符串可以被 for...of 进行循环遍历。如下实例：

var str = '慕课网?';
for (let item of str) {
  console.log(item);
}
// 慕
// 课
// 网
// ?

上面的代码中，最后一个是 emoji 表情字符，存储时占 4 个字节，但是通过 for...of 可以正确地迭代为一个字符。在 ES5 中则不行，我们来看个实例，把上面的字符串使用 ES5 中的 split 方法把字符串转化成数组：

var str = '慕课网?';
console.log(str.split(''))
// ["慕", "课", "网", "�", "�"]

从上面的代码中可以清晰地反映出表情字符是占四个字节，但是，ES5 不能把它当作一个字节来处理所以就会出现数组后两个元素的样子。这也是 ES5 存在的主要问题之一，可以通过迭代器对复杂的字符串进行正确的处理。

4. 小结

ES6 还提供了其他的字符串操作的方法，接下来的几节专门讲解字符串中新增的方法，更好地解决实际的开发问题。另外，ES6 还增加了模版字符串和带标签的模板字符串，在模板字符串中进行了讲解，遗忘的可以去看看。本节主要讲解了，字符串对 Unicode 的增强，还有对字符串增加了遍历接口，非常实用。

ES6+ Math 对象的扩展

ES6+ includes()

我要提出意见反馈

热搜

最近搜索 清空

我的购物车

已加入门课程

购物车里空空如也

ES6-10 入门教程

前端开发

JavaScript

JavaScript 入门教程

TypeScript 入门教程

Vue 入门教程

Ajax 入门教程

ES6-10 入门教程

Yarn 入门教程

ECharts 入门教程

HTML & CSS

CSS3 入门教程

雪碧图入门教程

移动端布局教程

Html5 入门教程

Sass 入门教程

HTML 入门教程

canvas 入门教程

uni-app 入门教程

服务端相关

服务器

Nginx 入门教程

HTTP 入门教程

Docker 入门教程

Shell 入门教程

Linux 入门教程

开发工具

Gradle 入门教程

Vim 编辑器教程

RESTful 规范教程

Dreamweaver 教程

Markdown 入门教程

Maven 入门教程

Eclipse 编辑器教程

GitHub 入门教程

Android Studio 编辑器教程

PyCharm 编辑器教程

Sublime Text 使用教程

Postman 教程

Git入门教程

热门服务端语言

C 语言入门教程

Go 入门教程

Kotlin 教程

Ruby 入门教程

ThinkPHP 入门教程

Java

基础应用

Java 入门教程

Android 入门教程

算法入门教程

数据结构入门教程

Lambda 表达式教程

Java 并发原理入门教程

设计模式入门教程

Java并发工具

JVM 入门教程

RabbitMQ 入门教程

网络编程入门教程

后端通用面试教程

框架应用

Spring Boot 入门教程

Spring 入门教程

Hibernate 入门教程

MyBatis 入门教程

Spring MVC 入门教程

Swagger 入门教程

Zookeeper 入门教程

Netty 教程

Spring Security

微服务

Spring Cloud Hystrix

Python

基础应用

Python 入门语法教程

最近搜索清空