问题还原
使用 erlang 存储一些特殊字符串到 MySQL 的时候,却没法读出来。经检查,这些字符串的二进制格式如下:
- <<240,159,152,134,240,159,152,144>>
查看二进制的 unicode 是什么?
- 14> unicode:characters_to_list(<<240,159,152,134,240,159,152,144>>).
- [128518,128528]
- 15> erlang:integer_to_list(128518,16).%%查看十六进制
- "1F606"
- 16> erlang:integer_to_list(128528,16).
- "1F610"
明显,1F606 和 1F610 超过了常见 unicode 字符串 0000-FFFF 的表达范围。
这里引用资料:http://cenalulu.github.io/linux/character-encoding/
1F606 和 1F610 代表什么?
根据 unicode 官网上的说明,这是一种 emoji(表情符号),具体的展示形式与厂商有关。
MySQL 上存储失败的原因
目前来说,多数 MySQL 都是以 utf8 存储,注意 MySQL 的 utf8 和我们所说的传统 utf8 有点区别。MySQL 的 utf8 编码规定了最多只能有 3 个字节,而 emoji 的 unicode 已经超过了 3 个字节,因此 MySQL 的 utf8 无法识别与存储 emoji。
为此可以查阅 MySQL 中关于 unicode 支持的资料,从中可以得知 MySQL 在 5.5 后开始支持 utf8mb4,这种编码支持 1 ~ 4 个字节,这种编码可以表示 emoji。
另外 utf8mb4 向下兼容 utf8。
关于 unicode 与 utf8 的详细介绍,请查看:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
解决方案
将 MySQL 中对应的字段改成 utf8mb4 编码:
- ALTER TABLE t1
- DEFAULT CHARACTER SET utf8mb4,
- MODIFY col1 CHAR(10)
- CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL,
- MODIFY col2 CHAR(10)
- CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL;
参考:http://dev.mysql.com/doc/refman/5.5/en/charset-unicode-upgrading.html
将连接库的连接编码改为 utf8mb4,以 erlang 的连接库 emysql 为例:
- emysql:add_pool(pool,[{size,1},{user,"user"},{password,"password"},{host,"host"},{port,3306},{encoding,utf8mb4}]).
- %%或者
- emysql:add_pool(pool,1,"user","password","host",3306,undefined, utf8mb4).
为了建表方便,可以修改 my.cnf:
- # 服务器字符集
- [mysql]
- default-character-set=utf8mb4
- [mysqld]
- character-set-server=utf8mb4
当前名称:如何在MySQL中存储emoji?
标题URL:http://www.shufengxianlan.com/qtweb/news19/310519.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联