c语言中汉字是怎么存储的

在C语言中，汉字的存储方式主要有两种：单字节存储和多字节存储，下面分别对这两种存储方式进行详细的介绍。

樊城网站建设公司成都创新互联公司,樊城网站设计制作，有大型网站制作公司丰富经验。已为樊城上千余家提供企业网站建设服务。企业网站搭建\外贸网站制作要多少钱，请找那个售后服务好的樊城做网站的公司定做！

1、单字节存储

在早期的计算机系统中，由于内存资源有限，字符编码采用单字节编码方式，每个字符占用一个字节的空间，在这种编码方式下，英文字母、数字和一些特殊符号都可以用一个字节表示，但是对于汉字来说，一个字节的空间显然是不够的，为了解决这个问题，采用了一种变通的方法，将汉字和其他字符一起存储，每个字符占用一个字节的空间，这种方式称为单字节存储。

在ASCII码中，英文字母、数字和一些特殊符号都可以通过7位二进制数表示，最高位为0，而汉字无法用7位二进制数表示，因此需要将最高位设置为1，表示这是一个扩展字符，在单字节存储中，汉字的编码范围是2121H（十六进制）到7EFFH（十六进制）。

在C语言中，可以使用char类型来存储单字节编码的汉字。

#include 
int main() {
    char ch = '汉';
    printf("汉字：%c
", ch);
    return 0;
}

2、多字节存储

随着计算机技术的发展，内存资源得到了极大的提升，可以支持更多的字符编码，为了解决这个问题，采用了多字节编码方式，即每个汉字占用多个字节的空间，在C语言中，主要有以下几种多字节编码方式：GBK、GB2312、UTF8等。

（1）GBK编码

GBK编码是我国国家标准的一种汉字编码方式，全称为《汉字内码扩展规范》，GBK编码的特点是兼容ASCII码，共有21003个汉字和883个符号，在C语言中，可以使用unsigned char类型来存储GBK编码的汉字。

#include 
#include 
#include 
#include 
int main() {
    setlocale(LC_ALL, "chs"); // 设置本地化信息为简体中文
    wchar_t wstr[] = L"汉"; // 使用宽字符数组存储GBK编码的汉字
    char str[4]; // 使用字符数组存储转换后的字符串
    size_t len = wcstombs(str, wstr, sizeof(str)); // 将宽字符数组转换为多字节字符串
    printf("GBK编码的汉字：%s
", str); // 输出转换后的字符串
    return 0;
}

（2）GB2312编码

GB2312编码是我国国家标准的一种汉字编码方式，全称为《信息交换用汉字编码字符集基本集》，GB2312编码的特点是共包含6763个汉字和682个非汉字符号，在C语言中，可以使用unsigned short类型来存储GB2312编码的汉字。

#include 
#include 
#include 
#include 
int main() {
    setlocale(LC_ALL, "chs"); // 设置本地化信息为简体中文
    wchar_t wstr[] = L"汉"; // 使用宽字符数组存储GB2312编码的汉字
    char str[4]; // 使用字符数组存储转换后的字符串
    size_t len = wcstombs(str, wstr, sizeof(str)); // 将宽字符数组转换为多字节字符串
    printf("GB2312编码的汉字：%s
", str); // 输出转换后的字符串
    return 0;
}

（3）UTF8编码

UTF8编码是一种通用的字符编码方式，可以表示世界上几乎所有的字符，UTF8编码的特点是兼容ASCII码，对于英文字母、数字和一些特殊符号仍然使用单字节表示，而对于汉字等其他字符则使用多字节表示，在C语言中，可以使用char类型来存储UTF8编码的汉字。

#include 
#include 
#include 
#include 
#include 
#include  // 用于处理Unicode和MBCS之间的转换
int main() {
    setlocale(LC_ALL, "chs"); // 设置本地化信息为简体中文
    std::wstring_convert> converter; // 创建一个UTF8到宽字符的转换器对象
    std::wstring wstr = converter.from_bytes("汉"); // 将UTF8编码的字符串转换为宽字符字符串
    char str[4]; // 使用字符数组存储转换后的字符串
    size_t len = wcstombs(str, wstr.c_str(), sizeof(str)); // 将宽字符数组转换为多字节字符串
    printf("UTF8编码的汉字：%s
", str); // 输出转换后的字符串
    return 0;
}

在C语言中，汉字的存储方式主要有两种：单字节存储和多字节存储，单字节存储主要通过扩展ASCII码来实现，每个汉字占用一个字节的空间；而多字节存储主要有GBK、GB2312、UTF8等编码方式，每个汉字占用多个字节的空间，在实际应用中，可以根据需要选择合适的编码方式来存储和处理汉字。

文章名称：c语言中汉字是怎么存储的
新闻来源：http://www.shufengxianlan.com/qtweb/news37/517137.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容