导航菜单
首页 » 无极荣耀登陆 » 正文

低压高怎么办-python编码格局

咱们在写代码的时分经常会遇到乱码等问题,其实便是由于编码格局不正确,那咱们现在来简略看一下关于编码的相关常识

一、ASCII 码

计算机存储数据是用0、1存储的,为了存储英文字符等,所以呈现了一个ASCII编码表,经过这个表便是把对应的英文转化对应为相应的0、1数据存储到计算机,可是英文只低压高怎么办-python编码格局要26个字母,中文有6万多汉字,ASCII编码不行,所以根据需要就呈现了unicode、utf-8等编码,实践能够理解为它们把全球的文字编码对应到计算机的0、1来存储辨认。

ASCII 码运用指定的 7 位或 8 位二进制数组合来表明 128 或 256 种或许的字符。规范 ASCII 码也叫根底ASCII码,运用 7 位二进制数来表明一切的大写和小写字母,数字 0 到 9、标点符号, 以及在美式英语中运用的特别控制字符。其间:

  • 0~31及127(共33个)是控制字符或通讯专用字符(其他为可显现字符),如控制低压高怎么办-python编码格局符:LF(换行)、CR(回车)、FF(换页)、DEL(删去)、BS(退格)、BEL(振铃)等。通讯专用字符:SOH(文头)、EOT(文尾)、ACK(承认)等;
  • ASCII值为 8、9、10 和 13 别离转化为退格、制表、换行和回车字符。它们并没有特定呼兰河传的图形显现,但会依不同的应用程序,而对文本显现有不同的影响。
  • 32~126(共95个)是字符(32sp是空格),其间48~57为0到9十个阿拉伯数字;
  • 65~90为26个大写英文字母,97~122号为26个小写英文字母,其他为一些标点符号、运算符号等



Unicode

Unicode是为了处理传统的字符编码的限制而发生的。对世界上大部分的文字体系进行了编码、收拾,使电脑能够更便利的处理和展现文字。Unicode选用16位编码空间,每个字符占2个字节。Unicode的完成方法称为Unicode转化格局

Unicode码扩展自ASCII字元集。在严厉的ASCII中,每个字元用7位元表明,或许电脑上遍及运用的每字元有8位元宽。而Unicode运用全16位元字元集。这使得Unicode能够表明世界上一切的书写语言中或许用於电脑通讯的字元、象形文字和其他符号。

不同的编码方法会形成乱码问题,Unicode将世界上一切符号都归入其间。每一个符号都给予一个编码,这低压高怎么办-python编码格局样就就处理了乱码问题。Unicode现在的规划能够包容低压高怎么办-python编码格局100多万个符号,每个符号的编码都不相同,例如U+4E0A表明上,U+4E0B表明下,详细的符号对应表能够检查:http://www.chi2ko.com/tool/CJK.htm

UTF-8

UTF全称(Unicode Transformation Format),所以它是一种针对前面说到的Unicode的编码格局,常见的格局便是 UTF-8,还有 UTF-16, UTF-32。

UTF-8 其间的 8 表明的是 8 bit,即Unicode中每8位表明一个字符,UTF-16 和 UTF-32 相似,由于Unicode最多才21位,32位大于21位,所以 UTF-32 的格局就能够表明一切字符对应的Unicode码了,可是呢,32位也便是4字节,让每个字符都占用4字节太费空间了,所以呈现了UTF-8和UTF-16。

UTF-8 编码规矩如下:

UnicodebitUTF-8byte0x0000 - 0x007f0 - 70XXX XXXX10x0080 - 0x07ff8 - 11110X XXXX 10XX XXXX20x0800 - 0xffff12 - 161110 XXXX 10XX XXXX 10XX XXXX30x1 0000 - 0x1f ffff17 - 211111 0XXX 10XX XXXX 10XX XXXX 10XX XXXX4

  • 每个字节中缺乏8位的,高位(左面)先用0补上,比方 0XXXX XXXX;
  • 超越两字节表明的UTF-8,第一个字节高位增加两个 1 和一个 0,后边的字节高位增加 10;
  • 3字节和4字节同理,几个字节高位就添几个 1 再加上一个 0,其他字节低压高怎么办-python编码格局高位添 10;

设置编码格局

Python中默许的编码格局是 ASCII 格局,在没修正编码格局时无法正确打印汉字,所以低压高怎么办-python编码格局在读取中文时会报错。处理方法为在文件的最初参加 # -*- coding: UTF-8 -*-或许#coding=utf-8 就行了。

咱们要记住写python程序的时分一般运用utf-8编码格局来存储编码格局,网页里边相同的也声明utf-8即可,utf-8是中文、英文、日文等全球文字都能够运用的编码格局,通用性很强。

在Pycharm 中设置编码格局的过程:File --> setting --> File Encodings



二维码