String str2=<span class="hljs-keyword">new</span> String(byteArray1,<span class="hljs-string">"GBK"</span>);
System.out.println(<span class="hljs-string">"转成GBK会乱码"</span>+str2);
<span class="hljs-comment">//将GBK编码的unicode字符串转回为byte[]</span>
<span class="hljs-keyword">byte</span>[] byteArray2=str2.getBytes(<span class="hljs-string">"GBK"</span>);<span class="hljs-comment">//数据会不会丢失呢</span></code></pre>
public static void demo(String str) throws Exception {
System.out.println("原文" + str);
byte[] utfByte = str.getBytes("UTF-8");
System.out.print("utf Byte");
printHex(utfByte);
String gbk = new String(utfByte, "GBK");
System.out.println("to GBK" + gbk);
byte[] gbkByte=gbk.getBytes("GBK");
String utf = new String(gbkByte, "UTF-8");
System.out.print("gbk Byte");
printHex(gbkByte);
System.out.println("revert UTF8" + utf);
System.out.println("===");
}
public static void printHex(byte[] byteArray) {
StringBuffer sb = new StringBuffer();
for (byte b : byteArray) {
sb.append(Integer.toHexString((b >> <span class="hljs-number">4</span>) & <span class="hljs-number">0xF</span>));
sb.append(Integer.toHexString(b & <span class="hljs-number">0xF</span>));
sb.append(<span class="hljs-string">" "</span>);
}
System.out.println(sb.toString());
};
public static void main(String[] args) throws Exception {
String str1 = "姓名";
String str2 = "用户名";
demo(str1,"UTF-8","ISO-8859-1");
demo(str2,"UTF-8","ISO-8859-1");
demo(str1,"UTF-8","GBK");
demo(str2,"UTF-8","GBK");
}
原文姓名
UTF-8 Bytee5 a7 93 e5 90 8d
to ISO-8859-1:姓å
ISO-8859-1 Bytee5 a7 93 e5 90 8d
原文用户名
UTF-8 Bytee7 94 a8 e6 88 b7 e5 90 8d
to ISO-8859-1:用户å
ISO-8859-1 Bytee7 94 a8 e6 88 b7 e5 90 8d
原文姓名
UTF-8 Bytee5 a7 93 e5 90 8d
to GBK:濮撳悕
GBK Bytee5 a7 93 e5 90 8d
原文用户名
UTF-8 Bytee7 94 a8 e6 88 b7 e5 90 8d
to GBK:鐢ㄦ埛鍚
GBK Bytee7 94 a8 e6 88 b7 e5 90 3f
为什么GBK会出错
前三段都没问题最后一段奇数个汉字的utf-8字节流转成GBK字符串再转回来前面一切正常最后一个字节变成了 “0x3f”即”?”
我们使用”用户名” 三个字来分析它的UTF-8 的字节流为
[e7 94 a8] [e6 88 b7] [e5 90 8d]
我们按照三个字节一组分组他被用户A当做一个整体交给用户B。
用户B由于不知道是什么字符集他当做GBK处理因为GBK是双字节编码如下按照两两一组进行分组
[e7 94] [a8 e6] [88 b7] [e5 90] [8d ]
不够了怎么办它把 0x8d当做一个未知字符用一个半角Ascii字符的 “” 代替变成了
[e7 94] [a8 e6] [88 b7] [e5 90] 3f
数据被破坏了。
为什么 ISO-8859-1 没问题
因为 ISO-8859-1 是单字节编码因此它的分组方案是
[e7] [94] [a8] [e6] [88] [b7] [e5] [90] [8d]
因此中间不做任何操作交回个用户A的时候数据没有变化。
关于Unicode编码
因为UTF-16 区分大小端严格讲unicode==UTF16BE。
public static void main(String[] args) throws Exception {
String str="测试";
printHex(str.getBytes("UNICODE"));
printHex(str.getBytes("UTF-16LE"));
printHex(str.getBytes("UTF-16BE"));
}
fe ff 6d 4b 8b d5
4b 6d d5 8b
6d 4b 8b d5
其中 “fe ff” 为大端消息头同理小端消息头为 “ff fe”。
作为中间转存方案ISO-8859-1 是安全的。
UTF-8 字节流用GBK字符集中转是不安全的反过来也是同样的道理。
byte[] utfByte = str.getBytes("UTF-8");
String gbk = new String(utfByte, "GBK");
这是错误的用法虽然在ISO-8859-1时并没报错。
首先byte[] utfByte = str.getBytes("UTF-8");
执行完成之后utfByte 已经很明确这是utf-8格式的字节流
然后gbk = new String(utfByte, "GBK")
对utf-8的字节流使用gbk解码这是不合规矩的。
就好比一个美国人说一段英语让一个不懂英文又不会学舌的日本人听然后传递消息给另一个美国人。
为什么ISO-8859-1 没问题呢
因为它只认识一个一个的字节就相当于是一个录音机。我管你说的什么鬼话连篇过去直接播放就可以了。
getBytes() 是会丢失数据的操作而且不一定会抛异常。
unicode是安全的因为他是java使用的标准类型跨平台无差异。