在 Java 中將 UTF-8 轉換為 ISO-8859-1

一、簡介

當使用多個系統和資料來源時，字元編碼問題對於 Java 程式設計至關重要。

在本教程中，我們將討論如何將 UTF-8 編碼字串轉換為 Latin-1 編碼（通常稱為 ISO-8859-1 編碼）。

2. 問題定義

從 UTF-8 字串轉換為 ISO-8859-1 編碼環境可能非常困難。不以相同的方式映射每個字元可能會導致資料損壞或遺失。

為了使這個問題更容易理解，假設我們有 UTF-8 編碼的字串，應該將其轉換為 ISO-8859-1：

String string = "âabcd";

3. 使用`getBytes()`方法的直接方法

我們可以使用getBytes()方法直接從 UTF-8 編碼的字串中取得 ISO-8859-1 字節，如下所示：

byte[] expectedBytes = new byte[]{(byte) 0xE2, 0x61, 0x62, 0x63, 0x64};

 @Test
 void givenUtf8String_whenUsingGetByte_thenIsoBytesShouldBeEqual() {
 byte[] iso88591bytes = string.getBytes(StandardCharsets.ISO_8859_1);

 assertArrayEquals(expectedBytes, iso88591bytes);
 }

在這種方法中，我們有一個名為 string 的 UTF-8 編碼string ，其中包含âabcd,預期位元組數組expectedBytes表示該字串的ISO-8859-1編碼。

我們對具有 ISO-8859-1 字元集的string物件呼叫getBytes()方法，該方法傳回位元組數組iso88591bytes 。

最後，我們使用assertArrayEquals()來比較iso88591bytes和expectedBytes ，以確保轉換結果符合我們的預期。

這種方法提供了一種獲取所需位元組數組表示的直接方法。

4. 資料處理方法

在處理大型資料集或需要分塊資料處理的場景時，受控轉換方法變得非常有價值。利用 Java NIO 套件中的ByteBuffer和CharBuffer可以將 UTF-8 位元組解碼為字符，然後將它們編碼為 ISO-8859-1 位元組。

讓我們考慮以下範例：

@Test
 void givenString_whenUsingByteBufferCharBufferConvertToIso_thenBytesShouldBeEqual() {
 ByteBuffer inputBuffer = ByteBuffer.wrap(string.getBytes(StandardCharsets.UTF_8));
 CharBuffer data = StandardCharsets.UTF_8.decode(inputBuffer);

 ByteBuffer outputBuffer = StandardCharsets.ISO_8859_1.encode(data);
 byte[] outputData = new byte[outputBuffer.remaining()];
 outputBuffer.get(outputData);

 assertArrayEquals(expectedBytes, outputData);
 }

在這裡，我們首先將字串的 UTF-8 編碼位元組包裝到ByteBuffer中。然後，使用decode()方法，我們使用UTF-8字元集將這些位元組解碼為字元。

接下來，我們利用encode()方法使用ISO-8859-1字元集將字元編碼回位元組，並將結果儲存在outputData中。

這種方法提供了對轉換過程的細粒度控制，這對於需要部分資料處理或操作的場景特別有用。

5. 結論

總之，我們討論了將 UTF-8 編碼字串轉換為 ISO-8859-1 的兩種方法。直接位元組轉換方法使用getBytes()方法，提供更直接的轉換機制。

另一方面，部分資料處理方法利用ByteBuffer和CharBuffer,它們可以更好地控制轉換過程。

與往常一樣，本文的完整程式碼範例可以在 GitHub 上找到。

本作品係原創或者翻譯，採用《署名-非商業性使用-禁止演繹4.0國際》許可協議