C# - System.Text.Json의 기본적인 (한글 등에서의) escape 처리
Json.NET의 경우,
Json.NET
; https://www.newtonsoft.com/json
아래의 한글이 포함된 문자열을 직렬화하면,
using Newtonsoft.Json;
namespace ConsoleApp2;
// Install-Package Newtonsoft.Json
internal class Program
{
static void Main(string[] args)
{
MyClass mc = new MyClass { Name = "\"<테스트>\"", Age = 20 };
string text = JsonConvert.SerializeObject(mc, Formatting.Indented);
File.WriteAllText("data.json", text);
}
}
public class MyClass
{
public string Name { get; set; } = "";
public int Age { get; set; } = 1;
}
이런 결과가 나옵니다.
{
"Name": "\"<테스트>\"",
"Age": 20
}
반면, .NET에 내장된 System.Text.Json을 사용하면
internal class Program
{
static JsonSerializerOptions jsonOptions = new()
{
WriteIndented = true
};
static void Main(string[] args)
{
MyClass mc = new MyClass { Name = "\"<테스트>\"", Age = 20 };
string txt = JsonSerializer.Serialize(mc, jsonOptions);
File.WriteAllText("data.json", txt);
}
}
이렇게 나옵니다.
{
"Name": "\u0022\u003C\uD14C\uC2A4\uD2B8\u003E\u0022",
"Age": 20
}
이에 대해서는 이미 마이크로소프트의 공식 문서에서 자세하게 설명하고 있습니다.
System.Text.Json을 사용하여 문자 인코딩을 사용자 지정하는 방법
; https://learn.microsoft.com/ko-kr/dotnet/standard/serialization/system-text-json/character-encoding
위의 문서에서 제시하는 가장 간단한 방법으로 "모든 문자 직렬화"가 있는데요, 이 옵션을 사용하면,
static JsonSerializerOptions jsonOptions = new()
{
Encoder = JavaScriptEncoder.UnsafeRelaxedJsonEscaping,
WriteIndented = true
};
이제 출력은 (Json.NET과 동일하게) 다음과 같이 바뀝니다.
{
"Name": "\"<테스트>\"",
"Age": 20
}
하지만, 이 옵션에는
(문서에 명시한) 보안 주의 사항이 있으므로 별로 마음에 들지 않는데요, 사실 우리가 원하는 것은 한글과 일반 영숫자만 escape 처리가 안 되는 정도면 만족할 수 있으므로 다음과 같이 선택적으로 Encoder를 구성해 지정하는 것도 좋은 선택입니다.
static JsonSerializerOptions jsonOptions = new()
{
Encoder = JavaScriptEncoder.Create(
UnicodeRanges.BasicLatin, // 일반 영숫자
UnicodeRanges.HangulCompatibilityJamo, // 이하 한글 관련 문자
UnicodeRanges.HangulJamo,
UnicodeRanges.HangulJamoExtendedA,
UnicodeRanges.HangulJamoExtendedB,
UnicodeRanges.HangulSyllables
),
WriteIndented = true
};
그럼 출력은 다시 이렇게 바뀝니다.
{
"Name": "\u0022\u003C테스트\u003E\u0022",
"Age": 20
}
보는 바와 같이 HTML 구분 문자를 모두 escape 처리하기 때문에 보안에 걸릴 걱정을 하지 않아도 됩니다.
만약, 일본어나 중국어 등에 대해서도 저런 escape 처리를 없애야 한다면 UnicodeRanges를 일일이 추가하기보다는 그냥 All을 선택하는 것도 좋습니다.
static JsonSerializerOptions jsonOptions = new()
{
Encoder = JavaScriptEncoder.Create(UnicodeRanges.All),
WriteIndented = true
};
그래도 HTML 구분 문자들은 여전히 escape 처리를 한다는 점에서 JavaScriptEncoder.UnsafeRelaxedJsonEscaping 옵션과는 다른 장점이 있습니다.
그나저나, 이 글을 쓰면서 예전에 겪었던 상황이 떠오르는군요. ^^
curl - json_parse_exception / Invalid UTF-8 start byte
; https://www.sysnet.pe.kr/2/0/12307
그 당시 json 데이터를 curl에서 보내기 위해 이런 식으로 구성했는데요,
curl -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }"
일일이 "\"" 글자를 escape 처리하는 것이 귀찮았는데 어찌 보면 System.Text.Json으로 저 Json 데이터를 구성했다면 문제가 없었을 것입니다.
[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]