假设我有一个URL地址
http://example.com/query?q=
我有一个用户输入的查询语句,例如:
随机单词 £500 银行 $
我希望结果是一个正确编码的URL:
http://example.com/query?q=random%20word%20%A3500%20bank%20%24
哪种方法最好实现这个目标?我尝试使用URLEncoder
和创建URI/URL对象,但它们都不完全正确。
假设我有一个URL地址
http://example.com/query?q=
我有一个用户输入的查询语句,例如:
随机单词 £500 银行 $
我希望结果是一个正确编码的URL:
http://example.com/query?q=random%20word%20%A3500%20bank%20%24
哪种方法最好实现这个目标?我尝试使用URLEncoder
和创建URI/URL对象,但它们都不完全正确。
URLEncoder
是最好的选择。您只需要记住对单独的查询字符串参数名称和/或值进行编码,而不是整个URL,确保不编码查询字符串参数分隔符字符 &
或参数名称-值分隔符字符 =
。String q = "random word £500 bank $";
String url = "https://example.com?q=" + URLEncoder.encode(q, StandardCharsets.UTF_8);
当您仍未使用Java 10或更高版本时,请使用StandardCharsets.UTF_8.toString()
作为charset参数;当您仍未使用Java 7或更高版本时,请使用"UTF-8"
。+
表示,而不是%20
,尽管%20
也是合法的。通常情况下,%20
用于表示URI本身中的空格(即查询字符串分隔符字符?
之前的部分),而不是查询字符串(?
之后的部分)。encode()
方法。其中一个没有第二个参数Charset
,另一个带有String
作为第二个参数并抛出已检查异常。没有Charset
参数的方法已被弃用。永远不要使用它,而是始终指定Charset
参数。即使在javadoc中,也明确推荐使用UTF-8编码,这是由RFC3986和W3C所规定的。
另请参阅:Web开发人员必须了解的URL编码知识。所有其他字符都不安全,并且首先使用某种编码方案将它们转换为一个或多个字节。然后,每个字节用三个字符的字符串“%xy”表示,其中xy是字节的二位十六进制表示。建议使用的编码方案是UTF-8。但是出于兼容性原因,如果未指定编码,则使用平台的默认编码。
URLEncoder
用于符合 application/x-www-form-urlencoded
规则的 URL 编码查询参数。路径参数不适用于此类别。你需要使用 URI 编码器。 - BalusC我不会使用URLEncoder
,因为它的名称不正确(URLEncoder
与URL无关),效率低下(它使用StringBuffer
而不是Builder
,并执行一些缓慢的操作)。此外,也很容易搞砸。
相反,我会使用URIBuilder
或Spring的org.springframework.web.util.UriUtils.encodeQuery
或Commons Apache HttpClient
。原因是您必须以不同的方式转义查询参数名称(即BalusC的答案q
)和参数值。
上述方法唯一的缺点(我痛苦地发现了)是URL不是URI的真正子集。
示例代码:
import org.apache.http.client.utils.URIBuilder;
URIBuilder ub = new URIBuilder("http://example.com/query");
ub.addParameter("q", "random word £500 bank \$");
String url = ub.toString();
// Result: http://example.com/query?q=random+word+%C2%A3500+bank+%24
URLEncoder
的Java文档中指出,它旨在按照HTML规范描述的 application/x-www-form-urlencoded
格式编码查询字符串参数:http://www.w3.org/TR/html4/interact/forms.html#didx-applicationx-www-form-urlencoded。一些用户确实会混淆/滥用它来编码整个URI,就像当前答复者显然所做的那样。 - BalusC您需要先创建一个类似于以下的URI:
String urlStr = "http://www.example.com/CEREC® Materials & Accessories/IPS Empress® CAD.pdf"
URL url = new URL(urlStr);
URI uri = new URI(url.getProtocol(), url.getUserInfo(), url.getHost(), url.getPort(), url.getPath(), url.getQuery(), url.getRef());
然后将该URI转换为ASCII字符串:
urlStr = uri.toASCIIString();
现在您的URL字符串已完全编码。首先,我们进行了简单的URL编码,然后将其转换为ASCII字符串,以确保字符串中没有美国ASCII之外的字符。这正是浏览器所做的。
URL.toURI()
却不行。 - user11153+
替换空格,但接受%20,因此这个解决方案比BalusC更好,谢谢! - Julian HonmaGuava 15 现在已经新增了 一组简单易用的 URL 转义工具。
URLEncoder
相同,都受到愚蠢的转义规则的影响。 - 2rs2tsURLEncoder
不会这样做。 - Emmanuel Touzery这段代码
URL url = new URL("http://example.com/query?q=random word £500 bank $");
URI uri = new URI(url.getProtocol(), url.getUserInfo(), IDN.toASCII(url.getHost()), url.getPort(), url.getPath(), url.getQuery(), url.getRef());
String correctEncodedURL = uri.toASCIIString();
System.out.println(correctEncodedURL);
打印
http://example.com/query?q=random%20word%20%C2%A3500%20bank%20$
这里正在发生什么?
1. 将URL拆分为结构部分。使用java.net.URL
进行操作。
2. 正确地对每个结构部分进行编码!
3. 使用IDN.toASCII(putDomainNameHere)
对主机名进行Punycode编码!
4. 使用java.net.URI.toASCIIString()
进行百分比编码,针对NFC编码的Unicode - (更好的选择是NFKC!)。有关更多信息,请参见:如何正确编码此URL
在某些情况下,建议检查是否已对URL进行了编码。还需将以“+”编码的空格替换为以“%20”编码的空格。
以下是一些也能正常工作的示例
{
"in" : "http://نامهای.com/",
"out" : "http://xn--mgba3gch31f.com/"
},{
"in" : "http://www.example.com/‥/foo",
"out" : "http://www.example.com/%E2%80%A5/foo"
},{
"in" : "http://search.barnesandnoble.com/booksearch/first book.pdf",
"out" : "http://search.barnesandnoble.com/booksearch/first%20book.pdf"
}, {
"in" : "http://example.com/query?q=random word £500 bank $",
"out" : "http://example.com/query?q=random%20word%20%C2%A3500%20bank%20$"
}
这个解决方案通过了由Web Platform Tests提供的大约100个测试用例。
使用Spring的UriComponentsBuilder:
UriComponentsBuilder
.fromUriString(url)
.build()
.encode()
.toUri()
String addQueryStringToUrlString(String url, final Map<Object, Object> parameters) throws UnsupportedEncodingException {
if (parameters == null) {
return url;
}
for (Map.Entry<Object, Object> parameter : parameters.entrySet()) {
final String encodedKey = URLEncoder.encode(parameter.getKey().toString(), "UTF-8");
final String encodedValue = URLEncoder.encode(parameter.getValue().toString(), "UTF-8");
if (!url.contains("?")) {
url += "?" + encodedKey + "=" + encodedValue;
} else {
url += "&" + encodedKey + "=" + encodedValue;
}
}
return url;
}
在Android中,我会使用以下代码:
Uri myUI = Uri.parse("http://example.com/query").buildUpon().appendQueryParameter("q", "random word A3500 bank 24").build();
其中Uri
是一个android.net.Uri
public static String encodeUrl(String url) throws Exception {
if (url == null || !url.contains("?")) {
return url;
}
List<String> list = new ArrayList<>();
String rootUrl = url.split("\\?")[0] + "?";
String paramsUrl = url.replace(rootUrl, "");
List<String> paramsUrlList = Arrays.asList(paramsUrl.split("&"));
for (String param : paramsUrlList) {
if (param.contains("=")) {
String key = param.split("=")[0];
String value = param.replace(key + "=", "");
list.add(key + "=" + URLEncoder.encode(value, "UTF-8"));
}
else {
list.add(param);
}
}
return rootUrl + StringUtils.join(list, "&");
}
public static String decodeUrl(String url) throws Exception {
return URLDecoder.decode(url, "UTF-8");
}