17370845950

新闻动态

URL编码中波浪号（~）的处理方法详解

python默认url编码不转义波浪号`~`，因其属于rfc 3986定义的“未保留字符”，合法存在于url中；若需强制编码为`%7e`，需自定义编码逻辑或显式指定`safe=''`参数。

在Python中使用urllib.parse.quote()进行URL编码时，~（波浪号）默认不会被编码——这并非bug，而是严格遵循URI标准（RFC 3986）：~被明确列为未保留字符（unreserved characters），与字母、数字、-, _, ., !, ', (, ), * 等一同允许直接出现在URL中，无需百分号转义。其对应的编码%7E虽语法正确，但非必需。

因此，以下代码行为完全符合规范：

from urllib.parse import quote

url = 'https://bla/ble:bli~'
print(quote(url))           # 输出: 'https%3A//bla/ble%3Abli~'
print(quote(url, safe='~')) # 输出: 'https%3A%2F%2Fbla%2Fble%3Abli~'（仅/被编码，~仍保留）

✅ 正确做法：如无特殊协议要求，应保持~原样——多数Web服务（如REST API、CDN、对象存储）均接受未编码的~，强行编码反而可能引发兼容性问题。

⚠️ 若业务场景强制要求编码所有特殊字符（含~），请避免简单替换（易出错），推荐使用safe=''参数清空安全字符集：

from urllib.parse import quote

url = 'https://bla/ble:bli~'
encoded = quote(url, safe='')  # 显式声明：无字符是“安全”的
print(encoded)  # 输出: 'https%3A%2F%2Fbla%2Fble%3Abli%7E'

此时~被编码为%7E，冒号:变为%3A，斜杠/变为%2F，全部符合W3Schools等教程所列编码表。

❌ 不建议手动遍历字符串+ord()+hex()拼接（如原答案中的url_encode()函数），原因包括：

无法正确处理Unicode字符（如中文、emoji）；
忽略了URL各组成部分（scheme、host、path、query）的不同编码规则；
重复替换可能导致错误（如%本身被多次编码成%25）；
违背urllib设计哲学——它已内置RFC合规实现。

? 进阶提示：

对完整URL编码，请优先使用urllib.parse.quote_plus()（空格→+）或urllib.parse.quote()（空格→%20）；

若需编码URL查询参数值（如?name=John Doe&tag=py~dev），应仅对value单独编码：

from urllib.parse import quote
params = f"name={quote('John Doe')}&tag={quote('py~dev')}"
# → 'name=John%20Doe&tag=py~dev'（~仍不编码，符合惯例）

第三方库如requests提供requests.utils.requote_uri()，可智能重编码已部分编码的URL，但同样尊重~的未保留地位。

总结：尊重标准比“看起来更编码”更重要。除非服务端文档明确要求~必须为%7E，否则保持默认行为即可——简洁、安全、兼容性强。

17370845950

关于我们

服务项目

广告推广

案例欣赏