最近在做网页数据抓取时,发现某网站的URL采用二次编码方式,令人头疼。这种特殊处理容易踩坑,特此分享经验,提醒大家注意其编码规则,避免在数据获取过程中遇到不必要的麻烦。
1、 在微博搜索我爱你时,页面URL中该关键词被编码为%25E6%2588%2591%25E7%2588%25B1%25E4%25BD%25A0,这是经过双重百分号编码后的结果,反映了中文字符在网址传输过程中的标准转码形式。
2、 尝试了所有编码方式,仍无法获得预期结果。
3、 我在网上搜索许久,偶然看到有網友提到二次編碼,便重新打開了站長工具的URL在線編碼頁面進行嘗試。
4、 将字符集更改为gb2312,某浪技术较为陈旧。
5、 深爱着你,情意绵绵不断。
6、 %u6211%u7231%u4f60
7、 对结果再次进行URL编码即可得到最终结果。
8、 因此,C代码如下所示。
评论
更多评论