为了账号安全,请及时绑定邮箱和手机立即绑定

java保存繁体网页打开后出现乱码

java保存繁体网页打开后出现乱码

饮歌长啸 2019-03-22 18:18:04
想实现下保存网页,试了下百度可以,打开来没有问题,但试了试url如果是www.google.com.hk,打开来就是乱码。。。不知道怎么解决学java没多久。。新手求教。。以下是java代码    public static void savePage(URL url) throws IOException, ParserException, IllegalArgumentException{        InputStream is = url.openStream();        int i;        String title = HTMLHelper.getTitle(url);        String file = url.getFile().trim();        String host = url.getHost().trim();        String filename = title+"("+url.getHost()+file+")";        FileOutputStream fos = new FileOutputStream("Pages\\"+filename+".html");        do{            i = is.read();            fos.write(i);        }        while(i!=-1);        is.close();        fos.close();        System.out.println("Success!The filename is:"+filename+".html");            }
查看完整描述

3 回答

?
慕雪6442864

TA贡献1812条经验 获得超5个赞

应该是文件编码的问题,百度首页编码是GBK,而Google则是UTF-8。

选择合适的编辑器打开,应当能够正确识别。


查看完整回答
反对 回复 2019-04-15
?
湖上湖

TA贡献2003条经验 获得超2个赞

我觉得有两种可能:
1、google禁止了爬虫,需要模拟浏览器,在请求头添加浏览器信息才可以
2、google使用了gzip压缩,需要对下载过来的数据进行gzip解压才能查看

查看完整回答
反对 回复 2019-04-15
  • 3 回答
  • 0 关注
  • 715 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号