首页  ·  知识 ·  前端
获取HTML页面内容后格式化显示的办法
佚名  http://www.cnblogs.com/jackyrong/    编辑:dezai  图片来源:网络
取html页面内容的方法有很多了,一般都是连接上以后取得页面的内容,然后进行分析。一般用JDK里面提供的URL和URLConnection 类,就可以实现;当然
取html页面内容的方法有很多了,一般都是连接上以后取得页面的内容,然后进行分析。一般用JDK里面提供的  URL和URLConnection 类,就可以实现;当然,也可以用其他工具来实现,比如 httpunit(用这个有时候会有问题,如果页面里面有反盗链的设置或者其他一些有问题的代码,很可能就连接不上了)。 如果单纯只是想得到页面的内容,用JDK里面提供的类就足够。

得到了页面内容以后,怎么显示在我们自己的页面上面呢?特别是要显示在TEXTAREA这样的区域里面就会有点点麻烦。

因为我们获得的内容里面有html标记和javascript标记,或者css标记。

如果直接把这些内容打印出来,或者直接放到TEXTAREA里面,就会报错。。怎么来解决?

一般大家都会想到用字符串来替换,比如 把"<"替换成"[" 等等,或者用正则表达式,来过滤这些标记。

其实有一直很简单方法,就是把得到的页面内容放在

中间,例如:

然后用javascript来取content,

function show()
{
 form1.content.value = document.getElementById("content").innerText;
}

这样就自动过滤了那些烦人的标记

本文作者:佚名 来源:http://www.cnblogs.com/jackyrong/
CIO之家 www.ciozj.com 微信公众号:imciow
   
免责声明:本站转载此文章旨在分享信息,不代表对其内容的完全认同。文章来源已尽可能注明,若涉及版权问题,请及时与我们联系,我们将积极配合处理。同时,我们无法对文章内容的真实性、准确性及完整性进行完全保证,对于因文章内容而产生的任何后果,本账号不承担法律责任。转载仅出于传播目的,读者应自行对内容进行核实与判断。请谨慎参考文章信息,一切责任由读者自行承担。
延伸阅读