Url2io 是一个提供简单且强大的网页正文提取服务,提供ESTful API 接口,用来提取并解析网页中的正文区域,实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。
功能特色:
1、标题识别:不仅仅是简单地提取 title 标签,而是智能识别网页正文的标题;
2、正文识别:提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。
3、发布日期识别:智能识别文章的发布日期;
4、下一页链接识别:智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面,所以这个功能会非常有用。