中文门户网站新闻和评论抓取。Powered by scrapy.

3997
    


来源:
Licence:
联系:
分类:
平台:
环境:
大小:
更新:
标签:
联系方式 :
免费下载 ×

下载APP,支持永久资源免费下载

限免产品服务请联系qq:1585269081

下载APP
免费下载 ×

下载APP,支持永久资源免费下载

下载APP 免费下载
下载 ×

下载APP,资源永久免费


如果出现不能下载的情况,请联系站长,联系方式在下方。

免费下载 ×

下载论文助手APP,资源永久免费

免费获取

如果你已经登录仍然出现不能下载的情况,请【点击刷新】本页面或者联系站长


NCspider 项目简介 中文门户网站新闻和评论抓取

A Python Project 编写目的 获取门户网站原始新闻及评论素材,结构化存储后,为分析舆情提供数据基础


门户网站新闻有着微博不可替代的一些特点

请参考配置说明,为了方便展示,可以结合django建立数据库 只需要爬虫的话建立database后修改settings.py相应参数就好了 对于网页的解析只用了re正则解析(快过Beautiful Soup) 爬虫 news 可以单独使用,暂时只提供mysql支持 简单介绍 包括新浪新闻门户,腾讯新闻门户,搜狐新闻(移动端) 新闻 以及 评论 每日新闻数量上千,评论数量级数十万 从零开始配置运行环境---Way to insatll scrapy on ubuntu sudo apt-get install libxml2-dev libxslt1-dev sudo apt-get install python-dev sudo apt-get install libssl-dev sudo apt-get install libffi-dev pip install -r requirements.txt 数据库使用 更改 settings.py 适应你的本地化,数据库的相关设置,或者在 pipeline中修改相关参数 做了一个匹配的Django models模型方便了解,查看 数据模型 使用命令 /news$ scrapy allstart 即可运行所有爬虫 /news$ scrapy crawl sina /news$ scrapy crawl tencent /news$ scrapy crawl sohu 配套系统 python 2.7 Mysql Scrapy 1.0 测试 Linux Ubuntu 14.04 tested Windows 10 tested 问题说明: 编码问题: 中文网页:对中文的解析需要特别注意编码问题,utf-8是多数,但有时网站会采用GBK,GBK2312等编码格式


数据库编码:出现了一大堆乱七八糟的文字,可以怀疑数据库字段编码跟内容编码不一致


利用django建立数据库时会有一些被默认的参数可能会被忽略,比如说数据项默认为非空 not null = true,所以说:使用前请认真阅读document To do list: 抓的更全 code review,运行更高效 scrapy是一个优秀的爬虫框架,结构合理,提供多线程,以后随着学习的深入会试着将更多成果运用进来


支持更多数据库类型,包括 NoSQL HTML cache 声明 Email: lancelotdev@163.com Author:liu kun Last-Modified:2016-10 project journal 2016-10-12 项目答辩出奇顺利,因为确实下功夫了,洗澡去了,再见! 楼下『加油』震天响



免费下载 ×

下载APP,支持永久资源免费下载

下载APP 免费下载
温馨提示
请用电脑打开本网页,即可以免费获取你想要的了。
扫描加我微信 ×

演示

×
登录 ×


下载 ×
论文助手网
论文助手,最开放的学术期刊平台
				暂无来源信息			 
回复
来来来,吐槽点啥吧

作者联系方式

×

向作者索要->