内容采集,从各个cp方采集书籍到植宇内容中台

tgz 1914fcdfc8 README.md il y a 2 ans
content_spider d09f6d0126 haoyue il y a 2 ans
.gitignore ab0342a55b spider init il y a 2 ans
README.md 1914fcdfc8 README.md il y a 2 ans
scrapy.cfg ab0342a55b spider init il y a 2 ans

README.md

采集脚本

cd /home/www/wangdu_spider

7lou采集

  • 全部采集,有去重 scrapy crawl 7lou
  • 部分采集,不去重 scrapy crawl zbone -a bid=xx,xx,xxx

趣阅采集

  • 全部采集,有去重 scrapy crawl shuangduxs
  • 部分采集,不去重 scrapy crawl sdone -a bid=xxx,xxx,xxx

百川采集

scrapy crawl baichuanzw