使用reactjs + python/flask + sqlite + scrapy 构建的单页应用漫画站,里面还用到了gunicorn和fabric的python管理部署工具,当时自己构建自动部署的时候用的
npm install
pip install -r requirements.txt
cd server
python web_server.py
npm start
访问localhost:3000 over .....
soul_manga_spider.py定义了三种抓取方式,REQ_TYPE分别对应不同的url类型:单个漫画,单个页面的所有漫画,以及全部漫画。还有一个is_update参数用于表明是否只抓取最近更新的页面url然后做增量更新。之前自己部署的时候基本上配合crontab12小时抓取一次足够了,默认情况is_update是false,且REQ_TYPE是default表示什么都不做,默认使用我已经抓取的db。日志级别根据自己需要调整setting.py的LOG_LEVEL和LOG_FILE


