大数据爬虫系统软件
来源:未知 时间:2021-19-9 浏览次数:156次
数据采集是进行大数据分析的前提也是必要条件,在整个流程中占据重要地位,该软件目标是解决大数据采集阶段的数据采集,采集目标为任何互联网或软件系统数据。
系统技术架构:
系统技术架构:
1 需要环境操作系统:centos7.2版本
2 python3爬虫端 (python3.6.4版本)
3 redis代理池 (redis4.0.2版本)
4 mongdb数据库 (mongdb3.6.4版本)
5 redis词库缓存池
6 默认开通10个进程
环境安装:
爬虫操作步骤:
1 启动代理池: 进入 /datatocrm2.2/Proxy/api目录 后台进程形式启动 apiServer.py
2 更新词库: 进入 /datatocrm2.2/tyc_sf/queue_waiting/suzhou/目录 吧自己的词库放入里面(txt文本形式)
3 启动爬虫命令:进入 /datatocrm2.2/tyc_sf/目录 启动 start.py 开始爬取数据
数据管理:
数据管理:
数据库查看:用mongdb命令或者工具查看爬的数据结果
数据清洗:进入 /datatocrm2.2/tyc_sf/目录 启动 clean_tyc.py命令 清洗数据
原始库库名称:db_tyc_dev_suzhou
标准库名称:db_tyc_formal_suzhou
一、安装python3.6.4
安装python3教程:
CentOS 7.2上默认安装的python版本是2.6的,现安装Python-3.6.3
环境准备:
1.安装相关依赖
sudo yum install openssl-devel -y
sudo yum install zlib-devel -y
2.安装setuptools
wget https://pypi.python.org/packages/source/s/setuptools/setuptools-9.6.tar.gz
tar -zxvf setuptools-19.6.tar.gz
cd setuptools-19.6
sudo python setup.py build
sudo python setup.py install
三 安装python3.6.4:
1 wget https://www.python.org/ftp/python/3.6.4/Python-3.6.4.tgz
2 tar -xzvf Python-3.6.4.tgz
3 cd Python-3.6.4
4 ./configure --prefix=/usr/local/python3 --enable-optimizations
5 make && make install
6 ln -s /usr/local/python3/bin/python3.6 /usr/bin/python3 #建立新的软连接,指向Python-3.6.3
ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3
7 yum install python3-pip 安装pip3
8 安装 redis、bs4、lxml、pymongo、threadpool、requests类库
cd /usr/local/python3
pip3 install redis
pip3 install bs4
pip3 install lxml
pip3 install pymongo
pip3 install threadpool
pip3 install requests
4、 安装webpy-py3
cd /datatocrm2.2/webpy-py3
python3 setup.py install
python3 setup.py build
二、安装redis4.0.2:
教程:https://blog.csdn.net/diweikang/article/details/78784631
1 、下载:redis-4.0.2.tar.gz
wget http://download.redis.io/releases/redis-4.0.2.tar.gz
2、 解压:tar -xzvf redis-4.0.2.tar.gz
3、进入目录:cd redis-4.0.2
4、安装 make make install (默认安装在 /usr/local/bin目录下)
5、cp /home/redis-4.0.2/utils/redis_init_script /etc/rc.d/init.d/redis(将启动脚本复制到/etc/rc.d/init.d/目录下,命名为redis)
vi /etc/rc.d/init.d/redis 修改以后台运行的方式执行:$EXEC $CONF &
6、vi /etc/rc.d/init.d/redis 在监本第一行后面添加一行内容为:#chkconfig: 2345 80 90 如果不添加,在注册服务的时候会提示:service redis does not support chkconfig
7、将redis注册成为服务:chkconfig --add redis
8 在/etc目录下:mkdir redis 创建redis文件夹
9 cp /home/redis-4.0.2/redis.conf /etc/redis/6379.conf (先在/etc目录下:mkdir redis 创建redis文件夹)
10、 防火墙开启对应端口:vi /etc/sysconfig/iptables 添加如下:
#redis端口
-A INPUT -m state ?state NEW -m tcp -p tcp ?dport 6379 -j ACCEPT (然后 重启防火墙 service iptables restart)
11、修改/etc/redis/6379.conf的 redis配置文件6379.conf:
daemonize no 改为daemonize yes
pidfile /var/run/redis.pid 改为pidfile /var/run/redis_6379.pid
注释掉绑定的主机,否则客户端无法连接 #bind 127.0.0.1 (一定是注释掉 不是修改为0.0.0.0)
protected-mode yes 改为 protected-mode no
12、启动redis服务:service redis start
13、将redis添加到环境变量中 vi /etc/profile
export PATH=$PATH:/user/local/bin
使配置生效:source /etc/profile
14 停止服务:service redis stop 启动:service redis start
二、客户端连接测试:
1、本机连接: redis-cli
2、远程连接:redis-cli -h 你的IP -p 6379
3 、set test 123
4、 get test
5、 keys * 输出所有
三、安装mongdb3.6.4:
安装mongdb 3.6
1 vim /etc/yum.repos.d/mongodb-org-3.6.repo (没有就创建一个)打开mongodb-org-3.6.repo文件添加以下内容)
[mongodb-org-3.6]
name=MongoDB Repository
baseurl=https://repo.mongodb.org/yum/redhat/$releasever/mongodb-org/3.6/x86_64/
gpgcheck=1
enabled=1
gpgkey=https://www.mongodb.org/static/pgp/server-3.6.asc
2 yum -y install mongodb-org (采用yum安装mongdb数据库)
3 安装后 查看mongo安装位置:whereis mongod
4 查看修改配置文件 :vim /etc/mongod.conf
5 启动mongodb:systemctl start mongod.service
6 停止mongodb :systemctl stop mongod.service
8:查到mongodb的状态:systemctl status mongod.service
9.外网访问需要关闭防火墙:
CentOS 7.0默认使用的是firewall作为防火墙,这里改为iptables防火墙。
systemctl stop firewalld.service #停止firewall
systemctl disable firewalld.service #禁止firewall开机启动
10.设置开机启动
systemctl enable mongod.service
11.启动Mongo shell
命令:mongo 查看数据库:show dbs
12.设置mongodb远程访问:
编辑/etc/mongod.conf,修改bindIp:0.0.0.0并重启mongodb.
vim /etc/mongod.conf
13 重启mongodb:
systemctl restart mongod.service
mongod安装目录:usr/bin/mongod
数据库存储目录:dbpath=/data/db
配置文件:etc/mongod.conf
14 登陆mongodb:mongo
15 添加账号密码:
mongo #登陆
user admin #切换到admin数据库
步骤三:创建管理员账号
db.createUser({user:'admin_264',pwd:'823888ws',customData:{"desc":"This user is for administrators"},roles:[{role:'userAdminAnyDatabase',db:'admin'}]})
16 验证用户是否创建成功: db.auth("admin_264","23888ws")
17 :杀掉进程,重启mongoDB服务
ps -ef | grep mongod
kill -9 pid
18 带认证模式开启Mongod
mongod --auth --config /etc/mongod.conf
二、卸载MONGODB(教程使用)
1、停止服务
service mongod stop
2、删除安装的包
yum erase $(rpm -qa | grep mongodb-org)
3、删除数据及日志
rm -r /var/log/mongodb
rm -r /var/lib/mongo
四、运行爬虫:
1进入 cd /home/datatocrm2.2/Proxy/api
启动代理:nohup python3 apiServe.py
2 进入 cd /home/datatocrm2.2/tyc_sf
启动爬虫:python3 start.py beijing
五、前端系统php:
centos6.9+phpstudy(php 5.5.10版本)+安装mongdb扩展:
1 phpinfo() 查看自己的PHP版本、NTS还是TS、x86还是x64
2 wget http://pecl.php.net/get/mongo-1.6.15.tgz #下载mongo-1.6.15.tgz
【如果下载安装有问题,直接用datatocrm2.2目录下的mongo-1.6.15】
3 tar zxvf mongo-1.6.15.tgz #解压
4 cd mongo-1.6.15 #进入mongo-1.6.15
5 修改权限mongo-1.6.15
chmod 777 /home/mongo-1.6.15/ -R;
chmod 777 /home/mongo-1.6.15/*;
chmod 777 /phpstudy/www/ -R
chmod 777 /phpstudy/www/*
6 ./configure --with-php-config=/phpstudy/server/php/bin/php-config (路径是phpstudy的安装路径)
7 make #编译
8 make install #安装,安装完之后的界面是这样的。
9 vi /phpstudy/server/php/etc/php.ini
10 #编辑,在最后加上这么一行代码:extension="mongo.so"
11 phpstudy restart #重启phpstudy
12 phpinfo();查看mongdb是否安装成功
【 /phpstudy/server/php/lib/php/extensions/no-debug-non-zts-20121212/】
六、常见问题:
问题1:MySQL启动出现The server quit without updating PID file错误解决办法
解决办法:将 /etc/mysql 下的 my.cnf 文件删除,再次启动MySQL服务
软件下载 大数据爬虫系统http://filesearch.ixiera.com/pc.zip