php在线词典数据采集 php 数据库

php采集大数据的方案

1、建议你读写数据和下载图片分开，各用不同的进程完成。

创新互联建站专注于企业营销型网站建设、网站重做改版、金州网站定制设计、自适应品牌网站建设、成都h5网站建设、成都做商城网站、集团公司官网建设、成都外贸网站建设公司、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为金州等各大城市提供网站开发制作服务。

比如说，取数据用get-data.php，下载图片用get-image.php。

2、多进程的话，php可以简单的用pcntl_fork()。这样可以并发多个子进程。

但是我不建议你用fork，我建议你安装一个gearman worker。这样你要并发几个，就启几个worker，写代码简单，根本不用在代码里考虑thread啊，process等等。

3、综上，解决方案这样：

（1）安装gearman worker。

（2）写一个get-data.php，在crontab里设置它每5分钟执行一次，只负责读数据，然后把读回来的数据一条一条的扔到 gearman worker的队列里；

然后再写一个处理数据的脚本作为worker，例如叫process-data.php，这个脚本常驻内存。它作为worker从geraman 队列里读出一条一条的数据，然后跟你的数据库老数据比较，进行你的业务逻辑。如果你要10个并发，那就启动10个process-data.php好了。处理完后，如果图片地址有变动需要下载图片，就把图片地址扔到 gearman worker的另一个队列里。

（3）再写一个download-data.php，作为下载图片的worker，同样，你启动10个20个并发随便你。这个进程也常驻内存运行，从gearman worker的图片数据队列里取数据出来，下载图片

4、常驻进程的话，就是在代码里写个while(true)死循环，让它一直运行好了。如果怕内存泄露啥的，你可以每循环10万次退出一下。然后在crontab里设置，每分钟检查一下进程有没有启动，比如说这样启动3个process-data worker进程：

* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php /dev/null 21'

不知道你明白了没有

在线词典数据怎么采集？请大家给个思路！参考资料(php的)。谢谢

虽然我没有做过采集在线词典，

不过看了下百度词典，可以采集，给个参考思路。

1、做一个本地的单词库

2、php循环一条一条读取词语库

3、php采集 URL地址：百度词典网址/s？wd=单词，读取html源码php正则匹配内容。

4、数据入库。

怎么用php采集网站数据

简单的分了几个步骤：

1、确定采集目标

2、获取目标远程页面内容（curl、file_get_contents）

3、分析页面html源码，正则匹配你需要的内容（preg_match、preg_match_all），这一步最为重要，不同页面正则匹配规则不一样

4、入库

php 百度知道数据采集

问题其实不难，自己都能写。给你几个思路吧：

1.在百度知道中，输入linux，然后会出现列表。复制浏览器地址栏内容。

然后翻页，在复制地址栏内容，看看有什么不同，不同之处，就是你要循环分页的i值。

当然这个是笨方法。

2.使用php的file或者file_get_contents函数，获取链接URL的内容。

3.通过php正则表达式，获取你需要的3个字段内容。

4.写入数据库。

需要注意的是，百度知道有可能做了防抓取的功能，你刚一抓几个页面，可能会被禁止。

建议也就抓10页数据。

其实不难，你肯定写的出来。还有，网上应该有很多抓取工具，你找找看，然后将抓下来的数据

在做分析。写入数据库。

PHP 数据采集太慢

一页一页采啊，你要是想把N个网页一下子采下来，在浏览器中肯定不行，你可以用php.exe在命令行下运行你的采集脚本。如果你想在浏览器上采，你得一次采集一个页面，然后用window.location.href转向，把下一个要采集的地址传过去，这样一页一页的循环来采集。

新闻标题：php在线词典数据采集 php 数据库
标题网址：http://cqcxhl.com/article/dooipep.html

重庆分公司，新征程启航

php在线词典数据采集 php 数据库

php采集大数据的方案

在线词典数据怎么采集？请大家给个思路！参考资料(php的)。谢谢

怎么用php采集网站数据

php 百度知道数据采集

PHP 数据采集太慢

其他资讯

重庆分公司，新征程启航

php在线词典数据采集 php 数据库

php采集大数据的方案

在线词典数据怎么采集？请大家给个思路！参考资料(php的)。谢谢

怎么用php采集网站数据

php 百度 知道数据采集

PHP 数据采集 太慢

其他资讯

php 百度知道数据采集

PHP 数据采集太慢