重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
根据题主的需求,手敲两个小时代码,拿走不谢
让客户满意是我们工作的目标,不断超越客户的期望值来自于我们对这个行业的热爱。我们立志把好的技术通过有效、简单的方式提供给客户,将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴,公司提供的服务项目有:域名注册、网站空间、营销软件、网站建设、禹城网站维护、网站推广。
from selenium import webdriver
import time
import os
import requests
class Huaban():
def get_picture_url(self, content):
global path
path = "E:\spider\pictures\huaban" + '\\' + content
if not os.path.exists(path):
os.makedirs(path)
url = ""
driver.maximize_window()
driver.get(url)
time.sleep(8)
try:
driver.find_elements_by_xpath('//input[@name="email"]')[0].send_keys('花瓣账号')
print('user success!')
except:
print('user error!')
time.sleep(3)
try:
driver.find_elements_by_xpath('//input[@name="password"]')[0].send_keys('账号密码')
print('pw success!')
except:
print('pw error!')
time.sleep(3)
1.访问 genvisitor 获取一个tid.
2.用tid 先获取一个 cookie,同时得到2个参数 sub subp。
3.带着获得的cookie,和sub subp 2个参数 获得第二个cookie。
4.最后用第二个cookie访问要抓取的页面。
用正则表达式,你试试 好多采集软件也能支持这个新闻采集啊,比如说八爪鱼采集器,把你要抓取的新闻页面URL输入进去,就可以实现自动抓取,还能设置定时抓取,你可以去试试看
新闻程序吧,设计思路如下,在数据库中创建个新闻的表,如news,里面要包括新闻id,新闻标题title,新闻内容text的字段,然后在网站后台用insert添加新闻,在新闻页面上循环输出, 如news.php?id=1此时用GET传递参数,然后查询出id=1的新闻内容,标题,然后输出。 还要防止SQL注入,等安全问题。
麻烦采纳,谢谢!
你是读取数据库里的新闻 还是 读取文件夹?
读取数据库的话 需要你在存数据库的时候就把标题 路径存进去 当然固定路径的话 可以只存个标题
如果直接读取文件夹的话 去找个php遍历文件的类 下边给你找一个
function Files($path)
{
foreach(scandir($path) as $line)
{
if($line=='.'||$line=='..') continue;
if(is_dir($path.'/'.$line)) Files($path.'/'.$line);
else echo 'li'.$path.'/'.$line.'/li';
}
}
其实用PHP来爬会非常方便,主要是PHP的正则表达式功能在搜集页面连接方面很方便,另外PHP的fopen、file_get_contents以及libcur的函数非常方便的下载网页内容。
具体处理方式就是建立就一个任务队列,往队列里面插入一些种子任务和可以开始爬行,爬行的过程就是循环的从队列里面提取一个URL,打开后获取连接插入队列中,进行相关的保存。队列可以使用数组实现。
当然PHP作为但线程的东西,慢慢爬还是可以,怕的就是有的URL打不开,会死在那里。