Home » Posts » 技术

爬招聘网站

2024-04-30 · 1 min · spy

个人需求需要看下招聘网站，手动翻太麻烦了，简单写个程序爬一下数据吧。

这个不是傻瓜式爬虫教程，只是记录下过程。

python要么直接用requests库或更底层的urlib3，要么用selenium 库模拟web操作，人比较懒直接用了selenium库

遇到的问题记录一下：

chromedriver 要版本一致，路径要配置好
option 增加参数避免webdriver 检测
find_element 太麻烦了，要不停的对xpath
还要点击链接 switch windows 来获取招聘具体内容
查询框clear 清除不掉，简单办法直接ctrl a 全选再修改
页面切换还要有点延时，不然找不到element

单线程跑有点慢，不查看职位详情还好，不用ip代理一会就被检测出是爬虫，懒得弄了。

boss直聘很快就识别是爬虫，需要点击按钮，按顺序识别图像
51job 是滑动窗口检测，加个随机值滑动两次就行，查询太多直接被405
智联登陆要用手机号，这个要搞服务中转，直接访问url没啥问题
猎聘前台模式还好，后台模式直接会被检测到，并且搜索结果里面会被塞些奇怪的职位

招聘网站不提供职位发布时间太蛋疼。

代码直接看链接： spider