爬虫兼职, 要求爬取一亩三分地, twitter, 知乎, 公众号等渠道的招聘和招生信息

职位概述

我们正在寻找一位经验丰富的兼职爬虫开发工程师,负责从国内外多个平台自动化采集招聘和招生相关信息。该职位工作时间灵活,按项目结算报酬,合作起步价 1 万人民币。

工作职责

设计并实现稳定高效的网络爬虫系统,定向采集指定平台的公开信息 负责爬虫架构设计、数据采集、清洗、去重和存储全流程开发 监控爬虫运行状态,及时处理反爬机制、封禁等问题 与数据分析团队协作,确保数据质量和交付时效性 编写技术文档和操作手册

核心技术要求

熟练使用 Python 及 Scrapy 、BeautifulSoup 、Selenium 、Playwright 等爬虫框架 掌握 HTTP/HTTPS 协议、Cookie 、Session 、代理 IP 池等技术 熟悉常见反爬机制(验证码、IP 限制、User-Agent 检测、动态加载等)及应对策略 具备数据清洗、去重和结构化存储经验( MySQL/MongoDB/Elasticsearch ) 了解爬虫法律法规和 robots.txt 协议

平台特定要求

一亩三分地: 熟悉论坛类网站结构,能处理登录态保持和权限限制 具备动态页面渲染和 AJAX 请求分析能力

Twitter: 熟练使用 Twitter API v2 或具备爬虫逆向能力 了解 GraphQL 接口调用和速率限制处理 能够模拟真实用户行为规避检测

知乎: 熟悉知乎反爬策略(如滑块验证、IP 封禁等) 能够处理动态加载内容和登录状态管理

加分项 有招聘/招生类信息爬取项目经验 具备分布式爬虫( Scrapy-Redis )和云端部署经验 熟悉 Docker 、Kubernetes 等容器化技术 有自然语言处理基础,能进行简单文本分类和实体提取

申请说明 请将简历和爬虫项目案例( GitHub 链接或代码片段)发送至招聘邮箱samuel.gao023@gmail.com,并说明擅长和可以开始兼职的时间。

来源:https://v2ex.com/t/1171371