岗位职责:
和初创团队开始进行一款跨境电商 SAAS 工具的研发(类似 junglescout);
熟悉 scrapy+scrapy-redis 组件来实现增量式及分布式爬虫,对跨境电商网站(多国家站点)进行大规模爬取后存入 mongoDB;
实现异步多任务爬取,每日数据爬取量过百万条;
熟悉处理网站的各种反爬(验证码、代理池等);
实现百万级数据量的不间断爬取及过滤。
任职要求:
有 3 年以上大量数据的爬取开发经验,有 BI 项目经验者优先
熟悉 xpath、RE、str 方法对数据进行抽取与清洗
熟悉 redis 及 mongoDB 数据的存入
良好的编码能力、良好的学习能力、分析问题解决问题的能力;