首页 > 北京 全职 > 职位详细
说明:

此信息由前程无忧(51JOB)审核并发布(查看原发布网址),应届生求职网转载该信息只是出于传递更多就业招聘信息,促进大学生就业的目的。如您对此转载信息有疑义,请与原信息发布者前程无忧(51JOB)核实,并请同时联系本站处理该转载信息。

[北京]中国科学院信息工程研究所

职位:爬虫工程师
发布时间:2025-05-04
工作地点:北京
信息来源:前程无忧(51JOB)
职位类型:全职
职位描述
职能类别:爬虫工程师
岗位职责:
1、负责设计和开发分布式的网络爬虫,数据的采集与爬取、调度、监控、自动化运行等;共同解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等),提升数据抓取的效果和性能;
2、负责智能采集系统设计与研发,如采集任务调度,页面解析和结构化抽取,海量数据存储和读取等;
3、负责网页抽取,网页质量技术算法的研究和开发,提升数据抓取的效率和质量;负责主流网站、APP数据的爬取方法总结,负责非定向数据的清洗、整理、整合及合并等工作;
4、负责爬取数据的去重、解析入库、爬虫系统的监控和异常警报;
5、根据各个业务需求,爬取全网海量来源的数据,解决各类反爬问题;
6、完成上级安排相关工作。

任职要求:
1、全日制本科以上学历,计算机相关专业;
2、至少有1年以上数据爬取经验;
3、熟练掌握基于爬虫框架Selenium、Scrapy、PySpider、Crawley、Puppeteer;了解主流爬虫框架工具,熟悉HTTP/TCP等网络协议;
4、熟悉浏览器运行原理,懂得JS逆向,熟悉Web端常用反爬技术;
5、熟悉抓包工具(Wireshark/Fiddler/Charles等);
6、熟练使用一种以上数据库(Doris/MySQL/MongoDB)与消息中间件Kafka;
7、熟悉各种大数据相关框架组件优先,如Kafka、Hadoop、Spark、ES、Hive等;
8、具有反爬经验,对JS逆向、封IP、复杂验证码、模拟 Cookie 登录等,有过实际经验;
9、有大规模数据采集经验优先
10、踏实肯干,团队合作,有研究精神 公司简要介绍:
公司名称:中国科学院信息工程研究所
公司类型:事业单位
公司规模:1000-5000人
公司介绍:中国科学院信息工程研究所,简称信工所,英文全称Institute of Information Engineering,Chinese Academy of Sciences,缩写为IIE CAS,是2011年批准成立的中国科学院直属科研机构。研究所按照“软硬兼修,矛盾兼容,开合有法,张弛有度”的办所方针,秉承“打造一流平台,集聚一流人才,支撑国家需求,引领学科发展,努力成为国家在信息工程领域的战略科技力量”的组织目标,面向国家战略需求,在信息安全科技领域,开展基础理论与前沿技术研究,开发应用性技术与系统,为国家信息化进程提供核心关键技术支撑与系统解决方案。

登录打开APP 查看全部

上一条:没有了

下一条:[北京]艾默生过程控制有限公司