岗位职责:
1.负责数据采集需求,完成采集站点分析,数据采集、数据结构化、数据质量保障以及外部数据维护工作。
2.负责采集工具日常技术支持,问题排查、答疑,使用文档编写及维护工作。
3.外部数据去重整合、异常数据处理、数据评测、数据订正、NER/NED数据预处理等工作。
4.完成其他岗位工作。
任职要求:
1.三年以上数据采集开发经验,统招本科及以上学历,计算机技术相关专业。
2.熟悉HttpClient、Jsoup、WebDriver、Phantomjs等工具。
3.能够解决数据采集过程中的常见问题,解决网页抓取、信息抽取等问题,构建完善的网络信息收集平台。
4.了解设备指纹,图像识别,了解Akamai网站突破技术,熟练应用JS反混淆技术。
5.有从事网络爬虫、网页去重、网页信息抽取等经验优先考虑。