第768章爬虫

然后成功的爬取到了几百篇相关论文。

接下来就好办了，摘抄、重组、整合。

如果查重不过关，也简单，用谷歌翻译，先汉译英、再英译汉。再人工地把句子整理通顺，查重就顺利通过。

可能是北科的创业环境被周不器给带起来了，那俩大学生就有了通过技术牟利的心思，玩起了帮同学写论文的生意。

被发现后，俩人都被开除了。

见周大老板似乎很感兴趣的样子。

王小船就拿过纸笔，很快速的写下了一行代码，“假如说我们要爬取微知网的信息，用这行代码就可以实现了。”

周不器拿过代码一看，嗯，是很简单。

headers={‘Use-Agent’:‘ChaiknowsThebot’，}

r=requestsgets(“

要不是周不器出面力保，上缴了非法所得，并安排到了校内网工作，他俩说不定就要蹲监狱了，前程就全毁了。

王小船接着说：“这是静态网站的爬取，如果是优酷、朋友网的这种动态页面，算法会相对复杂。可不管怎样，这都是很基础的工具。我们做搜索引擎，难点已经从复杂性变为规模量了。”

周不器皱皱眉，“老马……就是阿里的那位。他跟我说，要屏蔽百度对淘宝的爬虫，怎么回事？”

htl=rtext

prt(htl)

难怪说3月份的时候，北科有两个计算机系的大学生被开除了。

这技术好像是不太难。

因为大四写论文，可用谷歌、百度、微点等搜索引擎，却搜不到别人写的相关论文。怎么办？就有计算机系的学生，自己写了段爬虫算法。

第768章 爬虫