|
| | 首页 | 如何创业 | 创业计划书 | 创业点子 | 创业资料下载 | 创业故事 | 创业技术 | 小本创业 | 创业技术培训 | 创业项目 | 创业问答 | |
创业致富,先人一步!![]() |
|
| 您现在的位置: 创富指南网 >> 如何创业 >> 职场指南 >> 面试技巧 >> 文章正文 |
创富指南网 www.cfzn.org 帮您创业致富为您提供创业信息
|
|||||
热 ★★★ 作者:令狐孤 文章来源:admin5 点击数: 更新时间:2007-5-8 【字体:小 大】 |
|
http://www.szeasy.com/food/yszt/chunjie/ www.fuckingjapanese.com/Reality/ 请注意: a) url有可能带http头也有可能不带 b)动态url(即含有"?"的url)的一律不算目录页,如: www.buddhismcity.net/utility/mailit.php?l=/activity/details/3135/ www.buddhismcity.net/utility/mailit.php?l=/activity/details/2449/ 另:如果你会linux,请用linux下的grep命令实现第2题的功能(附加5分)。 3)此题40分 如果必须从网页中区分出一部分"重要网页"(例如在10亿中选8亿),比其他网页更值得展现给用户,请提出一种方案。 4)此题40分 假设有10亿网页已经被我们存下来,并提供如下信息:网页全文(即网页的源码)、全文长度、网页正文(即网页中提取的主体文字)、 正文长度,以及其他网页提取物等,现在希望去掉其中的重复网页,请提出可行的方案,计算出每个网页对应的重复度,你可以自己 对网页重复下定义,也可以提出需要哪些更多的网页提取物来实现更好的去重复方案 百度面经: |
|
|
|
|