前言
说到搜索引擎,一般人都会觉得这东西十分“高大上”,对于不了解搜索引擎实现方式的小伙伴而言,确实能够感同身受。
国内著名的搜索引擎代表非百度莫属,而国外著名的搜索引擎代表则非谷歌莫属了。
搜索引擎一定程度上方便了网民的生活,生活或工作中啥不知道的上网搜索一下大都能找到答案。
今天将会分享如何仅用30行左右的代码来实现一个简易版的搜索引擎qq搜索源码,我先称之为1.0版本好啦~
搜索引擎组成
一个完整的搜索引擎由以下四部分组成:
搜索器
熟悉 Python 的小伙伴可以把搜索器理解为 Python 的爬虫(scrawler),它像蜘蛛一样能够在互联网上大量爬取各类网站的内容,将爬取到的内容传送给索引器。
索引器
拿到搜索器传送的网页或内容后,会对内容进行加工处理,形成索引(index),存储于内部的数据库等待检索。
用户接口
用户接口很好理解,是指网页和 App 前端界面,例如:百度和谷歌的搜索页面。
用户通过用户接口,向搜索引擎发出询问(query)qq搜索源码,询问解析后送达检索器。
检索器
检索器在收到用户接口传送的询问解析后进行高效检索,再将检索结果返回给用户。
搜索引擎 Python 实现
PS:今天分享的重点是搜索引擎的实现,不是如何进行爬虫爬取内容,因此搜索引擎的组成部分搜索器此处使用本地存储文件内容代替。
1. 搜索引擎基类文件
# Engine.py
class SearchEngineBase(object):
def __init__(self):
pass
def add_search_contents(self, file_path):
with open(file_path, 'r') as fin:
content = fin.read()
self.process_search_contents(file_path, content)
def process_search_contents(self, file_path, content):
raise Exception('process_search_contents not implemented.')
def search(self, query_content):
raise Exception('search not implemented.')
def main(search_engine):
for file_path in ['./search_contents/1.txt', './search_contents/2.txt', './search_contents/3.txt', './search_contents/4.txt', './search_contents/5.txt']:
search_engine.add_search_contents(file_path)
while True:
query_content = input('请输入你要检索的关键词:')
results = search_engine.search(query_content)
print('Total found {} result(s):'.format(len(results)))
for result in results:
print(result)
2. 搜索引擎子类文件
# SimpleEngine.py
from Engine import SearchEngineBase, main
import sys, os
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
class MyEngine(SearchEngineBase):
"""
1.MyEngine是继承了父类SearchEngineBase的子类
2.子类继承并实现了process_search_contents,search函数
3.子类继承了父类的add_search_contents函数
"""
def __init__(self):
super(MyEngine, self).__init__()
self.__file_path_to_content = {} # 初始化私有变量__file_path_to_content,用于存储文件路径及其内容的字典
def process_search_contents(self, file_path, content):
"""
填充字典__file_path_to_content,将文件路径作为key,文件内容作为value写入字典中
"""
self.__file_path_to_content[file_path] = content
def search(self, query):
"""
枚举字典内容,将搜索的关键字在文件内容中有搜索结果时,将对应文件路径放入列表以便于统计其长度
"""
results = []
for file_path, content in self.__file_path_to_content.items():
if query in content:
results.append(file_path)
return results
search_engine = MyEngine()
main(search_engine)
3. 搜索样本文件
如图所示,将搜索的样本文件分别放在5个不同的 txt 文件中,并都放于 search_contents 目录下。
4. 搜索引擎效果
到这里,一个简易版的搜索引擎就实现了,后面还会继续分享搜索引擎实现的进阶版,敬请关注哟~
如果分享对您有帮助,请您帮忙点赞,点亮在看呀!
搜索引擎的全部实现代码 + 搜索样本文件已打包,想要获取源码包的同学可以在“无量测试之道”公众号后台回复:搜索免费获取哟~
end
点击文末“原文阅读”直达原文
光荣之路Java测试开发班,2022年招生了! 光荣之路Python测试开发班,2022年招生了! 免费领取三节测试开发试听课 链接:https://pan.baidu.com/s/1nKqINq42KWm-hupBoebBWw
提取码:k5fv无论上课或自学,
你首先需要准备:
每天 2 小时+的学习时间,
每天坚持写代码的习惯!
有投入才有产出,
10k+的涨幅需要 1 年以上的努力!
祝你成功!
光荣之路出品
自动化测试的目标
手把手教你pytest测试框架
测开必备-flask网站开发
IOS真机移动端App+H5混合自动化测试实战
产品测试规范
内推:字节跳动 | 测试开发
公开课qq群:413908278
限时特惠:本站每日持续更新海量各大内部网赚创业教程,会员可以下载全站资源点击查看详情
站长微信: