热门

qq搜索源码-仅30行代码，实现一个搜索引擎(1.0版)

生活百科1年前 (2023)发布 aixure

66 0 0

前言

说到搜索引擎，一般人都会觉得这东西十分“高大上”，对于不了解搜索引擎实现方式的小伙伴而言，确实能够感同身受。

国内著名的搜索引擎代表非百度莫属，而国外著名的搜索引擎代表则非谷歌莫属了。

搜索引擎一定程度上方便了网民的生活，生活或工作中啥不知道的上网搜索一下大都能找到答案。

今天将会分享如何仅用30行左右的代码来实现一个简易版的搜索引擎qq搜索源码，我先称之为1.0版本好啦～

搜索引擎组成

一个完整的搜索引擎由以下四部分组成：

搜索器

熟悉 Python 的小伙伴可以把搜索器理解为 Python 的爬虫（scrawler），它像蜘蛛一样能够在互联网上大量爬取各类网站的内容，将爬取到的内容传送给索引器。

索引器

拿到搜索器传送的网页或内容后，会对内容进行加工处理，形成索引（index），存储于内部的数据库等待检索。

用户接口

用户接口很好理解，是指网页和 App 前端界面，例如：百度和谷歌的搜索页面。

用户通过用户接口，向搜索引擎发出询问（query）qq搜索源码，询问解析后送达检索器。

检索器

检索器在收到用户接口传送的询问解析后进行高效检索，再将检索结果返回给用户。

搜索引擎 Python 实现

PS：今天分享的重点是搜索引擎的实现，不是如何进行爬虫爬取内容，因此搜索引擎的组成部分搜索器此处使用本地存储文件内容代替。

1. 搜索引擎基类文件

# Engine.py
class SearchEngineBase(object):
    def __init__(self):
        pass

    def add_search_contents(self, file_path):
        with open(file_path, 'r') as fin:
            content = fin.read()
        self.process_search_contents(file_path, content)

    def process_search_contents(self, file_path, content):
        raise Exception('process_search_contents not implemented.')

    def search(self, query_content):
        raise Exception('search not implemented.')


def main(search_engine):
    for file_path in ['./search_contents/1.txt', './search_contents/2.txt', './search_contents/3.txt', './search_contents/4.txt', './search_contents/5.txt']:
        search_engine.add_search_contents(file_path)

    while True:
        query_content = input('请输入你要检索的关键词：')
        results = search_engine.search(query_content)
        print('Total found {} result(s):'.format(len(results)))
        for result in results:
            print(result)

2. 搜索引擎子类文件

# SimpleEngine.py
from Engine import SearchEngineBase, main
import sys, os
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))


class MyEngine(SearchEngineBase):
    """
    1.MyEngine是继承了父类SearchEngineBase的子类
    2.子类继承并实现了process_search_contents,search函数
    3.子类继承了父类的add_search_contents函数
    """
    def __init__(self):
        super(MyEngine, self).__init__()
        self.__file_path_to_content = {} # 初始化私有变量__file_path_to_content,用于存储文件路径及其内容的字典

    def process_search_contents(self, file_path, content):
        """
        填充字典__file_path_to_content，将文件路径作为key,文件内容作为value写入字典中
        """
        self.__file_path_to_content[file_path] = content

    def search(self, query):
        """
        枚举字典内容，将搜索的关键字在文件内容中有搜索结果时，将对应文件路径放入列表以便于统计其长度
        """
        results = []
        for file_path, content in self.__file_path_to_content.items():
            if query in content:
                results.append(file_path)
        return results


search_engine = MyEngine()
main(search_engine)

3. 搜索样本文件

如图所示，将搜索的样本文件分别放在5个不同的 txt 文件中，并都放于 search_contents 目录下。

qq搜索源码-仅30行代码，实现一个搜索引擎(1.0版)

4. 搜索引擎效果

qq搜索源码-仅30行代码，实现一个搜索引擎(1.0版)

到这里，一个简易版的搜索引擎就实现了，后面还会继续分享搜索引擎实现的进阶版，敬请关注哟～

如果分享对您有帮助，请您帮忙点赞，点亮在看呀！

搜索引擎的全部实现代码 + 搜索样本文件已打包，想要获取源码包的同学可以在“无量测试之道”公众号后台回复：搜索免费获取哟～

end

点击文末“原文阅读”直达原文
光荣之路Java测试开发班，2022年招生了！

光荣之路Python测试开发班，2022年招生了！
免费领取三节测试开发试听课
链接：https://pan.baidu.com/s/1nKqINq42KWm-hupBoebBWw
提取码：k5fv
无论上课或自学，
你首先需要准备：
每天 2 小时+的学习时间，
每天坚持写代码的习惯！
有投入才有产出，
10k+的涨幅需要 1 年以上的努力！
祝你成功！

光荣之路出品
测试大佬和小白的故事
2021年度测试现状报告
自动化测试的目标
手把手教你pytest测试框架
测开必备-flask网站开发
IOS真机移动端App+H5混合自动化测试实战
产品测试规范
内推：字节跳动 | 测试开发
公开课qq群：413908278

限时特惠：本站每日持续更新海量各大内部网赚创业教程，会员可以下载全站资源点击查看详情
站长微信：

# 生活百科 # 国外搜索引擎 # 搜索引擎 # 网站源码 # 谷歌搜索引擎

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

不会技术，怎么从搜索引擎里，找到潜在赚钱机会 | 搜索联想词的原理

aixure

76

发票税收编码在线查询-不要再被困扰了，“税收分类编码”看这一篇就够了！

aixure

182

git安装配置-夜天之书 #65 Git 基础配置与常用技巧

aixure

102

持久层框架-十个非常有用的第三方Java库

aixure

59

日照的大学-日照市与山东大学签署全面战略合作协议

aixure

74

小麦亩产量-玉米亩产1075.9公斤！昌邑“粮王”来了！

aixure

65

暂无评论

暂无评论...

为发现全球优质AI工具产品而诞生。我们提供全面的AI工具资源，帮助您更高效地解决问题，提高工作效率。无论您是数据科学家、开发人员还是业务人员，我们都有适合您的工具。探索我们的AI工具资源库，发现新的技术和工具，并开始提升您的工作表现！

友链申请免责声明广告合作关于我们常见问题友情链接

Copyright © 2025 AI未来之窗粤ICP备18095072号