Every document

本工程的最终目的是提供一个易用的本地文件搜索和管理器，它不仅能实现全部本地文件的按名称管理，就像 Everything 对于文件名的管理那样，也能以同样方便的方法实现全部本地文件的按内容管理。工程在施工中，开源代码可见我的 Github 页面

https://github.com/listenzcc/every-document^[1]

Every document^[2]
- 需求和典型使用场景^[3]
  - 基础需求^[4]
  - 智能化需求^[5]
  - 典型使用场景^[6]
  - 工程特点^[7]
- 体系结构^[8]
- 功能与测试^[9]

需求和典型使用场景

基础需求

本工程的最终目的是提供一个易用的本地文件搜索和管理器，它不仅能实现全部本地文件的按名称管理，就像 Everything 对于文件名的管理那样，也能以同样方便的方法实现全部本地文件的按内容管理。

voidtools^[10]

当然，内容管理仅限已知的可读文本文件，或具有特定解析方法的文件。其中，已知的可读文本文件包括 .md 文件， .tex 文件，.html 文件，.py 文件，.cpp 文件等，简单来说它们具有特定的语义特点；具有特定解析方法的文件包括 .doc(x)文件，.xls(x)文件等，它们虽然不是直接可读的文本文件，而是复杂的二进制文件，但具它们有特定的解析方法，可以从中解析出必要的结构化文本信息。

智能化需求

在文本信息提取的基础上，使用轻量化的 NLP 模型实现本地数据的语言模型建模。在智能模型的基础上，实现文档自动分析，并提供整理和归类建议。

典型使用场景

本工程的典型使用场景如下

在开始一天的工作时，立即提供全部本地文件的搜索和定位服务；
在结束一天的工作时，对当天编辑或新增的文档进行统计和记录；
在工作过程中，提供既往数据的搜索和定位服务；
在查询词条时，自动搜索相关文档。

工程特点

本工程具有本地服务的安全特点，使其能够处理不方便上网分享的材料。对于经常动笔的用户来说，本地数据的内容专一，体量适中（若嫌数据规模过小则可以通过有意识地增加大部头书籍的方法实现数据增广），且不容易受到中文互联网环境的污染。

本工程对文件进行分析的粒度和方法可控，分析结果与本地文件实现一一对应，达到所见即所得。

本工程能够降低日常文档维护的心理成本。通过智能化的、快速的搜索可以实现快速进入工作或写作环境，并且由于内容定位的准确性和快速性，用户可以使文档内容更加聚焦，实现真正的“一文、一事、一议”。避免由于“找不到文档”而“不得不”另起炉灶，而导致本地文档出现内容大量冗余和过于散碎的问题，同时也将在一定程度上解决历史文档的再利用问题。

体系结构

本工程的结构框图如下，希望在今年我能把它的功能填满。

功能与测试

【待续】

参考资料

[1]

https://github.com/listenzcc/every-document: https://github.com/listenzcc/every-document

[2]

Every document: #every-document

[3]

需求和典型使用场景: #需求和典型使用场景

[4]

基础需求: #基础需求

[5]

智能化需求: #智能化需求

[6]

典型使用场景: #典型使用场景

[7]

工程特点: #工程特点

[8]

体系结构: #体系结构

[9]

功能与测试: #功能与测试

[10]

voidtools: https://www.voidtools.com/