Discourse的搜索功能有点奇怪


(xiasummer) #1

除了搜索的 敏感词问题

我发现这个搜索工具还有一些毛病。经常性的关键词搜索不到——不过搜索title以及分类名这一点还好;内容搜索——甚至是在该帖子版面上仅搜索本帖子中的内容,都会搜索不到或者不准确,这就有点奇怪了。

这个Discourse的搜索引擎到底是怎样的啊?


(Leon) #2

我也发现了,有几次第一次都搜索不到内容!!!


(悠悠掌柜) #3

这个问题越来越严重,很多单词都搜不出来,应该是bug


(Erick Guan) #4

中文分词准确率的问题。这上面的实现比较简单,这个在短期内应该没有什么办法 :frowning:


(Shuai Zend) #5

分词的问题,只有扩展一下PG的中文分词。


(Erick Guan) #6

可以分到 Elastic Search 上来做,做成插件。不过这个可能要 2-3 个月的工时


(Shuai Zend) #7

或者直接用站外搜索会不会更方便简单点?例如google bing


(Erick Guan) #8

这个现在就有的,会直接弹到 Google


(xiasummer) #9

这并不是一个好的主意吧,因为我们搭建的很多论坛,其实都是一个组织机构的内部论坛,消息是不适合外泄的。必须要在论坛内部内置一个足够强大的搜索引擎。


(Mengyu Li) #10

有没有办法让他不弹到谷歌。。我感觉这个问题现在依然存在。


(freemangl) #11

扩展中文分词应该比用Elastic Search来做方便一些吧?
如何扩展中文分词呢?


(Erick Guan) #12

比较难。要开发扩展,然后要部署 ES。后面这个会卡住不少人,而且需要更多资源。


(freemangl) #13

我说的是不用ES,用上面他提到的扩展PG中文分词的方法呢?


(Erick Guan) #14

我感觉 PG 搜索用在 Discourse 上没什么大问题。性能不错,资源要求也很低。准确度的问题主要是分词的问题。如果不解决分词的问题,就要在设计上做更多取舍,比如用更多资源换更好的效果。然而中文分词可以扩展的。比如 jieba 用个大词库效果就会好一点。但是不会好太多,中文分词一直是计算机科学的难题。最难的问题在于,如果一个论坛里,有的人用词是不在字典里的,这个非常难


(xianliang) #15

现在,中文全文搜索 有好的办法解决吗?我现在的情况时候,有些中文能正常搜索,有些搜不到,
如:公链、 需要(正常)
如:土地、账号 (异常)