Como o Tantivy aplica tokenizadores diferentes para idiomas distintos?
A busca deste site foi construída usando tantivy
e tantivy-jieba
. O Tantivy é uma biblioteca de alto desempenho para busca全文 escrita em Rust, inspirada no Apache Lucene. Ele suporta pontuação BM25, consultas em linguagem natural, busca por frases, recuperação facetada e diversos tipos de campos (incluindo texto, números, datas, IP e JSON), além de oferecer suporte a tokenização multilíngue (incluindo chinês, japonês e coreano). Possui velocidade muito alta tanto na indexação quanto nas consultas, tempo de inicialização em milissegundos e suporte a memory mapping (mmap).
Desde que adicionei tradução multilíngue, o conteúdo buscado passou a conter muitos textos em outros idiomas. Recentemente, finalmente consegui separar as buscas por idioma. A principal solução foi garantir que a busca em um determinado idioma retorne apenas artigos nesse mesmo idioma, utilizando tokenizadores diferentes conforme o idioma: por exemplo, tantivy-jieba
para chinês, lindera
para japonês e o tokenizador padrão para inglês e outros idiomas. Isso resolveu os problemas de baixa qualidade nas buscas causados pela mistura de idiomas e pelo uso inadequado dos tokenizadores.
Inicialmente pensei em usar o qdrant para busca semântica, mas como o embedding é feito localmente, encaminhar novamente para obter resultados locais seria muito lento — nem sei quanto tempo levaria para inicializar, e a taxa de sucesso também é incerta. Talvez eu possa implementar isso no公众号 do WeChat; vou ver se consigo terminar nos próximos dias.
Escrito manualmente, para reduzir a taxa de detecção como conteúdo gerado por IA; desde que dê para entender, está bom. Estou planejando excluir todos os artigos anteriores escritos com IA e ver quando o Bing volta a indexar normalmente.
1. Construção do índice
pub async fn build_search_index() -> anyhow::Result<Index> {
let en_text_options = TextOptions::default()
.set_indexing_options(
TextFieldIndexing::default()
.set_tokenizer("en")
.set_index_option(IndexRecordOption::WithFreqsAndPositions),
)
.set_stored();
let zh_text_options = TextOptions::default()
.set_indexing_options(
TextFieldIndexing::default()
.set_tokenizer("jieba")
.set_index_option(IndexRecordOption::WithFreqsAndPositions),
)
.set_stored();
let ja_text_options = TextOptions::default()
.set_indexing_options(
TextFieldIndexing::default()
.set_tokenizer("lindera")
.set_index_option(IndexRecordOption::WithFreqsAndPositions),
)
.set_stored();
let mut schema_builder = Schema::builder();
let title_en_field = schema_builder.add_text_field("title_en", en_text_options.clone());
let content_en_field = schema_builder.add_text_field("content_en", en_text_options); let title_zh_field = schema_builder.add_text_field("title_zh", zh_text_options.clone());
let content_zh_field = schema_builder.add_text_field("content_zh", zh_text_options);
let title_ja_field = schema_builder.add_text_field("title_ja", ja_text_options.clone());
let content_ja_field = schema_builder.add_text_field("content_ja", ja_text_options);
let schema = schema_builder.build();
let index = Index::create_in_ram(schema);
let en_analyzer = TextAnalyzer::builder(SimpleTokenizer::default())
.filter(LowerCaser)
.filter(Stemmer::new(tantivy::tokenizer::Language::English))
.build();
index.tokenizers().register("en", en_analyzer);
let dictionary = load_embedded_dictionary(lindera::dictionary::DictionaryKind::IPADIC)?;
let segmenter = Segmenter::new(Mode::Normal, dictionary, None);
let lindera_analyzer = TextAnalyzer::from(LinderaTokenizer::from_segmenter(segmenter));
index.tokenizers().register("lindera", lindera_analyzer);
let jieba_analyzer = TextAnalyzer::builder(JiebaTokenizer {})
.filter(RemoveLongFilter::limit(40))
.build();
index.tokenizers().register("jieba", jieba_analyzer);
let mut index_writer = index.writer(50_000_000)?;
let all_articles = seus_artigos;
for article in all_articles {
let mut doc = TantivyDocument::new();
doc.add_text(lang_field, &article.lang);
match article.lang.as_str() {
"zh-CN" | "zh-TW" => {
doc.add_text(title_zh_field, &article.title);
doc.add_text(content_zh_field, &article.md);
}
"ja" => {
doc.add_text(title_ja_field, &article.title);
doc.add_text(content_ja_field, &article.md);
}
_ => {
doc.add_text(title_en_field, &article.title);
doc.add_text(content_en_field, &article.md);
}
}
index_writer.add_document(doc)?;
}
index_writer.commit()?;
index_writer.wait_merging_threads()?;
Ok(index)
}
2. Busca no índice
Seria melhor verificar primeiro o idioma com match e depois buscar apenas nos campos correspondentes, mas como já estava funcionando, não mudei.
#[server]
pub async fn search_handler(query: SearchQuery) -> Result<String, ServerFnError> {
let index = SEARCH_INDEX_CACHE.get("primary_index").ok_or_else(|| {
ServerFnErrorErr::ServerError("Índice de busca não encontrado no cache.".to_string())
})?;
let schema = index.schema();
let title_en_f = schema.get_field("title_en").unwrap();
let content_en_f = schema.get_field("content_en").unwrap();
let title_zh_f = schema.get_field("title_zh").unwrap();
let content_zh_f = schema.get_field("content_zh").unwrap();
let title_ja_f = schema.get_field("title_ja").unwrap();
let content_ja_f = schema.get_field("content_ja").unwrap();
let canonical_f = schema.get_field("canonical").unwrap();
let lang_f = schema.get_field("lang").unwrap();
let reader = index.reader()?;
let searcher = reader.searcher();
let mut queries: Vec<(Occur, Box<dyn tantivy::query::Query>)> = Vec::new();
let query_parser = QueryParser::for_index(
&index,
vec![
title_en_f,
content_en_f,
title_zh_f,
content_zh_f,
title_ja_f,
content_ja_f,
],
);
let user_query = query_parser.parse_query(&query.q)?;
queries.push((Occur::Must, user_query));
if let Some(lang_code) = &query.lang {
let lang_term = Term::from_field_text(lang_f, lang_code);
let lang_query = Box::new(TermQuery::new(lang_term, IndexRecordOption::Basic));
queries.push((Occur::Must, lang_query));
}
...
let final_query = BooleanQuery::new(queries);
let hits: Vec<Hit> = match query.sort {
SortStrategy::Relevance => {
let top_docs = TopDocs::with_limit(query.limit);
let search_results: Vec<(Score, DocAddress)> =
searcher.search(&final_query, &top_docs)?;
search_results
.into_iter()
.filter_map(|(score, doc_address)| {
let doc = searcher.doc::<TantivyDocument>(doc_address).ok()?;
let title = doc
.get_first(title_en_f)
.or_else(|| doc.get_first(title_zh_f))
.or_else(|| doc.get_first(title_ja_f))
.and_then(|v| v.as_str())
.unwrap_or("")
.to_string();
let formatted_lastmod =
match DateTime::parse_from_rfc3339(doc.get_first(lastmod_str_f)?.as_str()?)
{
Ok(dt) => {
let china_dt = dt.with_timezone(&Shanghai);
china_dt.format("%Y-%m-%d").to_string()
}
Err(_) => doc.get_first(lastmod_str_f)?.as_str()?.to_string(),
};
Some(Hit {
title,
canonical: doc.get_first(canonical_f)?.as_str()?.to_string(),
lastmod: formatted_lastmod,
score,
})
})
.collect()
}
};
serde_json::to_string(&hits).map_err(|e| ServerFnError::ServerError(e.to_string()))
}
3. Considerações finais
O desempenho da busca com Tantivy é bastante bom. Embora ainda não suporte busca semântica, sua velocidade e eficácia são excelentes. Muitos bancos de dados vetoriais usam índices Tantivy para busca全文.
Para mais informações detalhadas sobre o uso do Tantivy, consulte: exemplo oficial do Tantivy, que contém 20 exemplos de busca muito detalhados, cada um com explicações completas.
Comentário