ngram parser를 통해 한글로된 책 제목 검색속도는 엄청난 개선이 있었다.

그런데 이제 영어 제목으로 된 책 검색을 하는 경우 문제가 생긴다.

단순히 apple로만 검색해도 시간이 엄청나게 걸린다. 

 

문제상황 정의 : ngram은 토큰 사이즈가2라서 영어검색을 할때 서칭 민감도가 높아 검색 시간이 오래걸린다.

해결 방안 고민

1. 프런트나 백엔드에서 정규식으로 들어온 검색어가 영어인지 한글인지 구분한다.

2. 토큰사이즈를 4로 만들 인덱스와 ngram으로만든 인덱스를 만들어서 영어는 토큰사이즈4에서 검색하고 한글은 ngram으로 만든 인덱스에서 검색하게 한다. 

 

이 방법이 데이터를 구분해서 따로 테이블을 만드는것보다 인덱스를 만드는 것이 더 효율적인 방법이 될것같다. 기존의 500만건의 데이터를 나눈다는 것은 비용과 시간이 너무 많이 들어가는 일이다. 

테스트는 내일 한다....

+ Recent posts