OneMoreIndexer

Search engine project from Tinkoff generation ML course

(sudo) pip install flask
(sudo) python server.py
download word2vec

dataset from https://www.kaggle.com/tunguz/200000-jeopardy-questions

I apply normalization to query (remove stop-words, remove unnecessary data(links, symbols), apply lemmatization)

Then I get 100 most relevant docs based on frequensy of words in query. Then the array of words sorted based on diffrense in query vector and document vector (using word2vec normalization)

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
LICENSE		LICENSE
README.md		README.md
index.html		index.html
search.py		search.py
server.py		server.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

OneMoreIndexer

About

Uh oh!

Releases

Packages

Languages

License

Rexol/OneMoreIndexer

Folders and files

Latest commit

History

Repository files navigation

OneMoreIndexer

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages