Revert perf regression changes (#1949)

dkalinowski · web-flow · commit e0ce5bf5a87e · 2025-03-20T15:53:28.000+04:00
Back port from release branch: #1944
diff --git a/src/cpp/src/tokenizer.cpp b/src/cpp/src/tokenizer.cpp
@@ -438,7 +438,8 @@ class Tokenizer::TokenizerImpl {
         set_state_if_necessary(infer_request_guard, tokenization_params);
         size_t batch_size = 1;
         infer_request_guard.get().set_input_tensor(ov::Tensor{ov::element::string, {batch_size}, &prompt});
-        infer_request_guard.get().infer();
+        infer_request_guard.get().start_async();
+        infer_request_guard.get().wait();
 
         return get_copied_results(
             infer_request_guard.get().get_tensor("input_ids"),
@@ -456,7 +457,8 @@ class Tokenizer::TokenizerImpl {
             set_state_if_necessary(infer_request_guard, tokenization_params);
             infer_request_guard.get().set_input_tensor(ov::Tensor{ov::element::string, {prompts.size()}, prompts.data()});
             auto size_ = infer_request_guard.get().get_input_tensor().get_shape();
-            infer_request_guard.get().infer();
+            infer_request_guard.get().start_async();
+            infer_request_guard.get().wait();
 
             unpadded = get_copied_results(
                 infer_request_guard.get().get_tensor("input_ids"),
@@ -483,7 +485,8 @@ class Tokenizer::TokenizerImpl {
         set_state_if_necessary(infer_request_guard, detokenization_params);
         size_t batch_size = 1;
         infer_request_guard.get().set_input_tensor(ov::Tensor{ov::element::i64, {batch_size, tokens.size()}, tokens.data()});
-        infer_request_guard.get().infer();
+        infer_request_guard.get().start_async();
+        infer_request_guard.get().wait();
         return infer_request_guard.get().get_output_tensor().data<std::string>()[0];
     }
 
@@ -495,7 +498,8 @@ class Tokenizer::TokenizerImpl {
         CircularBufferQueueElementGuard<ov::InferRequest> infer_request_guard(this->m_ireq_queue_detokenizer.get());
         set_state_if_necessary(infer_request_guard, detokenization_params);
         infer_request_guard.get().set_input_tensor(tokens);
-        infer_request_guard.get().infer();
+        infer_request_guard.get().start_async();
+        infer_request_guard.get().wait();
 
         auto res = infer_request_guard.get().get_output_tensor();
         auto res_data = res.data<std::string>();
@@ -523,7 +527,8 @@ class Tokenizer::TokenizerImpl {
         CircularBufferQueueElementGuard<ov::InferRequest> infer_request_guard(this->m_ireq_queue_detokenizer.get());
         set_state_if_necessary(infer_request_guard, detokenization_params);
         infer_request_guard.get().set_input_tensor(tokens);
-        infer_request_guard.get().infer();
+        infer_request_guard.get().start_async();
+        infer_request_guard.get().wait();
         auto res = infer_request_guard.get().get_output_tensor();
         auto res_data = res.data<std::string>();
         return std::vector<std::string>(res_data, res_data + res.get_shape()[0]);