Make serve server use multi-thread handler, to prevent HTTP OPTIONS get stuck

5a104159 · Helin Wang · 2994e661 · 5a104159
显示空白变更内容
内联并排

Showing with 37 addition and 14 deletion

serve/main.py serve/main.py +37 -14

未找到文件。
--- a/serve/main.py
+++ b/serve/main.py
@@ -4,6 +4,8 @@ import traceback
 import paddle.v2 as paddle
 from flask import Flask, jsonify, request
 from flask_cors import CORS
+from Queue import Queue
+import threading
 tarfn = os.getenv('PARAMETER_TAR_PATH', None)
@@ -35,26 +37,47 @@ def successResp(data):
    return jsonify(code=0, message="success", data=data)
+sendQ = Queue()
+recvQ = Queue()
 @app.route('/', methods=['POST'])
 def infer():
-    global inferer
+    sendQ.put(request.json)
+    success, resp = recvQ.get()
+    if success:
+        return successResp(resp)
+    else:
+        return errorResp(resp)
+# PaddlePaddle v0.10.0 does not support inference from different
+# threads, so we create a single worker thread.
+def worker():
+    paddle.init(use_gpu=with_gpu)
+    with open(tarfn) as param_f, open(topology_filepath) as topo_f:
+        params = paddle.parameters.Parameters.from_tar(param_f)
+        inferer = paddle.inference.Inference(parameters=params, fileobj=topo_f)
+    while True:
+        j = sendQ.get()
        try:
            feeding = {}
            d = []
-        for i, key in enumerate(request.json):
+            for i, key in enumerate(j):
-            d.append(request.json[key])
+                d.append(j[key])
                feeding[key] = i
                r = inferer.infer([d], feeding=feeding)
        except:
            trace = traceback.format_exc()
-        return errorResp(trace)
+            recvQ.put((False, trace))
-    return successResp(r.tolist())
+            continue
+        recvQ.put((True, r.tolist()))
 if __name__ == '__main__':
-    paddle.init(use_gpu=with_gpu)
+    t = threading.Thread(target=worker)
-    with open(tarfn) as param_f, open(topology_filepath) as topo_f:
+    t.daemon = True
-        params = paddle.parameters.Parameters.from_tar(param_f)
+    t.start()
-        inferer = paddle.inference.Inference(parameters=params, fileobj=topo_f)
    print 'serving on port', port
-    app.run(host='0.0.0.0', port=port, threaded=False)
+    app.run(host='0.0.0.0', port=port, threaded=True)