Initial commit

66dffdc8 · 东方怂天 · 66dffdc8 · 66dffdc8 · 66dffdc8 · 66dffdc8
24 changed file
--- a/LSTM分类器.py
+++ b/LSTM分类器.py
+from keras.models import load_model
+from keras.preprocessing.text import Tokenizer, text_to_word_sequence
+from keras.preprocessing.sequence import pad_sequences
+from keras.utils import to_categorical
+import numpy as np
+# 1.获取停词表
+from 基础函数 import *
+stopwords = getStopWords()
+# 2.获取文本类型的函数
+def GetType(input="华侨华人蓝皮书"):
+    tokenizer = Tokenizer()
+    # 2.1加载模型
+    model = load_model('训练模型/侨情.侨情')
+    # 以下的命名我随意命名的、大家看看就好
+    # 2.2定义空列表存放用于获取类型的输入单元
+    just4test = []
+    # 2.3打包成相关的data（就是我在LSTM生成的时候提到的序列化东东）
+    just4test.append(Just_text(input))
+    tokenizer.fit_on_texts(just4test)
+    just1sequences = tokenizer.texts_to_sequences(just4test)
+    just1data = pad_sequences(just1sequences, maxlen=MAX_SEQUENCE_LENGTH)
+    just1labels = to_categorical(np.asarray([0, 0]))
+    just1x_test = just1data
+    # 2.4预测类型、相似度比较（我在LSTM生成里面也说到了、就在最后一行）
+    y_predict = model.predict(just1x_test, batch_size=128, verbose=1)
+    # 2.5获取类别的索引
+    maxindex = np.argmax(y_predict)
+    # 2.6返回相应类别
+    return TypeTable[maxindex]
--- a/LSTM模型生成.py
+++ b/LSTM模型生成.py
+# 引入包
+from keras.models import Sequential
+from keras.models import load_model
+from keras.layers import LSTM, Embedding, GRU
+from keras.layers import Dense, Input, Flatten, Dropout
+from keras.utils import to_categorical
+from keras.preprocessing.sequence import pad_sequences
+from keras.preprocessing.text import Tokenizer, text_to_word_sequence
+import random
+import jieba
+import pandas as pd
+import numpy as np
+# 这里会有一些预设变量，我存在了基础函数里面，会在第3点用到
+# 预定义变量，此处方便观看
+# MAX_SEQUENCE_LENGTH = 100  # 最大序列长度
+# EMBEDDING_DIM = 200  # embdding 维度
+# VALIDATION_SPLIT = 0.16  # 验证集比例
+# TEST_SPLIT = 0.2  # 测试集比例
+# 最大序列长度——pad生成data的最大数量，测试时为100，此处可以调大，使模型更可靠
+# Embdding维度——我也不知道有什么用，总之越大越好
+# 验证集比例——在模型训练的时候会用输入所有数据按比例划分最后一部分的数据验证模型的可靠性
+# 测试集比例——此处为用于测试的，可以设置为0，则上面两项可以调大
+# 获取停词表//已经卸载基础函数里面了
+from 基础函数 import *
+stopwords = getStopWords()
+# 1.已经标注好的语料输入
+# 1.1加载语料（可以按照分类加载、此处自己编写）
+教育_df = pd.read_csv('训练集/教育.csv', encoding='utf-8', sep=',')
+人物_df = pd.read_csv('训练集/人物.csv', encoding='utf-8', sep=',')
+行政_df = pd.read_csv('训练集/行政.csv', encoding='utf-8', sep=',')
+经济_df = pd.read_csv('训练集/经济.csv', encoding='utf-8', sep=',')
+政策_df = pd.read_csv('训练集/政策.csv', encoding='utf-8', sep=',')
+# 1.2删除语料的nan行
+教育_df.dropna(inplace=True)
+人物_df.dropna(inplace=True)
+行政_df.dropna(inplace=True)
+经济_df.dropna(inplace=True)
+政策_df.dropna(inplace=True)
+# 1.3转换为列表
+教育 = 教育_df.values.tolist()
+人物 = 人物_df.values.tolist()
+行政 = 行政_df.values.tolist()
+经济 = 经济_df.values.tolist()
+政策 = 政策_df.values.tolist()
+# 2.文本标注
+# 2.1文本标注函数
+def preprocess_text(content_lines, sentences, category):
+    # 定义分词和打标签函数preprocess_text
+    # 参数content_lines即为1.3转换的list
+    # 参数sentences是定义的空list，用来储存打标签之后的数据
+    # 参数category 是类型标签//可以修改成中文、当然数字可能快一点
+    for line in content_lines:
+        try:
+            # 此处line为一个列表，所以转换为string
+            segs = jieba.lcut("".join(line))
+            segs = [v for v in segs if not str(v).isdigit()]  # 去数字
+            segs = list(filter(lambda x: x.strip(), segs))  # 去左右空格
+            segs = list(filter(lambda x: len(x) > 1, segs))  # 长度为1的字符
+            segs = list(
+                filter(lambda x: x not in stopwords, segs))  # 去掉停用词
+            sentences.append((" ".join(segs), category))  # 打标签
+        except Exception:
+            print(line)  # 输出错误行、个人认为没用
+            continue
+# 2.2调用函数、生成训练数据
+sentences = []
+preprocess_text(教育, sentences, 0)
+preprocess_text(人物, sentences, 1)
+preprocess_text(行政, sentences, 2)
+preprocess_text(经济, sentences, 3)
+preprocess_text(政策, sentences, 4)
+# 2.3打散数据，生成更可靠的训练集
+random.shuffle(sentences)
+# 3.模型生成
+# 3.1获取所有特征和对应标签
+all_texts = [sentence[0] for sentence in sentences]
+all_labels = [sentence[1] for sentence in sentences]
+# 3.2keras的sequence模块文本序列填充
+tokenizer = Tokenizer()
+tokenizer.fit_on_texts(all_texts)
+sequences = tokenizer.texts_to_sequences(all_texts)
+word_index = tokenizer.word_index
+# print('Found %s unique tokens.' % len(word_index))#小提示//可以看一下
+# 下面用到了上面预设的最大长度，可以调大
+data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH)
+labels = to_categorical(np.asarray(all_labels))
+# print('Shape of data tensor:', data.shape)#小提示//可以看一下
+# print('Shape of label tensor:', labels.shape)#小提示//可以看一下
+# 3.2数据切分//对应前面提到的测试集比例和验证集合比例
+p1 = int(len(data) * (1 - VALIDATION_SPLIT - TEST_SPLIT))
+p2 = int(len(data) * (1 - TEST_SPLIT))
+# 3.3训练集、验证集、测试集生成
+# train为训练集
+x_train = data[:p1]
+y_train = labels[:p1]
+# val为验证集
+x_val = data[p1:p2]
+y_val = labels[p1:p2]
+# test为测试集合//按理说可以删掉、我懒
+x_test = data[p2:]
+y_test = labels[p2:]
+# 3.4模型训练//老实说我看不懂
+model = Sequential()
+model.add(Embedding(len(word_index) + 1, EMBEDDING_DIM,
+                    input_length=MAX_SEQUENCE_LENGTH))
+model.add(LSTM(200, dropout=0.2, recurrent_dropout=0.2))
+model.add(Dropout(0.2))
+model.add(Dense(64, activation='relu'))
+model.add(Dense(labels.shape[1], activation='softmax'))
+model.summary()
+# 3.5模型编译
+model.compile(loss='categorical_crossentropy',
+              optimizer='rmsprop',
+              metrics=['acc'])
+print(model.metrics_names)
+# 下面的参数epochs为训练轮数、越大越好
+model.fit(x_train, y_train, validation_data=(
+    x_val, y_val), epochs=100, batch_size=128)  # 拟合训练集和验证集、提升准确性
+# 3.6保存模型
+model.save('训练模型/侨情.侨情')
+# 3.7模型评估
+print(model.evaluate(x_test, y_test))  # 评估测试集合//其实没有用//仅供娱乐
+# 下面这个才是真正的预测函数
+# model.predict(经过序列化的数据集合, batch_size=128, verbose=1)
--- a/停词表/stopwords.txt
+++ b/停词表/stopwords.txt
+?
+、
+。
+“
+”
+《
+》
+!
+！
+，
+,
+：
+:
+；
+？
+-
+(
+)
+（
+）
+·
+--
+……
+/
+.
+|
+——
+‘
+’
+□
+【
+】
+A
+B
+C
+D
+啊
+阿
+哎
+哎呀
+哎哟
+唉
+俺
+俺们
+按
+按照
+吧
+吧哒
+把
+罢了
+被
+本
+本着
+比
+比方
+比如
+鄙人
+彼
+彼此
+边
+别
+别的
+别说
+并
+并且
+不比
+不成
+不单
+不但
+不独
+不管
+不光
+不过
+不仅
+不拘
+不论
+不怕
+不然
+不如
+不特
+不惟
+不问
+不只
+朝
+朝着
+趁
+趁着
+乘
+冲
+除
+除此之外
+除非
+除了
+此
+此间
+此外
+从
+从而
+出
+打
+待
+但
+但是
+当
+当着
+到
+得
+的
+的话
+等
+等等
+地
+第
+叮咚
+对
+对于
+多
+多少
+而
+而况
+而且
+而是
+而外
+而言
+而已
+尔后
+反过来
+反过来说
+反之
+非但
+非徒
+否则
+嘎
+嘎登
+刚
+刚刚
+该
+赶
+个
+各
+各个
+各位
+各种
+各自
+给
+根据
+跟
+故
+故此
+固然
+关于
+管
+归
+果然
+果真
+过
+哈
+哈哈
+呵
+和
+何
+何处
+何况
+何时
+嘿
+哼
+哼唷
+呼哧
+乎
+哗
+还是
+还有
+换句话说
+换言之
+或
+或是
+或者
+极了
+及
+及其
+及至
+即
+即便
+即或
+即令
+即若
+即使
+几
+几时
+己
+既
+既然
+既是
+继而
+加之
+假如
+假若
+假使
+鉴于
+将
+较
+较之
+叫
+接着
+结果
+借
+紧接着
+进而
+尽
+尽管
+经
+经过
+就
+就是
+就是说
+据
+具体地说
+具体说来
+开始
+开外
+靠
+咳
+可
+可见
+可是
+可以
+况且
+啦
+来
+来着
+离
+例如
+哩
+连
+连同
+两者
+了
+临
+另
+另外
+另一方面
+论
+嘛
+吗
+慢说
+漫说
+冒
+么
+每
+每当
+们
+莫若
+某
+某个
+某些
+拿
+哪
+哪边
+哪儿
+哪个
+哪里
+哪年
+哪怕
+哪天
+哪些
+哪样
+那
+那边
+那儿
+那个
+那会儿
+那里
+那么
+那么些
+那么样
+那时
+那些
+那样
+乃
+乃至
+呢
+能
+你
+你们
+您
+宁
+宁可
+宁肯
+宁愿
+哦
+呕
+啪达
+旁人
+呸
+凭
+凭借
+其
+其次
+其二
+其他
+其它
+其一
+其余
+其中
+却
+去
+起
+起见
+起见
+岂但
+恰恰相反
+前后
+前者
+且
+然而
+然后
+然则
+让
+人家
+任
+任何
+任凭
+如
+如此
+如果
+如何
+如其
+如若
+如上所述
+若
+若非
+若是
+啥
+上下
+尚且
+设若
+设使
+甚而
+甚么
+甚至
+省得
+时候
+十分
+什么
+什么样
+使得
+是
+是的
+首先
+谁
+谁知
+顺
+顺着
+似的
+虽
+虽然
+虽说
+虽则
+随
+随着
+所
+所以
+他
+他们
+他人
+它
+它们
+她
+她们
+倘
+倘或
+倘然
+倘若
+倘使
+腾
+替
+通过
+同
+同时
+哇
+万一
+往
+望
+为
+为何
+为了
+为什么
+为着
+喂
+嗡嗡
+我
+我们
+呜
+呜呼
+乌乎
+无论
+无宁
+毋宁
+嘻
+吓
+相对而言
+像
+向
+向着
+嘘
+呀
+焉
+沿
+沿着
+要
+要不
+要不然
+要不是
+要么
+要是
+也
+也罢
+也好
+一一
+———
+一般
+一边
+一会儿
+一旦
+一定
+一点点
+一方面
+一面
+一来
+一起
+一切
+一下
+一下子
+一样
+一些
+一则
+一直
+依
+依照
+矣
+以
+以便
+以及
+以免
+以至
+以至于
+以致
+抑或
+因
+因此
+因而
+因为
+哟
+用
+由
+由此可见
+由于
+有
+有的
+有关
+有些
+又
+于
+于是
+于是乎
+与
+与此同时
+与否
+与其
+越是
+云云
+哉
+再说
+再者
+在
+在下
+咱
+咱们
+则
+怎
+怎么
+怎么办
+怎么样
+怎样
+咋
+照
+照着
+者
+这
+这边
+这儿
+这个
+这会儿
+这就是说
+这里
+这么
+这么点儿
+这么些
+这么样
+这时
+这些
+这样
+正如
+吱
+之
+之类
+之所以
+之一
+只是
+只限
+只要
+只有
+至
+至于
+诸位
+着
+着呢
+自
+自从
+自个儿
+自各儿
+自己
+自家
+自身
+综上所述
+总的来看
+总的来说
+总的说来
+总而言之
+总之
+纵
+纵令
+纵然
+纵使
+遵照
+作为
+兮
+呃
+呗
+咚
+咦
+喏
+啐
+喔唷
+嗬
+嗯
+嗳
+上
+下
+不
+不再
+不同
+不少
+一
+二
+两
+三
+四
+五
+六
+七
+八
+九
+十
+个人
+中
+之前
+之后
+之外
+之间
+也许
+人
+前
+前天
+今天
+今年
+明天
+明年
+后天
+去年
+从来
+令
+以下
+以前
+以后
+以往
+以来
+份
+件
+伏
+众
+众多
+会
+位
+做
+停
+顶
+先
+先前
+全
+公司
+公斤
+其实
+内
+已
+再
+小
+大
+还
+里
+都
+部
+遍
+道
+说
+第一
+第二
+第三
+第四
+第五
+第六
+第七
+第八
+第九
+第十
+只
+后
+太
+大家
+女
+男
+看
+新浪
+年
+很
+才
+时
+更
+最
+本报
+讯
+记者
+演
+片
+一
+一下
+一些
+一切
+一则
+一天
+一定
+一方面
+一旦
+一时
+一来
+一样
+一次
+一片
+一直
+一致
+一般
+一起
+一边
+一面
+万一
+上下
+上升
+上去
+上来
+上述
+上面
+下列
+下去
+下来
+下面
+不一
+不久
+不仅
+不会
+不但
+不光
+不单
+不变
+不只
+不可
+不同
+不够
+不如
+不得
+不怕
+不惟
+不成
+不拘
+不敢
+不断
+不是
+不比
+不然
+不特
+不独
+不管
+不能
+不要
+不论
+不足
+不过
+不问
+与
+与其
+与否
+与此同时
+专门
+且
+两者
+严格
+严重
+个
+个人
+个别
+中小
+中间
+丰富
+临
+为
+为主
+为了
+为什么
+为什麽
+为何
+为着
+主张
+主要
+举行
+乃
+乃至
+么
+之
+之一
+之前
+之后
+之後
+之所以
+之类
+乌乎
+乎
+乘
+也
+也好
+也是
+也罢
+了
+了解
+争取
+于
+于是
+于是乎
+云云
+互相
+产生
+人们
+人家
+什么
+什么样
+什麽
+今后
+今天
+今年
+今後
+仍然
+从
+从事
+从而
+他
+他人
+他们
+他的
+代替
+以
+以上
+以下
+以为
+以便
+以免
+以前
+以及
+以后
+以外
+以後
+以来
+以至
+以至于
+以致
+们
+任
+任何
+任凭
+任务
+企图
+伟大
+似乎
+似的
+但
+但是
+何
+何况
+何处
+何时
+作为
+你
+你们
+你的
+使得
+使用
+例如
+依
+依照
+依靠
+促进
+保持
+俺
+俺们
+倘
+倘使
+倘或
+倘然
+倘若
+假使
+假如
+假若
+做到
+像
+允许
+充分
+先后
+先後
+先生
+全部
+全面
+兮
+共同
+关于
+其
+其一
+其中
+其二
+其他
+其余
+其它
+其实
+其次
+具体
+具体地说
+具体说来
+具有
+再者
+再说
+冒
+冲
+决定
+况且
+准备
+几
+几乎
+几时
+凭
+凭借
+出去
+出来
+出现
+分别
+则
+别
+别的
+别说
+到
+前后
+前者
+前进
+前面
+加之
+加以
+加入
+加强
+十分
+即
+即令
+即使
+即便
+即或
+即若
+却不
+原来
+又
+及
+及其
+及时
+及至
+双方
+反之
+反应
+反映
+反过来
+反过来说
+取得
+受到
+变成
+另
+另一方面
+另外
+只是
+只有
+只要
+只限
+叫
+叫做
+召开
+叮咚
+可
+可以
+可是
+可能
+可见
+各
+各个
+各人
+各位
+各地
+各种
+各级
+各自
+合理
+同
+同一
+同时
+同样
+后来
+后面
+向
+向着
+吓
+吗
+否则
+吧
+吧哒
+吱
+呀
+呃
+呕
+呗
+呜
+呜呼
+呢
+周围
+呵
+呸
+呼哧
+咋
+和
+咚
+咦
+咱
+咱们
+咳
+哇
+哈
+哈哈
+哉
+哎
+哎呀
+哎哟
+哗
+哟
+哦
+哩
+哪
+哪个
+哪些
+哪儿
+哪天
+哪年
+哪怕
+哪样
+哪边
+哪里
+哼
+哼唷
+唉
+啊
+啐
+啥
+啦
+啪达
+喂
+喏
+喔唷
+嗡嗡
+嗬
+嗯
+嗳
+嘎
+嘎登
+嘘
+嘛
+嘻
+嘿
+因
+因为
+因此
+因而
+固然
+在
+在下
+地
+坚决
+坚持
+基本
+处理
+复杂
+多
+多少
+多数
+多次
+大力
+大多数
+大大
+大家
+大批
+大约
+大量
+失去
+她
+她们
+她的
+好的
+好象
+如
+如上所述
+如下
+如何
+如其
+如果
+如此
+如若
+存在
+宁
+宁可
+宁愿
+宁肯
+它
+它们
+它们的
+它的
+安全
+完全
+完成
+实现
+实际
+宣布
+容易
+密切
+对
+对于
+对应
+将
+少数
+尔后
+尚且
+尤其
+就
+就是
+就是说
+尽
+尽管
+属于
+岂但
+左右
+巨大
+巩固
+己
+已经
+帮助
+常常
+并
+并不
+并不是
+并且
+并没有
+广大
+广泛
+应当
+应用
+应该
+开外
+开始
+开展
+引起
+强烈
+强调
+归
+当
+当前
+当时
+当然
+当着
+形成
+彻底
+彼
+彼此
+往
+往往
+待
+後来
+後面
+得
+得出
+得到
+心里
+必然
+必要
+必须
+怎
+怎么
+怎么办
+怎么样
+怎样
+怎麽
+总之
+总是
+总的来看
+总的来说
+总的说来
+总结
+总而言之
+恰恰相反
+您
+意思
+愿意
+慢说
+成为
+我
+我们
+我的
+或
+或是
+或者
+战斗
+所
+所以
+所有
+所谓
+打
+扩大
+把
+抑或
+拿
+按
+按照
+换句话说
+换言之
+据
+掌握
+接着
+接著
+故
+故此
+整个
+方便
+方面
+旁人
+无宁
+无法
+无论
+既
+既是
+既然
+时候
+明显
+明确
+是
+是否
+是的
+显然
+显著
+普通
+普遍
+更加
+曾经
+替
+最后
+最大
+最好
+最後
+最近
+最高
+有
+有些
+有关
+有利
+有力
+有所
+有效
+有时
+有点
+有的
+有着
+有著
+望
+朝
+朝着
+本
+本着
+来
+来着
+极了
+构成
+果然
+果真
+某
+某个
+某些
+根据
+根本
+欢迎
+正在
+正如
+正常
+此
+此外
+此时
+此间
+毋宁
+每
+每个
+每天
+每年
+每当
+比
+比如
+比方
+比较
+毫不
+没有
+沿
+沿着
+注意
+深入
+清楚
+满足
+漫说
+焉
+然则
+然后
+然後
+然而
+照
+照着
+特别是
+特殊
+特点
+现代
+现在
+甚么
+甚而
+甚至
+用
+由
+由于
+由此可见
+的
+的话
+目前
+直到
+直接
+相似
+相信
+相反
+相同
+相对
+相对而言
+相应
+相当
+相等
+省得
+看出
+看到
+看来
+看看
+看见
+真是
+真正
+着
+着呢
+矣
+知道
+确定
+离
+积极
+移动
+突出
+突然
+立即
+第
+等
+等等
+管
+紧接着
+纵
+纵令
+纵使
+纵然
+练习
+组成
+经
+经常
+经过
+结合
+结果
+给
+绝对
+继续
+继而
+维持
+综上所述
+罢了
+考虑
+者
+而
+而且
+而况
+而外
+而已
+而是
+而言
+联系
+能
+能否
+能够
+腾
+自
+自个儿
+自从
+自各儿
+自家
+自己
+自身
+至
+至于
+良好
+若
+若是
+若非
+范围
+莫若
+获得
+虽
+虽则
+虽然
+虽说
+行为
+行动
+表明
+表示
+被
+要
+要不
+要不是
+要不然
+要么
+要是
+要求
+规定
+觉得
+认为
+认真
+认识
+让
+许多
+论
+设使
+设若
+该
+说明
+诸位
+谁
+谁知
+赶
+起
+起来
+起见
+趁
+趁着
+越是
+跟
+转动
+转变
+转贴
+较
+较之
+边
+达到
+迅速
+过
+过去
+过来
+运用
+还是
+还有
+这
+这个
+这么
+这么些
+这么样
+这么点儿
+这些
+这会儿
+这儿
+这就是说
+这时
+这样
+这点
+这种
+这边
+这里
+这麽
+进入
+进步
+进而
+进行
+连
+连同
+适应
+适当
+适用
+逐步
+逐渐
+通常
+通过
+造成
+遇到
+遭到
+避免
+那
+那个
+那么
+那么些
+那么样
+那些
+那会儿
+那儿
+那时
+那样
+那边
+那里
+那麽
+部分
+鄙人
+采取
+里面
+重大
+重新
+重要
+鉴于
+问题
+防止
+阿
+附近
+限制
+除
+除了
+除此之外
+除非
+随
+随着
+随著
+集中
+需要
+非但
+非常
+非徒
+靠
+顺
+顺着
+首先
+高兴
+是不是
+说说
+索尼
+n1
+ap
+xba
+大法
\ No newline at end of file
--- a/地点抽取.py
+++ b/地点抽取.py
+import cpca
+import jieba.posseg as pseg
+import pandas as pd
+import xlsxwriter
+location_str = ["北京","观山湖区"]
+df = cpca.transform(location_str, cut=False, pos_sensitive=True)
+print(df)
+# 主函数
+if __name__ == '__main__':
+    # 1.输入文件
+    data_xls = pd.read_excel('词云/法国新闻.xlsx')
+    # 2.这种方法是因为我用直接读取的方法有点麻烦
+    test_data = []
+    for i in data_xls.index.values:  # 获取行号的索引，并对其进行遍历：
+        # 根据i来获取每一行指定的数据 并利用to_dict转成字典
+        row_data = data_xls.loc[i, ['链接','新闻', '日期','来源', '内容']].to_dict()
+        test_data.append(row_data)
+    print("最终获取到的数据是：{0}".format(test_data))
+    #3.抽取内容中的地名和机构名
+    for i in test_data:
+        words = pseg.cut(i["内容"])
+        i["地点"] = ""
+        for word, flag in words:
+            if (flag == 'ns'or flag == "nt"):
+                print('%s, %s' % (word, flag))
+                i["地点"] += word + "\n"
+    #4.保存抽取出来的地点
+    # 创建工作簿
+    file_name = "涉侨资讯_慈善公益.xlsx"
+    workbook = xlsxwriter.Workbook(file_name)
+    # 创建工作表
+    worksheet = workbook.add_worksheet('慈善公益')
+    # 写单元格
+    worksheet.write(0, 0, '链接')
+    worksheet.write(0, 1, '新闻')
+    worksheet.write(0, 2, '日期')
+    worksheet.write(0, 3, '来源')
+    worksheet.write(0, 4, '地点')
+    worksheet.write(0, 5, '内容')
+    pla = 1
+    for i in test_data:
+        print(i)
+        worksheet.write_row(pla, 0, (i['链接'],i['新闻'],i['日期'],i['来源'],i["地点"],i['内容']))
+        pla = pla+1
+    # 关闭工作簿
+    workbook.close()
--- a/基础函数.py
+++ b/基础函数.py
+import jieba
+# 1.定义的Type列表，可以对应数字查询所属类别
+TypeTable = ("教育", "人物", "行政", "经济", "政策")
+# 2.LSTM生成时的预定义变量
+MAX_SEQUENCE_LENGTH = 100  # 最大序列长度
+EMBEDDING_DIM = 200  # embdding 维度
+VALIDATION_SPLIT = 0.16  # 验证集比例
+TEST_SPLIT = 0.2  # 测试集比例
+# 3.停用词表获取
+def getStopWords():
+    # 加载停用词,从网上下载的停词表//可以调用其它的模块直接获得分词表
+    stopwords = []
+    file = open("停词表/stopwords.txt")  # 本地分词文件
+    for line in file:
+        stopwords.append(line.strip('\n'))
+    file.close()
+    return stopwords
+# 4.处理输入文本
+def Just_text(text):
+    stopwords = getStopWords()
+    segs = jieba.lcut(text)
+    segs = [v for v in segs if not str(v).isdigit()]  # 去数字
+    segs = list(filter(lambda x: x.strip(), segs))  # 去左右空格
+    segs = list(filter(lambda x: len(x) > 1, segs))  # 长度为1的字符
+    segs = list(
+        filter(lambda x: x not in stopwords, segs))  # 去掉停用词
+    return " ".join(segs)
--- a/干净的摘要.py
+++ b/干净的摘要.py
+# 自动摘要
+from pyhanlp import *
+import pandas as pd
+import xlrd
+import jieba
+from PIL import Image
+import numpy as np
+from wordcloud import WordCloud
+TextRankSentence = JClass("com.hankcs.hanlp.summary.TextRankSentence")
+TextRankKeyword = JClass("com.hankcs.hanlp.summary.TextRankKeyword")
+# 主函数
+if __name__ == '__main__':
+    # 1.输入文件
+    data_xls = pd.read_excel('词云/涉侨资讯_慈善公益.xlsx')
+    # 2.这种方法是因为我用直接读取的方法有点麻烦
+    test_data = []
+    for i in data_xls.index.values:  # 获取行号的索引，并对其进行遍历：
+        # 根据i来获取每一行指定的数据 并利用to_dict转成字典
+        row_data = data_xls.ix[i, ['title', 'date', 'content']].to_dict()
+        test_data.append(row_data)
+        # print("最终获取到的数据是：{0}".format(test_data))
+    # 3.存放摘要的字典
+    dict = []
+    guesswhat = ""
+    for i in test_data:
+        try:
+            # print(i['title'], "****",
+            #      "".join(HanLP.extractSummary(i['content'], 3)))
+            dict.append(
+                (i['title'], i['date'], "".join(HanLP.extractSummary(i['content'], 3)), ",".join(HanLP.extractKeyword(i['content'], 5))))
+            # 关键字提取
+            guesswhat = guesswhat + \
+                ",".join(HanLP.extractKeyword(i['content'], 5))
+            guesswhat = guesswhat + \
+                ",".join(HanLP.extractSummary(i['content'], 3))
+        except:
+            pass
+    # 4.保存为excel
+    data_df = pd.DataFrame(dict)
+    data_df.columns = ['标题', '日期', '摘要', '关键字']  # 列名称，与dict一样
+    # 5.保存为xls
+    writer = pd.ExcelWriter('词云/摘要_涉侨资讯_慈善公益.xlsx')
+    data_df.to_excel(writer, '你猜我猜不猜', index=False)
+    writer.save()
+    # 6.生成一个词云图像
+    cut_text = " ".join(jieba.cut(guesswhat))
+    # 遮罩
+    alice_mask = np.array(Image.open("词云/mask.jpeg"))
+    cloud = WordCloud(
+        # 数值越大、分辨越高
+        scale=30,
+        # 设置字体，不指定就会出现乱码
+        font_path=" C:\\Windows\\Fonts\\STXINGKA.TTF",
+        # font_path=path.join(d,'simsun.ttc'),
+        # 设置背景色
+        background_color='white',
+        # 词云形状
+        mask=alice_mask,
+        # 允许最大词汇
+        max_words=2000,
+        # 最大号字体
+        max_font_size=40
+    )
+    wCloud = cloud.generate(cut_text)
+    # 保存
+    wCloud.to_file('词云/cloud.jpg')
+    # 显示图片
+    """
+    import matplotlib.pyplot as plt
+    plt.imshow(wCloud, interpolation='bilinear')
+    plt.axis('off')
+    plt.show()
+    """
--- a/开发文档.txt
+++ b/开发文档.txt
+*需要Tensorflow环境
+Python依赖的库:
+	0.	keras
+	1.	numpy
+	2.	jieba
+	3.	pandas
+	4.	gensim
+	5.	sqlite3
+	5.	pyhanlp
+	6.	pandas
+	7.	xlrd
+	8.	jieba
+	9.	PIL
+	10.	wordcloud
+	11.	graphviz
+脚本查看步骤：
+	0.基础函数
+		这个其实是为第三个步骤准备的
+		建议先查看下面的脚本
+	1.LSTM模型生成
+	2.LSTM分类器
+	3.文本聚类
+	4.相似度分析
+	5.演化分析
+所用的方法:
+	1.LSTM(长短期记忆网络)
+		LSTM（Long Short-Term Memory）是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
+		这里我们用它进行文本分类
+	2.TF-IDF(词频-逆文本频率)
+		TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。它由两部分组成，TF和IDF。
+		这里我们用它结合Word2Vec生成词袋模型计算主题/文本内容/文本摘要相似度
+	3.TextRank
+		TextRank算法基于PageRank,用于为文本生成关键字和摘要。
+		这里我们用它来生成摘要
+		*目前还没有做到这里
+摘要TextRank：
+	1.pyhanlp自动文摘的代码
+		文章链接:https://blog.csdn.net/FontThrone/article/details/82807816
+		第一次import pyhanlp会下载一个比较大的数据集，需要耐心等待下
+		比较大的数据集下载地址:http://static.hankcs.com/hanlp/data-for-1.7.2.zip
+		数据集安装教程:https://blog.csdn.net/huangjiajia123/article/details/84144583
+		如果实在不会的话，把data-1.7.2.zip放在Python\Python37\Lib\site-packages\pyhanlp目录下会自动解压
+		pyhanlp里可以实现很多现在写出来的功能
+Dot图生成：
+	1.官网下载：http://www.graphviz.org
+	2.graphviz画决策树图中文乱码问题解决（文件中已经解决、不知道是否需要修改配置文件）
+		2.1.修改graphviz配置文件
+			<!-- Font directory list -->
+			<dir>C:\WINDOWS\Fonts</dir>
+			<dir>~/.fonts</dir>
+		2.2.将决策树dot_data文件保存下来
+		2.3.编码转换成utf-8编码
+		2.4.尽量去除label_name上的空格
+		2.5.fontname使用"Microsoft YaHei"等支持中文的字体
--- a/文本聚类.py
+++ b/文本聚类.py
+import sqlite3
+from 基础函数 import *
+from LSTM分类器 import *
+# 1.创建SQL数据库
+def createSQL(Sqlname='数据库/分类数据库/测试.db'):
+     # 1.1创建数据库
+    sql = sqlite3.connect(Sqlname)
+    # 1.2每个类别生成对应的表
+    for typ in TypeTable:
+        sql.execute("""
+                create table if not exists """ + typ + """(
+                id int identity(1,1) primary key,
+                link varchar DEFAULT NULL,
+                title varchar DEFAULT NULL,
+                date varchar DEFAULT NULL,
+                writer varchar DEFAULT NULL,
+                content varchar DEFAULT NULL)""")
+    # 1.3返回对用的sql操作对象
+    return sql
+# 2.保存SQL数据库
+def SaveSQL(Sqlname='数据库/分类数据库/测试.db', tuple=(), typ="测试"):
+    # 2.1连接数据库
+    sql = sqlite3.connect(Sqlname)
+    # 2.2执行对应SQL命令//这里就是获取id,link,title,date,writer,content
+    command = "insert into " + typ + \
+        " (id,link,title,date,writer,content) values (?,?,?,?,?,?);"
+    sql.execute(command, tuple)
+    # 2.3通过修改//类似于确认
+    sql.commit()
+# 3.调用函数
+if __name__ == '__main__':
+    # 这个叫做测试.db的是我随便起名的，建议正规一点
+    createSQL(Sqlname='数据库/分类数据库/测试.db')
+    # 3.1打开原始数据库
+    initSQL = sqlite3.connect("数据库/原数据库.db")
+    # 3.2获取information表格
+    cursor = initSQL.execute(
+        "SELECT id, link, title, date, writer, content  from information")
+    len = 0  # 单纯为了计算操作对象数目
+    for row in cursor:
+        print("ID = ", row[0])
+        print("LINK = ", row[1])
+        print("TITLE = ", row[2])
+        print("DATE = ", row[3])
+        print("WRITER = ", row[4])
+        print("CONTENT = ", row[5], "\n")
+        len = len + 1  # 单纯为了计算操作对象数目
+        # 这里调用保存sql貌似不太合适，可以先把所有数据都存到元组里面后，再循环外面操作，会效果好一点，别问我为什么不写，我懒
+        SaveSQL(Sqlname='数据库/分类数据库/测试.db',
+                tuple=(row[0], row[1], row[2], row[3], row[4], row[5]), typ=GetType(row[2]))
+        # 上面这行的ID可以不写，但同时要修改savesql的代码，因为如果加入id可能导致唯一键报错，或者我们可以使用try来避免这个问题
+    # 3.3关闭数据库
+    initSQL.close()
--- a/新闻生成.py
+++ b/新闻生成.py
+from pyhanlp import *
+import pandas as pd
+TextRankSentence = JClass("com.hankcs.hanlp.summary.TextRankSentence")
+if __name__ == "__main__":
+    # 1.输入文件
+    data_xls = pd.read_excel('词云/法国新闻.xlsx')
+    # 2.这种方法是因为我用直接读取的方法有点麻烦
+    test_data = []
+    for i in data_xls.index.values:  # 获取行号的索引，并对其进行遍历：
+        # 根据i来获取每一行指定的数据 并利用to_dict转成字典
+        row_data = data_xls.loc[i, ['链接','新闻', '日期','来源', '内容']].to_dict()
+        test_data.append(row_data)
+    print("最终获取到的数据是：{0}".format(test_data))
+    # 3.存放摘要的字典
+    dict = []
+    index = 0
+    for i in test_data:
+        try:
+            # 此处replace将英文冒号替换为中文冒号、是为了防止绘制图时候出现Warning
+            dict.append((i['日期'], i['新闻'],  i['内容'],i["链接"]))
+            # dict.append((i['date'].replace(':', '：').strip(), str(index),  "".join(HanLP.extractSummary(i['content'], 3))))#序号
+            index = index + 1
+        except:
+            pass
+    dict.sort()  # 按照时间排序
+    #5.生成综述
+    #5.1第一种综述
+    #5.1.1合并内容,速度慢且内容杂，不建议使用
+    #content_All = "\n".join([i[2] for i in dict])
+    #print(content_All)
+    #News = HanLP.extractSummary(content_All, 20)
+    #print(News)
+    #5.2第二种综述
+    #Suammaries = [("\t"+ i[0][:10] + "。".join(HanLP.extractSummary(i[2],3)).strip()) for i in dict if i[0] > '2018']
+    #content_All = "\n".join(Suammaries)
+    #print(content_All)
+    #5.3第三种综述
+    #Suammaries = [("\t"+ i[0][:7] + "。".join(HanLP.extractSummary(i[2],3)).strip()) for i in dict if i[0] > '2018' and]
+    content = ""
+    for i in dict:
+        if i[0][:7] in content:
+            content = content + "\t" + i[3]  + ",".join(HanLP.extractSummary(i[2],3)) + "\r\n"
+        else:
+            content = content + "\r\n" +  "".join(i[0][:7])+ "\r\n\t" + i[3] + ",".join(HanLP.extractSummary(i[2],3)).strip() + "\r\n"
+    print(content)
--- a/演化Dot图.py
+++ b/演化Dot图.py
+import os
+from graphviz import Digraph
+from 相似度分析 import CalSim
+from pyhanlp import *
+import pandas as pd
+import xlrd
+import jieba
+import graphviz
+TextRankSentence = JClass("com.hankcs.hanlp.summary.TextRankSentence")
+# TextRankKeyword = JClass("com.hankcs.hanlp.summary.TextRankKeyword")
+# 添加环境变量graphviz
+os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin/'
+# 比较相似度然后生成连接dot的函数
+def getSimilar(list=[], node=[]):
+    # list为输入的数据、node是为了防止插入dot时重复，筛选用的
+    # 要比较的列表、从1开始切片，这样的的话有效去除了相似度最高的自己
+    summaries = [i[2] for i in list[1:]]
+    # 相似度表格
+    SimTab = CalSim(list[0][2], summaries)
+    # 如果相似表格不为空
+    if SimTab:
+        # list中第一个元素加入节点
+        dot.node(list[0][1], list[0][1])  # 标题、序号
+        # dot.node(list[0][0] + list[0][1], list[0][0] + list[0][1])  # 时间标题
+    # 这个地方原本逻辑有一点问题，我也不知道怎么想的，可能还有问题（后续）
+    # 选取相似度最高的六个数据（除去本身）
+    for sim in SimTab[:3]:
+        # 相似度高于0、这行可以去掉，因为有时候相似度很低
+        if sim[1] > 0:
+            # 如果不存在节点，就生成一个节点
+            if (not list[sim[0]][1] in node) and list[sim[0]:]:
+                dot.node(list[sim[0]][1], list[sim[0]][1])  # 标题、序号
+                # dot.node(list[sim[0]][0] + list[sim[0]][1],list[sim[0]][0] + list[sim[0]][1])  # 时间标题
+                node.append(list[sim[0]][1])
+                # 在创建两圆点之间创建一条边
+                dot.edge(list[0][1], list[sim[0]][1], str(sim[1]))  # 标题、序号
+                # dot.edge(list[0][0] + list[0][1], list[sim[0]][0] + list[sim[0]][1], str(sim[1]))  # 时间标题
+                # 如果后面还有数据
+                if list[sim[0]:]:
+                    getSimilar(list=list[sim[0]:], node=node)
+# 主函数
+if __name__ == '__main__':
+    # 1.输入文件
+    data_xls = pd.read_excel('词云/爬取内容.xlsx')
+    # 2.这种方法是因为我用直接读取的方法有点麻烦
+    test_data = []
+    for i in data_xls.index.values:  # 获取行号的索引，并对其进行遍历：
+        # 根据i来获取每一行指定的数据 并利用to_dict转成字典
+        row_data = data_xls.loc[i, ['链接','新闻', '日期','来源', '内容']].to_dict()
+        test_data.append(row_data)
+    print("最终获取到的数据是：{0}".format(test_data))
+    # 3.存放摘要的字典
+    dict = []
+    index = 0
+    for i in test_data:
+        try:
+            # 此处replace将英文冒号替换为中文冒号、是为了防止绘制图时候出现Warning
+            dict.append((i['日期'].replace(':', '：').strip(), i['新闻'].replace(
+                ':', '：').strip(),  "".join(HanLP.extractSummary(i['内容'], 3))))
+            # dict.append((i['date'].replace(':', '：').strip(), str(index),  "".join(HanLP.extractSummary(i['content'], 3))))#序号
+            index = index + 1
+        except:
+            pass
+    dict.sort()  # 按照时间排序
+    # 4.摘要
+    summaries = [i[2] for i in dict]
+    # 5.画图
+    dot = Digraph(comment='不朽香江名句')
+    node = []  # 筛选节点列表
+    # 5.1生成节点
+    getSimilar(dict[:], node)
+    # 5.2获取DOT source源码的字符串形式
+    dot_data = list(dot)
+    # 5.3添加中文显示，不然显示乱码
+    Chinese_foramt = ["\trankdir=LR",  # 输出方向LR\RL\BT\TB
+                      "\trotate=0",  # 旋转角度
+                      # 字体设置，防止乱码
+                      '\tfontname="Microsoft YaHei"',
+                      '\tedge [fontname="Microsoft YaHei"];',
+                      '\tnode [fontname="Microsoft YaHei"];']
+    dot_data = dot_data[:2] + Chinese_foramt + dot_data[2:]
+    dot = graphviz.Source("\r\n".join(dot_data))
+    # print(dot.source)
+    # dot.view() # 显示图片
+    # 5.5保存source到文件，并提供Graphviz引擎
+    dot.render('演化图/蓝皮书演化图.gv', view=True)
--- a/演化分析.py
+++ b/演化分析.py
+import sqlite3
+from 相似度分析 import CalSim
+from 基础函数 import *
+from LSTM分类器 import *
+# 1.1最重要的函数
+if __name__ == '__main__':
+    # 1.1获取搜索内容
+    search = input("搜索内容：")
+    # 1.2获取搜索内容的类型
+    typ = GetType(input=search)
+    # 1.3建立列表存放sql读取结果//可自行增加
+    link = []
+    title = []
+    date = []
+    content = []
+    # 1.4连接数据库//名字是我随便写的
+    initSQL = sqlite3.connect("数据库/分类数据库/测试.db")
+    # 1.5从数据库对应类型的表格中获取id, link, title, date, content
+    cursor = initSQL.execute(
+        "SELECT id, link, title, date, content  from " + typ)
+    # 1.6将获得的数据保存到列表中
+    for row in cursor:
+        # 我没有写ID，别问我为什么，我觉得没用~~~
+        link.append(row[1])
+        title.append(row[2])
+        date.append(row[3])
+        content.append(row[4])
+    # 1.7关闭数据库
+    initSQL.close()
+    # 1.7两种演化思路
+    # ###############
+    # 第一种演化思路 #
+    # ###############
+    # 1.7.1获取搜索内容类型，根据最高匹配度生成演化图
+    # 1.7.1.1获得相似度列表、是0我也豁出去了
+    sim = CalSim(doc_test=search, all_docs=title)
+    # 1.7.1.2计算最相似标题的相似标题//title[sim[0][0]]最相似标题，title标题表
+    fit_list = CalSim(doc_test=title[sim[0][0]],
+                      all_docs=title)
+    fit = []  # 存放相似主题
+    # 1.7.1.3筛选出相似度到达0.8以上的标题
+    Similarity_Rate = 0.8  # 定义最小相似度
+    for fitter in fit_list:
+        if fitter[0] > Similarity_Rate:
+            fit.append(title[fitter[0]])
+     # 1.7.1.4相似主题去重
+    fit = list(set(fit))
+    # 1.7.1.5获得相似主题的日期列表
+    sort_fit_date = []  # 相似主题的日期列表
+    for item in fit:
+        sort_fit_date.append(date[title.index(item)])
+    # 1.7.1.6相似主题日期去重
+    sort_fit_date = list(set(sort_fit_date))
+    # 1.7.1.7相似主题排序//这里需要格式化，不然的话可能排序顺序不对，由于我这里的日期都是规定格式的，所以没有特别要求
+    sort_fit_date.sort()
+    for timer in sort_fit_date:
+        print(timer, title[date.index(timer)])
+    input("下面的代码不可用，其实用了也没什么，只是还没写好/手动滑稽")
+    quit()
+    # ###############
+    # 第二种演化思路 #
+    # ###############
+    # 1.7.2.对标题/文本搜索内容进行搜索/相似度匹配//我还没写，因为没想好
+    # 相似度匹配按一定相似度大小获得匹配结果可能为0，所以上面写了直接按搜索结果搜索
+    # 1.7.2.1打开数据库
+    initSQL = sqlite3.connect("数据库/分类数据库/测试.db")
+    # 搜索条目
+    cursor = initSQL.execute(
+        """
+        SELECT title
+        FROM """ + typ + """
+        WHERE title LIKE '%""" + search + """%'
+        """)
+    # 1.7.2.2存放所有搜索结果
+    search_result = []  # 存放搜索结果
+    for row in cursor:
+        search_result.append("".join(row))
+    initSQL.close()  # 关闭数据库
+    # 1.7.2.3对search_result逐一进行分析
+    for result in search_result:
+        pass  # 仍然调用上面的代码、但是数据太多，不知道怎么排布
--- a/相似度分析.py
+++ b/相似度分析.py
+import jieba
+from gensim import corpora, models, similarities
+# 1.将文本集合转化为词向量集合
+def SearlizeDoc(all_doc):
+    all_doc_list = []
+    for doc in all_doc:
+        doc_list = [word for word in jieba.cut(doc)]
+        all_doc_list.append(doc_list)
+    return all_doc_list
+# 2.计算相似度函数
+def CalSim(doc_test, all_docs):
+    # 2.1转化的词向量集合
+    all_doc_list = SearlizeDoc(all_docs)
+    # 2.2待分析的句子
+    doc_test_list = [word for word in jieba.cut(doc_test)]
+    # 2.3词向量字典
+    dictionary = corpora.Dictionary(all_doc_list)
+    # 词袋中用数字对所有词进行了编号dictionary.keys()
+    # 编号与词之间的对应关系dictionary.token2id
+    # 2.4使用doc2bow制作语料库
+    corpus = [dictionary.doc2bow(doc) for doc in all_doc_list]
+    # 2.5用同样的方法，把测试文档也转换为二元组的向量
+    doc_test_vec = dictionary.doc2bow(doc_test_list)
+    # 2.6使用TF-IDF模型对语料库建模
+    tfidf = models.TfidfModel(corpus)
+    # 2.7对每个目标文档，分析测试文档的相似度
+    # 获取测试文档中，每个词的TF-IDF值 tfidf[doc_test_vec]
+    index = similarities.SparseMatrixSimilarity(
+        tfidf[corpus], num_features=len(dictionary.keys()))
+    # 2.8相似度列表
+    sim = index[tfidf[doc_test_vec]]
+    Simlatity = sorted(enumerate(sim), key=lambda item: -item[1])
+    return Simlatity
--- a/相似度矩阵.py
+++ b/相似度矩阵.py
+from 相似度分析 import CalSim
+from pyhanlp import *
+import pandas as pd
+import xlrd
+import jieba
+TextRankSentence = JClass("com.hankcs.hanlp.summary.TextRankSentence")
+TextRankKeyword = JClass("com.hankcs.hanlp.summary.TextRankKeyword")
+# 主函数
+if __name__ == '__main__':
+    # 1.输入文件
+    data_xls = pd.read_excel('词云/精简华人华侨蓝皮书.xls')
+    # 2.这种方法是因为我用直接读取的方法有点麻烦
+    test_data = []
+    for i in data_xls.index.values:  # 获取行号的索引，并对其进行遍历：
+        # 根据i来获取每一行指定的数据 并利用to_dict转成字典
+        row_data = data_xls.ix[i, ['title', 'date', 'content']].to_dict()
+        test_data.append(row_data)
+        # print("最终获取到的数据是：{0}".format(test_data))
+    # 3.存放摘要的字典
+    dict = []
+    for i in test_data:
+        try:
+            # print(i['title'], "****",
+            #      "".join(HanLP.extractSummary(i['content'], 3)))
+            dict.append(
+                (i['title'], i['date'], "".join(HanLP.extractSummary(i['content'], 3)), ",".join(HanLP.extractKeyword(i['content'], 5))))
+        except:
+            pass
+    # 4.摘要集合
+    summaries = [i[2] for i in dict if i[2] != '']
+    # 5.计算相似度
+    Similarities_All = []
+    for summ in summaries:
+        # 计算相似度
+        AllSim = CalSim(summ, summaries)
+        # 排序相似度
+        AllSim.sort()
+        Similarities_All.append(AllSim)
+    # 6.保存为excel
+    data_df = pd.DataFrame(Similarities_All)
+    data_df.columns = summaries
+    data_df.index = summaries
+    writer = pd.ExcelWriter('矩阵/矩阵_精简华人华侨蓝皮书.xlsx')
+    data_df.to_excel(writer, '你猜我猜不猜', index=True)
+    writer.save()
--- a/矩阵/矩阵_精简华人华侨蓝皮书.xlsx
+++ b/矩阵/矩阵_精简华人华侨蓝皮书.xlsx
--- a/训练模型/侨情.侨情
+++ b/训练模型/侨情.侨情
--- a/训练集/人物.csv
+++ b/训练集/人物.csv
+内容
+校长贾益民、副校长曾路到我院调研
+我院与厦门卫视《两岸直航》栏目签订学生实习基地共建合作协议
+原国侨办国外司副司长林旭莅临我院讲学
+我院召开期初教职工大会
+林宏宇：特朗普时代中美关系将走向何方
+美国康奈尔大学东亚图书馆馆长郑力人教授做客华园国关名家讲坛第29讲
+庄国土：改善中美关系的试金石--华侨
+华侨大学华文教育研究院特聘教授任弘来我院讲座
+华侨华人/国际关系学术沙龙第六讲：钟大荣博士主讲“中国穆斯林跨国慈善现象——以马来西亚的中国穆斯林赴缅甸罗兴亚难民营援助为例”
+马来西亚潘永强博士莅临我院讲学
+中原晨报20141223 2014《华侨华人蓝皮书》发布-华侨华人蓝皮书
+国际关系学院教工党支部开展“两学一做”专题学习活动
+国际关系研究院院长何亚非做客人民大学重阳论坛，谈亲历中国参与g20的国际博弈及未来展望
+台湾成功大学宋镇照教授莅临我院讲学
+林宏宇认为一带一路建设正处于新的大有可为的历史机遇期
+泰国前驻华大使祝立鹏•暖西猜受聘华侨大学名誉教授
+学校专家组进驻我院开展本科教学工作审核评估
+我院党委召开推进“两学一做”学习教育常态化制度化工作部署暨党建工作会
+我院教工党支部召开专题组织生活会
+马来西亚华校董事联合会总会资料与档案局主任钟伟前一行前来我院座谈交流
+我院举办欢送2017届毕业生茶话会
+张禹东教授率团出席第五届人文社科集刊年会
+我院为厦门市公务员举办金砖国家理论知识培训班
+国务院侨办国内司司长王萍前来我院调研
+“华侨华人研究”专项课题督查会在我院举行
+校长贾益民、副校长曾路到我院调研
+我院教师蒋楠博士在《光明日报•理论版》著文回顾与总结中国乡村治理的历史和利弊
+华侨大学助理教授赴大马主讲“砂拉越华人研究”
+校长贾益民、副校长曾路到我院调研
+国务院侨办国内司司长王萍前来我院调研
+张禹东教授率团出席第五届人文社科集刊年会
+马来西亚华校董事联合会总会资料与档案局主任钟伟前一行前来我院座谈交流
+泰国前驻华大使祝立鹏•暖西猜受聘华侨大学名誉教授
+学校专家组进驻我院开展本科教学工作审核评估
+国际关系研究院院长何亚非做客人民大学重阳论坛，谈亲历中国参与g20的国际博弈及未来展望
+台湾成功大学宋镇照教授莅临我院讲学
+林宏宇认为一带一路建设正处于新的大有可为的历史机遇期
+马来西亚潘永强博士莅临我院讲学
+华侨大学华文教育研究院特聘教授任弘来我院讲座
+美国康奈尔大学东亚图书馆馆长郑力人教授做客华园国关名家讲坛第29讲
+原国侨办国外司副司长林旭莅临我院讲学
+林宏宇：特朗普时代中美关系将走向何方
+庄国土：改善中美关系的试金石--华侨
+华侨华人/国际关系学术沙龙第六讲：钟大荣博士主讲“中国穆斯林跨国慈善现象——以马来西亚的中国穆斯林赴缅甸罗兴亚难民营援助为例”
+校长贾益民、副校长曾路到我院调研
+泰国前驻华大使祝立鹏•暖西猜受聘华侨大学名誉教授
+马来西亚华校董事联合会总会资料与档案局主任钟伟前一行前来我院座谈交流
+北京大学尚会鹏教授再次莅临我院讲学
+原国侨办国外司副司长林旭莅临我院讲学
+外交学院党委书记袁南生受聘我校兼职教授  分享外交经历与思考
+华侨大学华文教育研究院特聘教授任弘来我院讲座
+华侨华人/国际关系学术沙龙第五讲：游国龙副教授主讲“心理人类学家许烺光及其在西方的学术研究”
+暨南大学国际关系学院/华侨华人研究院院长张振江教授莅临我院讲学
+国务院侨办国内司司长王萍前来我院调研
+北京师范大学教授施雪华莅临我院讲学
+华侨华人/国际关系学术沙龙第六讲：钟大荣博士主讲“中国穆斯林跨国慈善现象——以马来西亚的中国穆斯林赴缅甸罗兴亚难民营援助为例”
+马来西亚潘永强博士莅临我院讲学
+马来西亚国会议员刘镇东访问华侨大学
+马来西亚砂拉越大学蔡静芬博士作客我院进行学术讲座
+美国康奈尔大学东亚图书馆馆长郑力人做客华侨华人/国际关系名家讲座（第二十讲）
+福建省侨联服务中心陈锋主任等到访华侨大学华侨华人文献中心
+北京大学尚会鹏教授做客华园国关名家讲坛第21讲
+李肇星、何亚非新学期莅临我院指导工作
+校长贾益民、副校长曾路到我院调研
+张禹东教授率团出席第五届人文社科集刊年会
+国际关系研究院院长何亚非做客人民大学重阳论坛，谈亲历中国参与g20的国际博弈及未来展望
+校长贾益民、副校长曾路到我院调研
+外交部前部长李肇星受聘华侨大学名誉教授、华侨大学国际关系学院名誉院长
+四川省泰国研究中心常务主任李萍一行来访我院
+华大国际关系研究院为国家国际战略分担 何亚非任院长开第一堂课
+前外长李肇星成了华大老师
+华侨大学国际关系研究院揭牌 李肇星任名誉院长 何亚非任院长
+华大成立国际关系研究院 前外长李肇星任名誉院长 何亚非任院长
+华大成立国际关系研究院 李肇星被聘名誉院长 何亚非出任首任院长
+林宏宇认为一带一路建设正处于新的大有可为的历史机遇期
+钟大荣老师在中国侨联“首都侨界学习党的十九大精神报告会”上作交流报告
+美国康奈尔大学东亚图书馆馆长郑力人教授做客华园国关名家讲坛第29讲
+台湾成功大学宋镇照教授莅临我院讲学
+中国现代国际关系研究院方金英研究员做客华园国关名家讲坛第28讲
+日本大阪大学宫原晓教授莅临我院讲学
+林宏宇：“习特会”之后的中美关系
+台湾成功大学宋镇照教授做客华园国关名家讲坛第27讲
+台湾成功大学宋镇照教授做客华园国关名家讲坛第27讲
+马来西亚拉曼大学中华研究院张晓威院长莅临我院讲学
+泰国法政大学教授张锡镇受聘华侨大学兼职教授
+我院成立外事礼仪服务队 “百家讲坛”专家金正昆受聘兼职教授
+国际关系研究院院长何亚非主讲华园国关名家讲坛第22、23讲
+华侨大学校董许丕新先生到访学院
+浙江大学王冠玺教授做客华园国关名家讲坛第22讲
+中国现代国际关系研究院宋清润副研究员做客我院
+华侨华人文献中心赴京接领周南京教授遗存赠书
--- a/训练集/政策.csv
+++ b/训练集/政策.csv
+内容
+2013华侨华人蓝皮书:应建立涉侨风险预警机制-华侨华人蓝皮书
+蓝皮书：国家层面华侨权益保护法立法工作正在推进
+[侨界]聚焦“一带一路” 用好“以侨引外”
+[关注]以法护侨，各地在行动
\ No newline at end of file
--- a/训练集/教育.csv
+++ b/训练集/教育.csv
+内容
+海外华文教育与对外汉语教学期待资源整合
+海外侨领建议加强交流 吸引华裔新生代来华发展-华侨华人蓝皮书
+华侨华人蓝皮书:推动华文教育融入所在国主流教育机制-华侨华人蓝皮书
+华侨大学 “福建省高校特色新型智库”揭牌
+华侨华人蓝皮书:推动华文教育融入所在国主流教育机制
+海外华文教育与对外汉语教学期待资源整合
+海外华文教育具有独特性
+华侨大学承办第三期福建省海外青年精英研修班顺利结业
+华侨大学国际关系研究院在厦门校区揭牌
+我院2015级本科生专业实习课程圆满结束
+福建侨办牵头编修《福建华侨史》 2017年完稿
+华侨大学“论道海丝”特色智库建设沙龙第一讲举办
+我院举办欢送2017届毕业生茶话会
+我院举办第三期科研例会
+我院举办第二期科研例会
+我院为厦门市公务员举办金砖国家理论知识培训班
+我院举办第一期科研例会
+推进新型智库建设 我校启动“智库名家系列讲坛”
+闽籍华侨华人与马来西亚发展学术工作坊（2017）在我校举行
+首届华人宗教国际学术研讨会在华侨大学召开
+国际关系学院召开学科建设研讨会
+我院“福建省高校特色新型智库”揭牌
+我院召开期初教职工大会
+我院教师游国龙入选第三批“厦门市台湾特聘专才”项目
+我院召开期末教职工大会
+国际关系学院、统计学院组织教工党员参观谷文昌纪念馆
+《城市化进程与幼儿成长——基于中原农村的留守儿童调查》专题讲座成功举办
+华侨华人研究院/国际关系研究院第二期研究生学位论文经验交流会
+海外华人文献与中华文化传承:新马德教紫系研究
+华侨华人文献学刊（第三辑）
+华侨华人文献学刊（第二辑）
+华侨华人文献学刊（第一辑）
+让命运共同体意识在周边国家落地生根
+东南亚华裔学生对中华文化认同感较强
+我院首次组织师生赴马来西亚拉曼大学进行学术交流
+我院召开赴拉曼大学国际学术交流会议行前会
+我院为厦门市公务员举办金砖国家理论知识培训班
+华侨大学厦门校区 两幢侨捐大楼落成 一座文物馆新馆开馆
+我院教工党支部召开专题组织生活会
+我院举办欢送2017届毕业生茶话会
+华侨大学首次参加全国外交外事礼仪大赛获优秀团队奖
+“新光闪耀”，我院2016年迎新晚会圆满落幕
+“又山书画展——传统与创新”特展在我校开幕
+我院研究生会成功举办第一届羽毛球比赛
+我院师生积极投入“莫兰蒂”灾后校园重建活动
+我院2016年迎新大会暨新生家长见面会隆重举行
+我院第七届研究生会干部换届暨表彰大会顺利举行
+我院在华侨大学2016年教职工篮球赛中取得佳绩
\ No newline at end of file
--- a/训练集/经济.csv
+++ b/训练集/经济.csv
+内容
+中国大陆富豪财力赶上甚至超过海外华人富豪-华侨华人蓝皮书
+中国网：报告指拉美华侨华人企业集团形成 新移民经济发展迅猛-华侨华人蓝皮书
+大公网：华侨华人蓝皮书：拉美华侨华人主要从事四大行业-华侨华人蓝皮书
+中国新闻网：华侨华人研究报告:商城经济成为欧洲华人经济主体-华侨华人蓝皮书
+国务院侨办办公室：华侨华人蓝皮书揭示拉美华侨华人经济三大特点-华侨华人蓝皮书
+黄日涵：第六部华侨华人蓝皮书聚焦海外侨胞与“一带一路”-华侨华人蓝皮书
+华侨华人蓝皮书揭示拉美华侨华人经济三大特点-华侨华人蓝皮书
+人民网：华侨华人蓝皮书称商城经济成为欧洲华人经济主体-华侨华人蓝皮书
+中国网：报告指拉美华侨华人企业集团形成 新移民经济发展迅猛-华侨华人蓝皮书
+蓝皮书：国家层面华侨权益保护法立法工作正在推进-华侨华人蓝皮书
+蓝皮书：国家层面华侨权益保护法立法工作正在推进-华侨华人蓝皮书
+2011年《华侨华人蓝皮书》：由华侨华人创办或担任首席执行官的公司约占硅谷公司总数的1／3-华侨华人蓝皮书
+华侨华人蓝皮书昨发布 前40名富豪平均财富34亿美元-华侨华人蓝皮书
+2011年《华侨华人蓝皮书》：“两栖创业”成为华侨华人回祖(籍)国发展的新模式-华侨华人蓝皮书
+《华侨华人蓝皮书》今发布 大陆最富超港台-华侨华人蓝皮书
+华侨华人蓝皮书：中国大陆富豪财富增速超过海外华人富豪-华侨华人蓝皮书
+华侨华人蓝皮书：日本华侨华人在夹缝中生存-华侨华人蓝皮书
+华侨华人蓝皮书：华人家族企业传承问题迫在眉睫-华侨华人蓝皮书
+《华侨华人报告》:华人家族企业的传承问题急需解决-华侨华人蓝皮书
+《华侨华人报告》:华人家族企业的传承问题急需解决-华侨华人蓝皮书
+华侨华人蓝皮书：中国大陆富豪财富增长速度超过海外华人富豪-华侨华人蓝皮书
+华侨华人蓝皮书：大陆富豪财富增速超过海外华人-华侨华人蓝皮书
+华侨华人蓝皮书：中国大陆富豪财富增速超过海外华人富豪-华侨华人蓝皮书
+华侨华人蓝皮书：中国大陆富豪财富增速超过海外华人富豪-华侨华人蓝皮书
+华侨华人蓝皮书：中国大陆富豪财富增速超过海外华人富豪-华侨华人蓝皮书
+中国大陆富豪财力赶上甚至超过海外华人富豪-华侨华人蓝皮书
+海外华人为什么不回中国 最新中国海外华人分布表 海外华人在美国工资-华侨华人蓝皮书
+华侨华人蓝皮书：中国大陆富豪财富增长速度超过海外华人富豪-华侨华人蓝皮书
+华侨华人蓝皮书称商城经济成为欧洲华人经济主体-华侨华人蓝皮书
+海外侨领建议加强交流 吸引华裔新生代来华发展-华侨华人蓝皮书
+华侨华人研究报告发布 投资移民占比增多-华侨华人蓝皮书
+华侨华人蓝皮书前40名富豪平均财富34亿美元-华侨华人蓝皮书
+华侨华人蓝皮书：华商财富分布向发达国家转移-华侨华人蓝皮书
+华侨华人蓝皮书发布 中国大陆富豪超香港台湾-华侨华人蓝皮书
+华侨华人蓝皮书发布 中国大陆富豪超越香港台湾-华侨华人蓝皮书
+华侨华人蓝皮书：中国大陆富豪财富增速超过海外华人富豪
+华侨华人蓝皮书：中国大陆富豪财富增速超过海外华人富豪
+报告：中国大陆富豪财富增速超过海外华人富豪
+中国-东盟与中泰关系研究(第二辑):经贸、旅游卷
+搭桥引路:华侨华人与“一带一路”
+2011华侨华人蓝皮书：美国硅谷CEO华裔占13-华侨华人蓝皮书
+华侨华人蓝皮书：大洋洲成大陆居民主要移民地之一-华侨华人蓝皮书
+我国首部华侨华人报告称30年海外移民超450万-华侨华人蓝皮书
+2011年华侨华人蓝皮书指出:更多华侨华人将采用跨国生存发展的方式-华侨华人蓝皮书
+《华侨华人研究报告(2011)》蓝皮书　移民人数稳居世界第一-华侨华人蓝皮书
+华侨华人蓝皮书发布 中国留学生仅三成学成归国-华侨华人蓝皮书
+华侨华人蓝皮书：大洋洲成大陆居民主要移民地之一
+蓝皮书：阿联酋是中东地区中国移民增长最快的国家
\ No newline at end of file
--- a/训练集/行政.csv
+++ b/训练集/行政.csv
+内容
+我国首部华侨华人蓝皮书出版发行
+华侨华人蓝皮书:推动华文教育融入所在国主流教育机制-华侨华人蓝皮书
+《华侨华人研究报告（2014）》在京发布-华侨华人蓝皮书
+华侨华人蓝皮书《华侨华人研究报告（2012）》发布-华侨华人蓝皮书
+第三部华侨华人蓝皮书发布-华侨华人蓝皮书
+第三部华侨华人蓝皮书在京发布-华侨华人蓝皮书
+第五部华侨华人蓝皮书在京发布-华侨华人蓝皮书
+华侨华人蓝皮书（2013）在京发布-华侨华人蓝皮书
+聚焦“一带一路”  2016年《华侨华人蓝皮书》发布
+首部华侨华人研究“蓝皮书”发布
+中国首部华侨华人研究“蓝皮书”在京发布
+华侨华人蓝皮书《华侨华人研究报告（2012）》发布-华侨华人蓝皮书
+华媒聚焦蓝皮书：华侨华人将成中国复兴重要力量
+华侨华人蓝皮书:华侨华人研究报告（2011）发布出版-华侨华人蓝皮书
+《华侨华人蓝皮书/华侨华人研究报告（2013）》发布-华侨华人蓝皮书
+第六部华侨华人蓝皮书发布 聚焦华侨华人与“一带一路”-华侨华人蓝皮书
+2012“华侨华人蓝皮书”发布-华侨华人蓝皮书
+第五部华侨华人蓝皮书在京发布-华侨华人蓝皮书
+《华侨华人蓝皮书/华侨华人研究报告（2015）》发布-华侨华人蓝皮书
+《华侨华人研究报告（2015）》发布-华侨华人蓝皮书
+2015年《华侨华人蓝皮书》发布 了解华人的多个视角-华侨华人蓝皮书
+2015年华侨华人蓝皮书编写会启动 会议讨论2015年研究主题-华侨华人蓝皮书
+第六部华侨华人蓝皮书发布 聚焦华侨华人与“一带一路”-华侨华人蓝皮书
+第三部华侨华人蓝皮书在北京发布-华侨华人蓝皮书
+第三部华侨华人蓝皮书在京发布(图)-华侨华人蓝皮书
+第三部华侨华人蓝皮书发布-华侨华人蓝皮书
+《华侨华人蓝皮书/华侨华人研究报告（2013）》发布-华侨华人蓝皮书
+《华侨华人蓝皮书》入选中国社科院学术出版项目-华侨华人蓝皮书
+《华侨华人蓝皮书/华侨华人研究报告(2012)》在京发布-华侨华人蓝皮书
+2013年《华侨华人蓝皮书》在北京发布-华侨华人蓝皮书
+年度华侨华人蓝皮书发布-华侨华人蓝皮书
+国侨办发布《华侨华人研究报告（2015）》-华侨华人蓝皮书
+一周侨事儿：第五部华侨华人蓝皮书发布-华侨华人蓝皮书
+第五部华侨华人蓝皮书在北京发布 关注海外华人生存现状-华侨华人蓝皮书
+2015年《华人华侨蓝皮书》新闻报道-华侨华人蓝皮书
+《华侨华人蓝皮书/华侨华人研究报告（2015）》发布-华侨华人蓝皮书
+《华侨华人蓝皮书》:海上丝绸之路建设需“以侨为桥”-华侨华人蓝皮书
+2015华侨华人蓝皮书发布-华侨华人蓝皮书
+2015华侨华人蓝皮书在京发布-华侨华人蓝皮书
+国侨办发布《华侨华人研究报告（2015）》-华侨华人蓝皮书
+《华侨华人蓝皮书/华侨华人研究报告（2015）》发布-华侨华人蓝皮书
+《华侨华人蓝皮书：华侨华人研究报告（2014）》出版-华侨华人蓝皮书
+第四部华侨华人蓝皮书在京发布-华侨华人蓝皮书
+华侨华人蓝皮书：大陆富豪增速超过海外华人-华侨华人蓝皮书
+涉侨研究系列报道之八—蓝皮书:华大华侨华人研究的战略性工程-华侨华人蓝皮书
+2014年《华侨华人蓝皮书》发布发布会邀请函-华侨华人蓝皮书
+中原晨报20141223 2014《华侨华人蓝皮书》发布-华侨华人蓝皮书
+《华侨华人研究报告（2014）》在京发布-华侨华人蓝皮书
+2014年《华人华侨蓝皮书》新闻报道-华侨华人蓝皮书
+新浪：第三部华侨华人蓝皮书在京发布(图)-华侨华人蓝皮书
+第五部华侨华人蓝皮书发布啦!小侨送上独家剧透-华侨华人蓝皮书
+《华侨华人蓝皮书》再获入选社科院学术出版项目-华侨华人蓝皮书
+2012年《华侨华人蓝皮书》在京发布-华侨华人蓝皮书
+2013年《华侨华人蓝皮书》发布会报道集-华侨华人蓝皮书
+《华侨华人研究报告（2013）》在京发布-华侨华人蓝皮书
+《华侨华人蓝皮书（2013）》在京发布(组图)-华侨华人蓝皮书
+华侨华人蓝皮书（2013）在京发布-华侨华人蓝皮书
+第三部华侨华人蓝皮书在京发布(图)-华侨华人蓝皮书
+第三部华侨华人蓝皮书在北京发布-华侨华人蓝皮书
+2013年《华侨华人蓝皮书》在京发布 国侨办副主任何亚非出席并致辞-华侨华人蓝皮书
+《华侨华人蓝皮书/华侨华人研究报告(2013)》发布-华侨华人蓝皮书
+《华侨华人蓝皮书/华侨华人研究报告(2013)》发布-华侨华人蓝皮书
+《华侨华人蓝皮书/华侨华人研究报告(2013)》发布-华侨华人蓝皮书
+华侨华人蓝皮书（2012）在京发布-华侨华人蓝皮书
+《2012华侨华人蓝皮书》17日在北京发布-华侨华人蓝皮书
+华侨华人蓝皮书《华侨华人研究报告（2012）》发布-华侨华人蓝皮书
+2012“华侨华人蓝皮书”发布-华侨华人蓝皮书
+2012年《华侨华人蓝皮书》在北京发布-华侨华人蓝皮书
+《2012华侨华人蓝皮书》17日在北京发布-华侨华人蓝皮书
+华侨华人蓝皮书《华侨华人研究报告（2012）》发布丘进提出：为华侨华人发挥作用提供法律保障-华侨华人蓝皮书
+华侨华人蓝皮书《华侨华人研究报告（2012）》发布-华侨华人蓝皮书
+2012“华侨华人蓝皮书”发布-华侨华人蓝皮书
+《华侨华人蓝皮书 华侨华人研究报告（2012）》发布会主编通稿-华侨华人蓝皮书
+《华侨华人研究报告（2012）》正式发布-华侨华人蓝皮书
+2012“华侨华人蓝皮书”发布-华侨华人蓝皮书
+2012年《华侨华人蓝皮书》在北京发布-华侨华人蓝皮书
+第六部华侨华人蓝皮书发布 关注华侨华人与一带一路-华侨华人蓝皮书
+第六部华侨华人蓝皮书发布 聚焦华侨华人与一带一路-华侨华人蓝皮书
+华侨华人蓝皮书:华侨华人研究报告（2011）发布出版-华侨华人蓝皮书
+华侨华人蓝皮书《华侨华人研究报告2011》发布-华侨华人蓝皮书
+华侨华人蓝皮书在京新鲜出炉 深度解析华人华侨发展趋势-华侨华人蓝皮书
+华大主编 中国首部《华侨华人蓝皮书》在京发布-华侨华人蓝皮书
+海内外侨讯-华侨华人蓝皮书
+华侨华人蓝皮书《华侨华人研究报告2011》发布-华侨华人蓝皮书
+中国首部华侨华人研究“蓝皮书”在京发布-华侨华人蓝皮书
+第三部华侨华人蓝皮书在北京发布-华侨华人蓝皮书
+林宏宇：“一带一路”会成为全球化新起点 应让华侨华人搭桥引路
+庄国土：改善中美关系的试金石--华侨
+林宏宇：竞选成为任人摆布的闹剧（适势求是）
+林宏宇：特朗普时代中美关系将走向何方
+华人华侨如何对接一带一路系列：菲律宾篇
+黄日涵：诱捕中国天津大学教授，美国网络战先发制人战略开始了？
+黄日涵：孔子学院邂逅“高棉的微笑”
+何亚非：中国在全球治理方面已有主动意识
+“华侨华人研究”专项课题督查会在我院举行
+中原晨报20141223 2014《华侨华人蓝皮书》发布-华侨华人蓝皮书
+国际关系学院教工党支部开展“两学一做”专题学习活动
+《华侨华人蓝皮书：华侨华人研究报告（2017）》发布会在京举行
+《华侨华人研究报告（2014）》在北京发布
+《华侨华人研究报告（2014）》在京发布
+《华侨华人研究报告（2014）》在京发布
+泰国研究报告（2016）
+中外关系评论（第1期）
+华侨华人研究报告（2016）
+华侨华人研究报告（2015）
+华侨华人研究报告（2014）
+华侨华人研究报告（2012）
+华侨华人研究报告（2013）
+华侨华人研究报告（2011）
+《华侨华人蓝皮书（2013）》在京发布
+《华侨华人研究报告（2013）》在京发布
+全国70余位专家汇聚厦门 研讨华侨华人与中国周边公共外交
+华人华侨如何对接一带一路系列：菲律宾篇
+年度华侨华人蓝皮书发布
+2015华侨华人蓝皮书发布 探讨海外华侨华人生存现状
+第五部华侨华人蓝皮书发布 聚焦华侨华人生存现状
+中国-东盟与中泰关系研究(第一辑):政治、文化卷
+中欧关系视角下的新侨研究
+亚太再平衡战略背景下的美国与东南亚国家军事关系(2009-2014)
+语言的流播和变异:以东南亚为观察点
+风云论道:何亚非谈变化中的世界
+全国外交学学科建设年会在我校召开  探讨“一带一路”视角下的中国外交
+华大主编 中国首部泰国蓝皮书在京发布
+中国国际关系期刊研究会在厦成立
+《华侨华人研究报告(2014)》在京发布
+中国政商界学者达成察哈尔公共外交东阳共识
+70余位专家研讨华侨华人与中国周边公共外交
+全国专家聚厦研讨华侨外交
+积极开展侨务公共外交
+全国70余位专家汇聚厦门 研讨华侨华人与中国周边公共外交
+华侨华人与中国周边公共外交研讨会在厦门举行
+70余位专家厦门研讨“华侨华人与中国周边公共外交”
+丘进主编 《侨通史》渐入视野
+第三届“中国侨务论坛”在厦门举行
+第三届“中国侨务论坛”在闽举行 裘援平、郑晓松出席 杨辉主持
+多层次侨务理论研究格局初步建立 第三届“中国侨务论坛”在厦门举行
+“中国侨务论坛”在厦开幕
+第三届中国侨务论坛举行
+首届中泰战略研讨会在曼谷举行
+省侨联与华侨大学共建新侨研究中心
+《海外华侨生存安全预警机制研究》获国家社科基金重大招标项目
+华侨大学着手编纂第二部《华侨华人蓝皮书》
+华大与省归国华侨联合会共建“华侨大学新侨研究中心”
+华大成立“华侨大学新侨研究中心”　深入开展新侨问题研究（图）
+“侨侨联手”共建全国首个新侨研究中心
+华侨大学与福建省归国华侨联合会携手共建“华侨大学新侨研究中心”
+华侨大学成立“新侨研究中心”
+华大与福建省侨联携手共建华侨大学新侨研究中心
+华侨大学与福建归国华侨联合会签约共建
+首部华侨华人蓝皮书发布
+我国首部华侨华人蓝皮书出版发行
+华媒聚焦蓝皮书：华侨华人将成中国复兴重要力量
+首部华侨华人研究蓝皮书昨日发布
+蓝皮书：沿边少数民族归侨工作攸关国家核心利益
+首部华侨华人蓝皮书发布
+首部华侨华人研究“蓝皮书”发布
+中国首部华侨华人研究“蓝皮书”在京发布
+“华侨华人与中国周边公共外交”研讨会在华侨大学举行
+《华侨华人蓝皮书：华侨华人研究报告（2017）》在京发布
+我院牵头组织智库建设工作调研组前往北京、上海高端智库调研
+我院与全球化智库（ccg）签署战略合作协议
+我院召开本科教学工作审核评估自评整改工作会议
+学校专家组进驻我院开展本科教学工作审核评估
+2015级本科生开展主题为“中国与非洲：相互认知”公共外交实践课
+“金砖国家合作与‘一带一路’建设”专题研讨会在华侨大学举办
+中国国际关系学会第十二届博士生论坛在华侨大学举办
+华侨大学主办金砖国家智库国际研讨会 14国智库专家来厦与会
+我院党委召开推进“两学一做”学习教育常态化制度化工作部署暨党建工作会
+助力金砖厦门会晤 华侨大学《金砖国家概览》发布
+“华侨华人研究”专项课题督查会在我院举行
+第二届华侨华人与中国周边公共外交研讨会在华侨大学举行
+我院与厦门卫视《两岸直航》栏目签订学生实习基地共建合作协议
+国际关系学院党委中心组进行“十八届六中全会精神”学习
+国际关系学院首届教职工代表大会暨工会会员大会成功召开
+我院学子参加首届中国舆论学年会并作主题报告
+中共华侨大学国际关系学院委员会召开第一届党员大会
+国际关系学院教工党支部开展“两学一做”专题学习活动
+我校主办 第五届中泰战略研讨会在泰国曼谷召开
+我院与厦门卫视《两岸直航》栏目签订学生实习基地共建合作协议
+华侨大学获赠第一面由民间组织在美国白宫前升起的中国国旗
+新华网：华侨华人蓝皮书：日韩两国华侨华人总数逾120万-华侨华人蓝皮书
+《华侨华人蓝皮书》发布 在美华人超过400万-华侨华人蓝皮书
+《华侨华人蓝皮书》发布 在美华人超过400万-华侨华人蓝皮书
+华侨华人蓝皮书：日韩两国中国籍人口数均超70万-华侨华人蓝皮书
+华侨华人蓝皮书：拉美华侨华人主要从事四大行业-华侨华人蓝皮书
+华侨华人蓝皮书：日韩两国中国籍人口数均超70万-华侨华人蓝皮书
+华侨华人蓝皮书：日韩两国中国籍人口数均超70万-华侨华人蓝皮书
\ No newline at end of file
--- a/词云/cloud.jpg
+++ b/词云/cloud.jpg
--- a/词云/mask.jpeg
+++ b/词云/mask.jpeg
--- a/词云/mask.jpg
+++ b/词云/mask.jpg
--- a/词云/mask.png
+++ b/词云/mask.png