def datetrans(xldate, datemode):
return (
datetime.datetime(1899, 12, 30)
+ datetime.timedelta(days=xldate + 1462 * datemode)
)
#去除繁體中文以外的英文、數字、符號
#NewsContent為新聞內文的list
rule = re.compile(r"[^\u4e00-\u9fa5]")
NewsContent = [list(jieba.cut(rule.sub('', content))) for content in NewsContent]
所謂K-means是集群分析(又稱c-means Clustering,中文又稱k-平均演算法),且K-means為非監督機器學習,用白話來說就是將性質相近的資料放置再一起,不斷經過計算點與點之見的距離,讓越相近的點分類為同意群的過程。
#自定義fucntion轉換
def datetrans(xldate, datemode):
return (
datetime.datetime(1899, 12, 30)
+ datetime.timedelta(days=xldate + 1462 * datemode)
)
#去除繁體中文以外的英文、數字、符號
#NewsContent為新聞內文的list
rule = re.compile(r"[^\u4e00-\u9fa5]")
NewsContent = [list(jieba.cut(rule.sub('', content))) for content in NewsContent]