p2ng


  • 首页

  • 归档

  • 我的

Python-分词

发表于 2018-03-30 | 分类于 Python
字数统计 130 字 | 阅读时长 1 分钟

jieba

Install

$ pip install jieba

Demo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# encoding=utf-8  
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))

Python-词云

发表于 2018-03-30 | 分类于 Python
字数统计 258 字 | 阅读时长 1 分钟

简介

简单说,词云是根据一段文字里的关键词出现频率生成文字的图片组合,字体越大说明对应的词汇的频率越高!词云适合分析一些文本类型的字段,比如用户职位分布、热点词分析等。

wordcloud

https://wordart.com/

Install

$ pip install wordcloud

Demo

在线工具
Wordle是一个用于从文本生成词云图而提供的游戏工具
Tagxedo 可以在线制作个性化词云
Tagul 是一个 Web 服务,同样可以创建华丽的词云
Tagcrowd 还可以输入web的url,直接生成某个网页的词云

Python实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba

# 是读取本地的文件
text_from_file_with_apath = open('/Users/hecom/23tips.txt').read()

# 使用jieba进行分词,并对分词的结果以空格隔开
wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)

# 对分词后的文本生成词云
my_wordcloud = WordCloud().generate(wl_space_split)

plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

Intellij插件

发表于 2018-03-19 | 分类于 tool
字数统计 0 字 | 阅读时长 1 分钟

Chrome插件

发表于 2018-03-19 | 分类于 tool
字数统计 178 字 | 阅读时长 1 分钟

此处登记个人觉得好使的插件

Earth View from Google Earth

Chrome欢迎页
https://chrome.google.com/webstore/detail/earth-view-from-google-ea/bhloflhklmhfpedakmangadcdofhnnoh

Octotree

GitHub的快捷目录
https://chrome.google.com/webstore/detail/octotree/bkhaagjahfmjljalopjnoealnfndnagc

云盘万能钥匙

自动填充百度网盘钥匙
https://chrome.google.com/webstore/detail/%E4%BA%91%E7%9B%98%E4%B8%87%E8%83%BD%E9%92%A5%E5%8C%99/anlllmnpjodopgbkbpnghnjlelnogfjc

划词翻译

https://chrome.google.com/webstore/detail/%E5%88%92%E8%AF%8D%E7%BF%BB%E8%AF%91/ikhdkkncnoglghljlkmcimlnlhkeamad

Wappalyzer

https://chrome.google.com/webstore/detail/wappalyzer/gppongmhjkpfnbhagpmjfkannfbllamg

JSONView

https://chrome.google.com/webstore/detail/jsonview/chklaanhfefbnpoihckbnefhakgolnmc

Grid Ruler

Chrome页面标尺,专治Web开发组件排版强迫症
https://chrome.google.com/webstore/detail/grid-ruler/joadogiaiabhmggdifljlpkclnpfncmj

JetBrains IDE Support

一键切换至IDE
https://chrome.google.com/webstore/detail/jetbrains-ide-support/hmhgeddbohgjknpmjagkdomcpobmllji

Linux时间

发表于 2018-03-14 | 分类于 other
字数统计 244 字 | 阅读时长 1 分钟

背景

今天在升级一个系统时遇到个小问题,系统是完全前后端分离(Vue + Egg / SpringBoot),靠接口签名来验证身份,重点来了,接口签名算法用到时间yyyyMMddHH的字符串。

细节

部署前端(Vue + Egg)机器A:
用root用户登陆输入date命令出来的时间是东八区,但是切换到部署系统用户后是零时区…这就坑爹了
A机器生成的签名,去到B机器肯定校验不通过啦!!!

部署后端(SpringBoot)机器B:

解决

最近有同学升级了A机器的libc-2.12.so -> libc-2.14.so文件导致,降级后消除异常

思考

  1. Linux的用户还会分不同的时区?不都是直接系统时间?
  2. 还好是内部办公网的测试环境一台机器,假如是生产网或者多台机器时,怎么快速排查并解决?(docker的优势又出来了,😄)

如何使用一套键鼠,同时控制几台电脑

发表于 2018-03-12 | 分类于 tool
字数统计 19 字 | 阅读时长 1 分钟

Synergy

https://symless.com/synergy

Share Mouse

微软官方的无界鼠标(Mouse Without Borders)

Hadoop大数据分析与挖掘实战

发表于 2018-03-11 | 分类于 book
字数统计 2,467 字 | 阅读时长 8 分钟

参考

Hadoop大数据分析与挖掘实战

数据挖掘基础

定义挖掘目标
针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能达到什么样的效果?因此必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的有关情况,熟悉背景知识,弄清用户需求。要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干什么。

数据挖掘建模过程

目标定义(任务理解,指标确定)
数据采集(建模抽样,质量把控,实时采集)
数据整理(数据探索,数据清洗,数据变换)
构建模型(模式发现,构建模型,验证模型)
模型评价(设定评价标准,多模型对比,模型优化)
模型发布(模型部署,模型重构)

流程

业务系统 -> 数据抽取(ETL) -> 数据探索与预处理 -> 建模&应用 -> 结果&反馈

阅读全文 »

Mac小技巧

发表于 2018-03-06 | 分类于 other
字数统计 225 字 | 阅读时长 1 分钟

Mac Shell

查看Mac概况

archey,需要brew install archey

Cat文件时代码高亮

brew install ccat

Shell自动补充命令

brew install autojump

文件以目录树形式展开

brew install tree

Mac读出一段文字

sleep 5 && say "Hello World" 5秒后电脑说出HelloWorld
mvn clean install && say 'build ok!!!' 编译耗时长不想一直等待,可以巧妙使用&&

快速查看日历

1
2
3
cal // 查看当前日历
cal 2018 // 查看2018年的日历
date // 查看当前时间

显示/隐藏文件夹

1
2
3
4
5
6
7
命令运行之后需要重新加载Finder:快捷键option + command + esc,选中Finder,重新启动即可

此命令显示隐藏文件
defaults write com.apple.finder AppleShowAllFiles -bool true

此命令关闭显示隐藏文件
defaults write com.apple.finder AppleShowAllFiles -bool false

Keyboard

调用emoji表情

control + command + 空格

输入苹果icon

option + shift + k

向后删除文本

fn + delete

外地人在广州如何摇号?

发表于 2018-02-27 | 分类于 生活
字数统计 1,029 字 | 阅读时长 4 分钟

参考

广州市中小客车指标调控管理信息系统(车牌摇号)
个人指标常见问题
广州市人力资源和社会保障局(医保)
广州车牌摇号申请攻略(百度经验)

阅读全文 »

2017总结

发表于 2018-02-25 | 分类于 Summary
字数统计 420 字 | 阅读时长 1 分钟

2017回望

毕业3年多了,这回第一次写年终总结。本来应该是上周春节假期期间搞掂的,但是节前突然发生几个事情给耽误了…

  • MacBook Pro显卡门,半年前从我哥那拿了一台2011款的i7,用了一段时间本不应该有问题的,人算不如天算节前最后一个周末给蓝苹果了,只能退回去维修。
  • 老爸身体欠佳,处处担心没心思搞了。只能翻翻书

总结

如下思维导图,前段时间就开始整理了,这次只能给60分…整理欠佳
done

工作&学习
按部就班没有特出的贡献(对个人来说这个非常不利于可持续发展),也有跟外包定位有关(救火人员,哪里需要就去哪里)。
断断续续把Hadoop、HBase、Hive、Spark等框架教程看过,对大数据领域开发有初步了解,但是还不够系统以及实操欠佳,接下来半年的重点突破地方。

家庭/生活
…

2018展望

工作&学习

  • 大数据学习&转岗
  • 微信/网页/为知笔记 整理转型到 Hexo/备忘录(iCloud)
    买了iCloud一个月200G存储服务,¥21/月,家庭AppleID共享使用,Mac/iPad/iPhone多平台通用,🍎大法牛!~
  • 知乎获得 ?? 次赞同,两位数的赞同,目前是5😢
  • 看完五本以上的书(有需要博客输出)
  • 熟练使用Mac开发

家庭/生活

  • 结婚&优生优育🐷
  • 广州摇号&学习二手车&汽车知识
  • 去一趟旅行
  • 体重去到135
  • 给媳妇搭建个hexo来做她的作品集(图床)
123
p2ng

p2ng

25 日志
10 分类
GitHub Weibo oschina 知乎
Links
  • 腾讯大数据
  • 阿里中间件
  • 美团点评技术团队
  • 携程技术中心
  • 网易乐得技术团队
  • 有赞技术团队
  • 猫头鹰技术博客
  • coding
© 2017 - 2018 p2ng
由 Hexo 强力驱动
主题 - NexT.Muse