AILS

Python 多线程

2023-03-20T16:11:41.000Z

全局解释器锁（GIL）：

Python 代码的执行是由 Python 虚拟机(又名解释器主循环)进行控制的，python在设计的时候考虑的是在主循环中同时只能有一个控制线程在执行，就像单核 CPU系统中的多进程一样。尽管 Python 解释器中可以运行多个线程，但是在任意给定时刻只有一个线程会被解释器执行。

对 Python 虚拟机的访问是由全局解释器锁(GIL)控制的。这个锁就是用来保证同时只能有一个线程运行的。在多线程环境中，Python 虚拟机将按照下面所述的方式执行：

1.设置 GIL。
2.切换进一个线程去运行。
3.执行下面操作之一。
a.指定数量的字节码指令。
b.线程主动让出控制权(可以调用 time.sleep(0)来完成)。
4.把线程设置回睡眠状态(切换出线程)。
5.解锁 GIL。
6.重复上述步骤

当调用外部代码(即，任意 C/C++扩展的内置函数)时，GIL 会保持锁定，直至函数执行结束。

对于任意面向 I/O 的 Python 例程(调用了内置的操作系统 C 代码的那种)， GIL 会在 I/O 调用前被释放，以允许其他线程在 I/O 执行的时候运行。而对于那些没有太多 I/O 操作的代码而言，更倾向于在该线程整个时间片内始终占有处理器.
所以I/O 密集型的 Python 程序要比计算密集型的代码能够更好地利用多线程环境。

GIL的存在使得Python多线程编程暂时无法充分利用多处理器的优势，这种限制也许使很多人感到沮丧，但事实上这并不意味着我们需要放弃多线程。对于只含纯Python的代码也许使用多线程并不能提高运行速率，但在以下几种情况，如等待外部资源返回，或者为了提高用户体验而建立反应灵活的用户界面，或者多用户应用程序中，多线程仍然是一个比较好的解决方案。

在 CPython 中，由于存在全局解释器锁，同一时刻只有一个线程可以执行 Python 代码（虽然某些性能导向的库可能会去除此限制）。如果你想让你的应用更好地利用多核心计算机的计算资源，推荐你使用 multiprocessing 或 concurrent.futures.ProcessPoolExecutor。但是，如果你想要同时运行多个 I/O 密集型任务，则多线程仍然是一个合适的模型。

实现

推荐优先使用threading模块

Python为多线程编程提供了两个非常简单明了的模块：thread和threading，另外还有Queue。

thread 模块：提供了基本的线程和锁定支持;
threading 模块：提供了更高级别、功能更全面的线程管理；
Queue模块，用户可以创建一个队列数据结构，用于在多线程之间进行共享

简单来说：thread模块提供了多线程底层支持模块，以低级原始的方式来处理和控制线程，使用起来较为复杂；而threading模块基于thread进行包装，将线程的操作对象化，在语言层面提供了丰富的特性。

使用threading的原因：

threading模块对同步原语的支持更为完善和丰富。就线程的同步和互斥来说，thread模块只提供了一种锁类型thread.LockType，而threading模块中不仅有Lock指令锁、RLock可重入指令锁，还支持条件变量Condition、信号量Semaphore、BoundedSemaphore以及Event事件等。
threading模块在主线程和子线程交互上更为友好，threading中的join()方法能够阻塞当前上下文环境的线程，直到调用此方法的线程终止或到达指定的timeout（可选参数）。利用该方法可以方便地控制主线程和子线程以及子线程之间的执行。
thread模块不支持守护线程。thread模块中主线程退出的时候，所有的子线程不论是否还在工作，都会被强制结束，并且没有任何警告也没有任何退出前的清理工作

创建线程：

继承Thread类，重写它的run()方法
创建一个threading.Thread对象，在它的初始化函数（init()）中将可调用对象作为参数传入。推荐优先使用threading模块

让主线程等待子线程结束 join

假如要让主线程等子线程，那么可以使用Thread.join()方法。join可以让运行这条语句的主线程在此阻塞（等待），直到子线程结束，再放行。

import time
from threading import Thread

def task1():
    print("开始做任务1啦")
    time.sleep(3)  # 用time.sleep模拟任务耗时
    print("任务1结束啦")

if __name__ == '__main__':
    print("这里是主线程")
    # 创建线程对象
    t1 = Thread(target=task1)
    # t1.setDaemon(True)  # 设置为守护进程，必须在start之前
    # 启动
    t1.start()
    # 阻塞
    t1.join()
    print("主线程结束了")

锁对象：

class threading.Lock
acquire(blocking=True, timeout=- 1)
release()
#递归锁对象:
class threading.RLock

RLock的R表示Reentrant，如果用RLock，那么在同一个线程中可以对它多次acquire，同时也要用相同数目的release来释放锁。这个东西的意义在于避免死锁。

import time
from threading import Thread

def task():
    print("开始做一个任务啦")
    time.sleep(1)  # 用time.sleep模拟任务耗时
    print("这个任务结束啦")
    
if __name__ == '__main__':
    print("这里是主线程")
    # 创建线程对象
    t1 = Thread(target=task)
    # 启动
    t1.start()
    time.sleep(0.3)
    print("主线程依然可以干别的事")

import time
from threading import Thread

class NewThread(Thread):
    def __init__(self):
        Thread.__init__(self)  # 必须步骤
    
    def run(self):  # 入口是名字为run的方法
        print("开始做一个任务啦")
        time.sleep(1)  # 用time.sleep模拟任务耗时
        print("这个任务结束啦")
        
if __name__ == '__main__':
    print("这里是主线程")
    # 创建线程对象
    t1 = NewThread()
    # 启动
    t1.start()
    time.sleep(0.3)
    print("主线程依然可以干别的事")

使用Queue使多线程编程更安全

线程池 thread pool

`multiprocessing` — 基于进程的并行

multiprocessing 是一个支持使用与 threading 模块类似的 API 来产生进程的包。 multiprocessing 包同时提供了本地和远程并发操作，通过使用子进程而非线程有效地绕过了全局解释器锁。因此，multiprocessing 模块允许程序员充分利用给定机器上的多个处理器

multiprocessing.Process(group=None, target=None, name=None, args=(), kwargs={}, *, daemon=None)


"""
参数介绍：
    
    1. group默认为None（目前未使用）
    2. target代表调用对象，即子进程执行的任务
    3. name为进程名称
    4. args调用对象的位置参数元组，args=(value1, value2, ...)
    5. kwargs调用对象的字典，kwargs={key1:value1, key2:value2, ...}    
    6. daemon表示进程是否为守护进程，布尔值　　 　
方法介绍：　　
Process.start() 启动进程，并调用子进程中的run()方法　　
Process.run() 进程启动时运行的方法，在自定义时必须要实现该方法　　
Process.terminate() 强制终止进程，不进行清理操作，如果Process创建了子进程，会导致该进程变成僵尸进程　　Process.join() 阻塞进程使主进程等待该进程终止　　
Process.kill() 与terminate()相同　　
Process.is_alive() 判断进程是否还存活，如果存活，返回True　　
Process.close() 关闭进程对象，并清理资源，如果进程仍在运行则返回错误　　
"""

注意：

在Windows中，由于没有fork(Linux中创建进程的机制)，在创建进程的时候会import启动该文件，而在import文件的时候又会再次运行整个文件，如果把Process()放在 if name == ‘main‘ 判断之外，则Process()在被import的时候也会被运行，导致无限递归创建子进程导致报错，所以在Windows系统下，必须把Process()放在 if name == ‘main‘ 的判断保护之下。
在子进程中不能使用input，因为输入台只显示在主进程中，故如果在子进程中使用input，会导致报错

Process实例

from multiprocessing import Process


def main(name):
    print(f'{name}: Hello World')


if __name__ == '__main__':
    # 创建子进程
    p = Process(target=main, args=('LovefishO',))
    
    # 开始进程
    p.start()
    
    # 阻塞进程
    p.join()

Process类实现

from multiprocessing import Process


class NewProcess(Process):
    def __init__(self, name):
        
        # 执行父类的init()
        super().__init__()  
        
        # 创建新参数
        self.name = name
    
    # 在自定义Process类时，必须实现run()方法
    def run(self):
        print(f'{self.name}: Hello World')


if __name__ == '__main__':
    
    # 创建一个新的子进程，并传入参数
    np = NewProcess('LovefishO')
    
    # 开始子进程
    np.start()
    
    # 加入阻塞，保证主进程在子进程之后结束
    np.join()
    
    print('主进程结束')      


# LovefishO: Hello World
# 主进程结束

守护进程

正常情况下，当子进程和主进程都结束时，程序才会结束。但是当我们需要在主进程结束时，由该主进程创建的子进程也必须跟着结束时，就需要使用守护进程。当一个子进程为守护进程时，在主进程结束时，该子进程也会跟着结束。

from multiprocessing import Process


def main(name):
    print(f'{name}: Hello World')


if __name__ == '__main__':
    # 创建守护进程, 设置daemon = True
    p = Process(target=main, daemon=True, args=('LovefishO',))

    # 开始进程
    p.start()

    # 阻塞进程
    p.join()

Pool

Pool类可以提供指定数量的进程供用户调用，当有新的请求提交到Pool中时，如果池还没有满，就会创建一个新的进程来执行请求。如果池满，请求就会告知先等待，直到池中有进程结束，才会创建新的进程来执行这些请求。

使用map：

import time
from multiprocessing import Pool


def run(fn):
    # fn: 函数参数是数据列表的一个元素
    time.sleep(1)
    print(fn * fn)


if __name__ == "__main__":
    testFL = [1, 2, 3, 4, 5, 6]
    print('shunxu:')  # 顺序执行(也就是串行执行，单进程)
    s = time.time()
    for fn in testFL:
        run(fn)
    t1 = time.time()
    print("顺序执行时间：", int(t1 - s))

    print('concurrent:')  # 创建多个进程，并行执行
    pool = Pool(3)  # 创建拥有3个进程数量的进程池
    # testFL:要处理的数据列表，run：处理testFL列表中数据的函数
    pool.map(run, testFL)
    pool.close()  # 关闭进程池，不再接受新的进程
    pool.join()  # 主进程阻塞等待子进程的退出
    t2 = time.time()
    print("并行执行时间：", int(t2 - t1))

使用apply_async：

print('concurrent:')  # 创建多个进程，并行执行
pool = Pool(3)  # 创建拥有3个进程数量的进程池
# testFL:要处理的数据列表，run：处理testFL列表中数据的函数
for fn in testFL:
pool.apply_async(run, (fn,))
pool.close()  # 关闭进程池，不再接受新的进程
pool.join()  # 主进程阻塞等待子进程的退出
 t2 = time.time()
 print("并行执行时间：", int(t2 - t1))

apply_async(func[, args[, kwds]]) ：使用非阻塞方式调用func（并行执行，堵塞方式必须等待上一个进程退出才能执行下一个进程），args为传递给func的参数列表，kwds为传递给func的关键字参数列表；异步，多个线程同时执行

使用tqdm多线程监控

from multiprocessing import Pool
from tqdm import tqdm

def f(x):
    return x * x


if __name__ == '__main__':
    with Pool(5) as p:
        print(list((tqdm(p.imap(f, range(10)), total=10, desc='监视进度'))))

共享变量参数

锁

参考：

https://blog.kamino.link/2021/03/01/Python-Multithreading-in-detail/

https://docs.python.org/zh-cn/3.10/library/multiprocessing.html#programming-guidelines

https://www.cnblogs.com/lovefisho/p/16202006.html

https://www.cnblogs.com/ailiailan/p/11850710.html

Bioinformatics with Python

2023-03-01T02:11:41.000Z

引言

Prepare my software：

“Anaconda, as it has become the de-facto standard for data science and bioinformatics. Also, it is the distribution that will allow you to install software from Bioconda”

Package：

Package	Purpose	Package
pandas		DendroPY	phylogenetics
Numpy		PyMol	Molecular visualization
Scipy		scikit-learn	ML tools
Biopython		Cpython	High performance for Big data
seaborn		Numba	High performance for Big data
rpy2	R interface	Dask	Parallel processing for Big Data
PyVCF	NGS	jupytext/lab
Pysam	NGS	R
HTSeq	NGS processing

A table showing the various software packages that are useful in bioinformatics

#01 install base conda env 
conda create -n bioinformatics_base python=3.10
conda activate bioinformatics_base
# why use base env? 不同类型的包太多了。新的任务可以clone base env ,在此基础上install special packages.
#we can use 
# conda create -n scikit-learn --clone bioinformatics_base
# conda activate scikit-learn & conda install scikit-learn

#02 add the bioconda and conda-forge channels to our source list
conda config --add channels bioconda
conda config --add channels conda-forge

#03 install packages
# install from requirements 
#conda list -e > reqiurements.txt
conda install --yes --file requirements.txt

#04 install R from conda
conda install rpy2 r-essentials r-gridextra

Requirements.txt

biopython==1.79
jupyterlab==3.2.1
jupytext==1.13
matplotlib==3.4.3
numpy==1.21.3
pandas==1.3.4
scipy==1.7.1

# env for R
create -n bioinformatics_r --clone bioinformatics_base
conda activate bioinformatics_r
conda install r-ggplot2=3.3.5 r-lazyeval r-gridextra rpy2

Aligment

“pysam, a Python wrapper to the SAMtools C API”

1	conda install –c bioconda pysam

pandas

Diffusion Models For Life Science

2023-02-08T02:11:41.000Z

引言

Diffusion models 在CV和NLP上大展风采。在蛋白设计上由于蛋白质主链几何结构和序列结构关系的复杂性限制了其应用。

背景

Protein Structure Key Task

Protein structure prediction

AlphaFold
RosettaFold

Protein design

ProteinMPNN
RFjoint Inpainting
RFDiffusion

In April 2019, Baker gave a TED talk titled "5 challenges we could solve by designing new proteins"

Computational Protein Design Workflow

Motifs can have various Functions and sources

Evaluation for Designing proteins

State-of-the-art

DALL-E2: An astronaut riding a horse in a photorealistic style

Imagen: A robot couple fine dining with Eiffel Tower in the background

What makes this hard?

Post-AlphaFold, protein design is ‘guess’ & ‘check’

Naive guessing ? ~20^100 sequences
!Native structures? Too sparseExisting
ML tools?
- Low diversity
- High compute cost
- Short sequences is bad

模型详细介绍

生成模型

物理背景，搞物理的很牛，非平衡热力学。（熵增，混乱过程，逆转，从混乱中生成秩序。）

建模数据的生成概率。

GAN:生成器。判别器。对抗训练。

VAE:高维数据，近似。拟合

Flow:鲜艳分布

Diffusion: 线性，隐变量

两个过程：

数据-》噪声，

DDPM

Forward diffusion process gradually adds noise to input data.

Reverse denoising process generates data by removing noise.

缺点：

生成扩散模型的大火，则是始于2020年所提出的DDPM（Denoising Diffusion Probabilistic Model）。
DDPM的数学框架在2015年就已经完成了 (Sohl-Dickstein et al., 2015)
DDPM是首次将它在高分辨率图像生成上调试出来了，从而引导出了后面的火热(DDPM; Ho et al. 2020).

The training and sampling algorithms in DDPM (Image source: Ho et al. 2020)

Forward diffusion process

$$
q(\mathbf{x}t \vert \mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1 - \beta_t} \mathbf{x}{t-1}, \beta_t\mathbf{I}) \quad
q(\mathbf{x}{1:T} \vert \mathbf{x}_0) = \prod^T{t=1} q(\mathbf{x}t \vert \mathbf{x}{t-1})
$$

Reverse diffusion process

反向过程就是通过估测噪声，多次迭代逐渐将被破坏的 x_t 恢复成x₀

如何训练

如何使用

高斯贯穿全部；

KL散度。

应用

总结

词汇对应：

Denoising diffusion probabilistic models (DDPMs)：a powerful class of machine learning models recently demonstrated to generate novel photorealistic images in response to text prompts

参考

What are Diffusion Models? | Lil’Log

Yang Song | Generative Modeling by Estimating Gradients of the Data Distribution

Awesome-Diffusion-Models:This repository contains a collection of resources and papers on Diffusion Models.

生信数据挖掘：ATAC-seq,RNA-seq

2022-12-18T16:11:41.000Z

ATAC-seq

背景

染色质开放性 Chromatin Accessibility

人的DNA链全部展开大约有2m，需要折叠为染色质结构才可以存储到放到细胞核中。染色质的基本结构单位是核小体，核小体再折叠能形成高度压缩的染色质结构。这个过程像我们将文件压缩为zip或者rar的压缩包，只要在使用的时候才会解压出来，平时可以减少它的占用空间。

Fig 1: Chromatin Accessibility

高度折叠的染色质结构在复制和转录时需要暴露出DNA序列，这段暴露的区域就是染色质开放区域，这个区域可以供转录因子和其他调控元件结合，所以它与转录调控是密切相关的。

因此这种致密的核小体结构被破坏后，启动子、增强子等顺式调控元件和反式作用因子可以接近的特性，叫染色质开放性（Chromatin Accessibility）。

为了研究染色质的开放性，目前有MNase-seq,Dnase-seq,ATAC-seq等，但是目前最常用的是2013年由斯坦福大学开发的ATAC-seq。与传统的MNase-seq以及DNase-seq相比，其具有可重复性强，实验步骤简单，需要的实验样本量少等优点，因而被广泛应用¹。

Fig 2: Methods of Researching Chromatin Accessibility a nd ATAC-seq principle

原理

利用转座酶Tn5会携带特定的已知序列，并且可以结合开放的染色质。Tn5酶对染色质开放区进行打断，在打断的同时加上测序接头，接着进行DNA提取，PCR扩增构建文库。经过测序分析，就可以推断染色质可行性、转录因子结合位点、组蛋白修饰区域和核小体位置。

Fig 3: The Process of Tn5

研究内容

肠上皮化生简称肠化，是指正常的胃黏膜上皮被肠型上皮所取代。

正常情况下，我们的器官各司其职，胃表面生长的是具有分泌胃酸功能的胃黏膜上皮细胞，肠道表面生长的是具有分泌和吸收功能的肠黏膜上皮细胞。但当胃黏膜细胞受到比较严重的损伤后，胃肠黏膜上皮结构出现了一定改变，越长越像邻居家肠黏膜的孩子。看上去就像肠黏膜长错了地方，本该长在肠道上长的结构却出现在了胃黏膜上，就像一片草地长出了树木，树木就显得很突出。

目前的假设是，胃黏膜腺体的颈部干细胞具有多方面分泌的潜能，在正常时它可以分化成各种胃黏膜的成熟上皮细胞^[9]。干细胞不正常工作时肠化进程会加速，从肠化生过渡到胃癌，而肠化属于胃癌前病变的一种。

胃黏膜上皮细胞癌变并非一朝一夕的事情，不是由正常细胞一跃成为癌细胞，而是一个慢性渐进的过程，在发展成恶性肿瘤之前，经历多年持续的癌前变化。若能及早识别和及早干预，也是一种防止胃癌的有效途径。

因此从干细胞水平上能够发现促使正常干细胞分化为肠化细胞的根本原因，对于预防胃癌，以及使肠化逆转显得尤为重要。

实验设计：

针对10个病人，分别采集胃，肠化组织，分为两组（stemness + / - ）进行培养。

其中阴性对照：正常胃组织，阳性对照：正常十二指肠组织，
stemness: 位置细胞干性的条件。+ 维持干性，-不维持,IM: + 。 - 。
胃窦：A, 胃体：C, 胃角：AC

分析

目前已经开源了很多ATAC-seq原始data的预处理与计算，其基本流程为：

QC->Alignment->Remove low quality-> Call Peak

针对Call Peak 的结果，可以计算不同组间差异的Peak，或者Motif 富集与转录因子足迹分析，更进一步的可以联合RNA-seq。

Fig 4: Roadmap of a typical ATAC-seq analysis.

Pipeline:

This pipeline is designed for automated end-to-end quality control and processing of ATAC-seq and DNase-seq data.

标准

介绍前期质控指标，避免样本问题对后期实验结果的影响，造成错误或返工

比对率：

正常是超过95%，最低不能低于80%。

# 可以抽取部分样本在nt数据库中进行比对，看map到那些物种中，是否有部分细菌污染
zcat ../data/B63_L4_Q803601.R1.fastq.gz | head -n 1000 >B63_1
zcat ../data/B63_L4_Q803601.R2.fastq.gz | head -n 1000 >B63_2
 
awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' B63_1 > B63_1.fasta
blastn -task blastn -query B63_1.fasta -db /home/nt -num_threads 6 -out unpaired_blastn.aln
# 本地构建db花费时间较多，可以线上。
#B63_atac：73.4
#B60_atac：77.3
#细菌污染

峰值区域的读数比例（FRiP score）：

FRiP score应大于0.3，最低不能低于0.2。

所有映射的读数中，属于被称为峰值区域的部分，即显著富集的峰值中的可用读数除以所有可用读数。一般来说，FRiP得分与区域的数量呈正相关.(Landt et al, Genome Research Sept. 2012, 22(9): 1813–1831)

TSS 富集：

TSS富集计算是一种信噪比计算。收集一组参考TSSs周围的读数，形成以TSSs为中心、向任一方向延伸2000bp（共计4000bp）的读数总分布。然后，该分布被归一化，即在分布的每个末端侧翼的100bps内取平均读数深度（总共200bp的平均数据），并计算每个位置相对于该平均读数深度的倍数变化。这意味着侧翼应该从1开始，如果在转录起始位点（基因组的高度开放区域）有高的读数信号，那么信号应该增加，直到中间的一个峰值。我们把这个归一化后的分布中心的信号值作为我们的TSS富集度量。用于评估ATAC-seq。

Fig 5: Transcription Start Site (TSS) Enrichment

Fig 6: Transcription Start Site (TSS) Enrichment Standard Value

文库复杂度测量：

理想状态值是: NRF>0.9, PBC1>0.9, and PBC2>3.

Fig 7: Non-Redundant Fraction etc. Standard Value

Non-Redundant Fraction (NRF) – Number of distinct uniquely mapping reads (i.e. after removing duplicates) / Total number of reads.

PCR Bottlenecking Coefficient 1 (PBC1)

PCR Bottlenecking Coefficient 2 (PBC2)

import os
import pandas as pd
import json
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

path= '/media/wvdon/data/wfy/atac/work/'
dirs = os.listdir(path)
aaa = []
for d in dirs:
    if not str(d).endswith("e"):
        json_path = f'/media/wvdon/data/wfy/atac/work/{d}/qc/qc.json'
        #print(d)
        data = ''
        with open(json_path, 'r') as f:
            data = json.load(f)
            #print(data)
        tss = data["align_enrich"]['tss_enrich']['rep1']['tss_enrich']
        map_read_prc =data["align"]['samstat']['rep1']['pct_mapped_reads']
        NRF = data["lib_complexity"]['lib_complexity']['rep1']['NRF']
        PBC1 = data["lib_complexity"]['lib_complexity']['rep1']['PBC1']
        aaa.append([d,tss,map_read_prc,NRF,PBC1])
an_data = pd.DataFrame(aaa,columns=['B',"tss","map_read_prc","NRF","PBC1"])

sns.kdeplot(an_data['PBC1'],cut=0,cumulative=True,shade=True,color="b")
#sns.kdeplot(an_data['map_read_prc'],cut=0,cumulative=True,shade=True,color="r")
plt.legend(title="PBC1")
plt.show()
an_data['PBC1'].hist()

差异Peak分析

差异peak是分析的第一步，也是基础。根据实验的设计，可以比较两个组之间差异的Peak.

以往的几篇文章都推荐使用Diffbind(Differential binding analysis of ChIP-seq peaksets)

目前没有专门为ATAC设计的差异peak 分析工具，不过他们都是计算该区域的counts数据，归一化，对比两个组之间的差异。
另外HOMER, DBChIP，也能实现同样的需求。

利用Diffbind进行差异Peak分析(PCA,MA,heatmap,Volcano,differ Peak):

library(DiffBind)
csv_path = "/media/wvdon/sdata/atac-seq/after/example5.csv"
dbObj <- dba(sampleSheet=csv_path)

plot(dbObj)

dbcount <- dba.count(DBA = dbObj,bUseSummarizeOverlaps=TRUE,bParallel = FALSE)
save.image("/media/wvdon/sdata/atac-seq/after/atacafter.RData")
load("/media/wvdon/sdata/atac-seq/after/atacafter.RData")


dba_counstrast = dba.contrast(dbcount,categories =
                                DBA_TREATMENT,minMembers = 2)

bdaaly = dba.analyze(dba_counstrast,method = DBA_DESEQ2)


differ_peak_2 = dba.report(bdaaly,bCounts = T)
head(diff_peaks2)
diff_peaks_3= subset(differ_peak_2$Fold>=1 | differ_peak_2$Fold<=1)
#dba.show(dba_counstrast,bContrasts = T)
pma = dba.plotMA(bdaaly,contrast = 1)
#ggsave(file="/media/wvdon/sdata/atac-seq/before/atacMA.svg", plot=pma, width=4, height=4)    
dba.plotVolcano(bdaaly,contrast = 1)

length(differ_peak_2)

#hmap=colorRampPalette(c("blue","white","red"))(n=13)
#readscores=dba.plotHeatmap(bdaaly,contrast = 1,#ColAttributes=c(DBA_TREATMENT,DBA_GROUP),
 #                          main = "DESeq2 Differentially Bound Sites",
  #                         correlations = FALSE,scale='row',colScheme = hmap)

dim(readscores@elementMetadata)

library(dplyr)
diff_peaks2 <- bind_cols(as_tibble(granges(differ_peak_2)), as_tibble(mcols(differ_peak_2)))
library(pheatmap)
Groups=c(rep("IMP",8),rep("IMN",8))
heatmap_peak = differ_peak_2@elementMetadata[7:22]
dim(heatmap_peak)
#write.csv(diff_peaks2, "/media/wvdon/sdata/atac-seq/before/12_18_peak_FDR005.csv")

write.csv(heatmap_peak, "/media/wvdon/sdata/atac-seq/after/12_18heatmap_peak.csv")
data<-read.csv("/media/wvdon/sdata/atac-seq/after/12_18heatmap_peak.csv",header = T,row.names = 1)
#heatmap_peak.columns=Groups
#colnames(heatmap_peak)

annotation_c<-data.frame(Groups)
rownames(annotation_c)<-colnames(data)
colnames(data)
labels_col=c('37AC22','30A51','33A45','46A46','47A47','49AC44','13A06','54A48','37C20','30C04','33C21','46C23','47C07','49C41','13C60','54C62')

p<-pheatmap(data, cluster_rows = F,      #行聚类，列不聚类
            cluster_cols = F,
            show_rownames = F,       #不显示行名
            clustering_distance_rows = "correlation",
            show_colnames = T,      #显示列明 angle_row="15"，行名旋转15度，列明相似
            
            annotation_col = annotation_c,  #对列进行注释即对列进行分组
            #na_col = "white",
            scale = "row",   #将数据按行进行标准化
            
            #设置格子大小 cellheigt=""设置格子高
            
            #设置格子高
            labels_col= labels_col,
            angle_col = 90,
            border=F
            ,color = colorRampPalette(colors= c("blue","white","red"))(10) 
            #,color = colorRampPalette(c("#FFFF00","#FF0000"))(100)
)   
p
library("ggplot2")
#some sample data
#BiocManager::install('svglite')
#This actually save the plot in a image
ggsave(file="/media/wvdon/sdata/atac-seq/after/12_18heatmap.svg", plot=p, width=8, height=8)

Peak 注释


import argparse
import math
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import sys
sys.path.append(r'/home/wvdon/BIO_ATAC/')
from common.pyShell import  runShell  
import os

def shellAccept():
    '''
    预定义命令行参数，接收并存储
    必须参数：None
    可选参数：
    -u / --URL
    -t / --threads
    -v / --version
    @return:返回获取到的命令行参数args，以数据字典格式
    '''
    try:    # 异常处理
        parser = argparse.ArgumentParser(description="peak 基因注释")
        #@todo 临时写成测试文件。
        parser.add_argument("-u", "--csv",required=False, type=str, help="peak csv path",default='/media/wvdon/sdata/test/12_19_peak_FDR005_remove4.csv')
        parser.add_argument("-v", "--version", type=str, help="工具版本号:V1.0")
        parser.add_argument("-output","--output", type=str,default='./annotate',help='输出路径')
        parser.add_argument("-annotatePeaks",default='/usr/local/share/bio/homer/bin/annotatePeaks.pl',help='-annotatePeaks.pl 执行路径')
        args = parser.parse_args()  # 获取参数字典
        return args
    except Exception as e:
        print(e)
def peakAnnotion(csv_path,work_path):
    bed_path=os.path.join(work_path,'outputPeak.bed')
    df = pd.read_csv(csv_path).iloc[:,1:11]
    
    df.columns = ['Chromosome', 'Start', 'End','width','Strand','C','N','P','Fold','pv']
    df[['Chromosome', 'Start', 'End','Strand']].to_csv(bed_path,header=None,sep='\t',index=0)
    
    shell = f'{args.annotatePeaks}  {bed_path} hg38 > {work_path}/outputPeakAnnotate.txt'
    print(f'exectue shell {shell}')
    status_code = runShell(shell,timeout = 120)
    if status_code==0:
        print(f'success annotate,export Peak Annotate file :{work_path}/outputPeakAnnotate.txt')
    else:
       print(f"Exectue '{shell}' Failed") 
    gene = pd.read_table(f'{work_path}/outputPeakAnnotate.txt',sep='\t')
    ids_list = []
    for k in gene.iloc[:,0]:
        if len(str(k))>1:
            ids_list.append(int(str(k)[2:])-1)
        else:
            ids_list.append(0)
    gene['ids'] = ids_list
    gene.sort_values('ids').to_csv(f'{work_path}/peak_outputPeakAnnotate_sorted.csv')
    
    atac_gene = gene.sort_values('ids')
    atac_gene['Fold']=df['Fold']

    output_gene_path = f'{work_path}/peak_outputPeakAnnotate_sorted_conact.csv'
    atac_gene.to_csv(output_gene_path)
    list_annotion = []
    for an in atac_gene['Annotation']:
        list_annotion.append(str(an).split(' (')[0])
    dict={}
    for key in list_annotion:
        dict[key]=dict.get(key,0)+1
    peakAnnotionPie(work_path,dict)
    peakUpDownPieAndBar(work_path,output_gene_path)
    return output_gene_path
def peakUpDownPieAndBar(work_path,data_path):
    data = pd.read_csv(data_path)
    fig = plt.figure()
    x = np.arange(0,math.pi*2,0.05)
    up=data[data['Fold']>0]['Fold']
    down = data[data['Fold']<0]['Fold']

    if len(up) > len(down):
        up_bins = 200
        down_bins = int(2000/len(up)*len(down))
        exp = (0,0.5)
        sits = 221
    else:
        down_bins = 200
        up_bins = int(2000/len(down)*len(up))
        ex = (0.5,0)
        sits = 222
    ax1 = fig.add_subplot(111)
    ax1.hist(down,bins=down_bins,color='orange')
    ax1.hist(up,bins=up_bins,color='red')
    ax2 = fig.add_subplot(sits,facecolor='r')
    ax2.pie([len(up),len(down)],shadow=True,colors=['orange','red'],explode=exp,labels=['colsed','open'],autopct='%1.1f%%')
    ax2.set_title(f'Total:{len(data)}')
    plt.savefig(f'{work_path}/percent_atac_pie.svg',dpi=300)
    print('plot annotion pie_bar done!')
    
def peakAnnotionPie(work_path,dict):
    expodes = (0,0,0.1,0,0,0,0,0.1)
    colors = ['red','orange','yellow','green','purple','blue','black','brown']
    plt.pie(dict.values(),explode=expodes,labels=dict.keys(),shadow=True,colors=colors,autopct='%1.1f%%')
    ## 用于显示为一个长宽相等的饼图
    plt.axis('equal')
    #保存并显示
    plt.savefig(f'{work_path}/pie_annotion.svg',dpi=300)
    print('plot annotion pie done!')


if __name__ == '__main__':
    root_path = os.getcwd()
    
    args = shellAccept()
    work_path = args.output
    csv_path = args.csv
    if not os.path.exists(work_path):
        os.makedirs(work_path)
    output_gene_path = peakAnnotion(csv_path,work_path)

import subprocess
class pyShell():
    def __init__(self) -> None:
        pass
    '''
    return 0 : Success , else: Fail
    '''
def runShell(command,timeout=5):
    ret = subprocess.run(command,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE,encoding="utf-8",timeout=timeout)
    return ret.returncode

Motif

peak注释虽然提供了功能解释，但并没有直接解释底层机制。开放的染色质可以通过转录因子影响转录，转录因子通过识别和结合 DNA 上的特定序列(TFBS:TF 结合位点)来促进转录。而事实上转录因子通过与组蛋白或非组蛋白的竞争以及与辅因子的合作来调节转录。

有两种类型的基序或基于 TF 的分析方法(研究TF调控)：

基序频率或活动的基于序列的预测
TF 占用的足迹。

JASPAR是现在用的最多的一个motif 数据库，事实上存的就是一些转录因子对应的位置权重矩阵（PWM），其中有的是实验的结果，还有的是计算预测出来的。

工具：

TFBSTools
HOMER
MEME FIMO

原理都是一样的，基于PWM矩阵，然后在序列里面扫描搜索。

一直有一个疑问，对于motif扫描的时候，我们是应该用差异的区域，还是全部的区域？。差异的区域中全部的还是仅上调的区域？

1	/usr/local/share/bio/homer/bin/findMotifsGenome.pl out.bed hg38 first -len 6,8,10,12,14

对于hommer,其result 有两个，一部分是能够和已有数据库中，匹配到的，另外一部分是基于序列预测出来了的，可能没有任何的生物学意义。

对于HINT 也发现能够做motif 富集。

1	rgt-motifanalysis --enrichment --organism mm9 --input-matrix Matrix_CDP_cDC.txt match/random_regions.bed

TF Footprints

除了motif，TF Footprints是另外一种研究转录因子调控的方法。原理是TF 与 DNA 结合会阻止结合位点内的 Tn5 切割，就会形成一个深渊低谷一样的峰值分布。

对于检测方法，目前都是基于Boyle 提出的变种隐马尔可夫模型HMM，即在每个碱基使用归一化和平滑的片段计数来检测不同的状态，例如足迹、侧翼和背景。其中目前用的比较多的是针对ATAC数据的HINT-ATAC。

最近的 HINT-ATAC 也使用 HMM，但只有 HINT-ATAC 校正了链特异性 Tn5 切割偏差.

Hint install introduction

# need bam and bed file for input 
## rep twice
rgt-hint footprinting --atac-seq --paired-end --output-prefix=fp_paired ATAC.bam ATACPeaks.bed
gt-motifanalysis matching --organism=hg38 --input-files IMN.bed IMP.bed  --output-location motif
rgt-hint differential --organism=hg38 --bc --nc 16 --mpbs-files=motif/IMN_mpbs.bed,motif/IMP_mpbs.bed --reads-files=IMN.bam,IMP.bam --conditions=IMN,IMP --output-location=tfprinting

@todo 针对单组数据，对于重复数据，两组，还代解决code。

RNA-seq 联合分析

通过 RNA-seq 定性或定量地将染色质可及性的变化与感兴趣的基因表达的变化联系起来，直观地，我们可以发现 DE 基因是否在相应的 TSS 周围也具有显着差异的染色质可及性，可以推断 DE 基因受与开放染色质中特定基序或足迹相关的 TF 调节.

案例：

1. PECA：转录因子TF，染色质调控因子CR和调控元件RE相互作用网络推断的新方法（Cell Stem Cell 2019 ）

Fig: Schematic overview of the method for constructing TF-chromatin transcriptional regulatory network

可以使用 PECA^[7] 方法重建调控网络。中科院王勇教授团队，利用匹配的基因表达和染色质可及性数据刻画转录因子和调控元件结合调控下游基因表达的数学模型，构建了描绘细胞状态转化的染色质调控网络，通过网络分析鉴定出TFAP2C和p63分别为表面外胚层起始和角质形成细胞成熟的关键因子.

PECA Github

2. 鸡胚的体节分化过程，挖掘关键的TF和Enhancer（nature communications 2021）

3. 揭示酒精诱导的抗焦虑过程中的表观基因组学和转录组学相互作用（Molecular P s ychiatry 2022）

Fig.n This model depicts the ability of acute ethanol to rapidly alter the epigenome in the amygdala and produce transcriptomic change

featureCounts

1 2	featureCounts -T 16 -p -t exon -g gene_id -a /home/wvdon/atac/gene/Homo_sapiens.GRCh38.106.gtf -o all_new_feature.txt \ /media/wvdon/MY-datas/Release_Datas_20210429/mRNA/bams/B87.sorted.bam

RNA-seq 数据分析（差异基因，火山图，热图，富集分析）

base <- read.table("/media/wvdon/sdata/atac-seq/before/all_new_feature.txt",row.names = 1 ,header=T,sep = '\t')
basedata=base[6:ncol(base)]
group_list <- factor(c(rep("IM",8), rep("NC",8)))
table(group_list)
colData <- data.frame(row.names=colnames(basedata),group_list=group_list)
head(basedata)
colnames(colData)
ncol(basedata)
nrow(colData)
library(DESeq2)
dds <- DESeqDataSetFromMatrix(countData = basedata,colData = colData,
                              design = ~ group_list)
dds_2 <- DESeq(dds)
resultsNames(dds_2)
res <- results(dds_2)
diff_gene_deseq2 <-subset(res, padj < 0.05 )

up_DEG <- subset(res, padj < 0.05 & log2FoldChange > 1)
down_DEG <- subset(res, padj < 0.05 & log2FoldChange < -1)
dim(up_DEG)
dim(down_DEG)

#BiocManager::install("biomaRt")
library(biomaRt)
human <- useMart('ensembl',dataset = "hsapiens_gene_ensembl")
gene_id = row.names(diff_gene_deseq2)
gene_name<-getBM(attributes=c("ensembl_gene_id","external_gene_name"),filters = "ensembl_gene_id",values =gene_id , mart = human)

# RNA-seq,火山图, heatmap
library(ggplot2)
library(ggrepel)  #用于标记的包

library(pheatmap)
row.names(assay(dds_2))
head(assay(dds_2))
rownames(gene_name)=gene_name$ensembl_gene_id
final_rna =merge(gene_name,assay(dds_2), by = "row.names",all=F)
dim(assay(dds_2)) # =103 

head(final_rna)
heat_map_data=final_rna[4:ncol(final_rna)]
dim(heat_map_data)

Groups=c(rep("IM",8),rep("NC",8))
annotation_c<-data.frame(Groups)
annotation_c<-data.frame(Groups)
rownames(annotation_c)<-colnames(heat_map_data)
data<-log2(heat_map_data+1)
colnames(data)
#rownames(data)=final_rna$external_gene_name
ac = c("37AC73","30A72","33A37","46A94","47A84","49AC90","13A87","54A80",
"37C74","30C78","33C82","46C81","47C79","49C93","13C64","54C62")
p<-pheatmap(data, cluster_rows = T,      #行聚类，列不聚类
            cluster_cols = F,
            show_rownames = F,       #不显示行名
            
            show_colnames = T,      #显示列明 angle_row="15"，行名旋转15度，列明相似
            
            annotation_col = annotation_c,  #对列进行注释即对列进行分组
            #na_col = "white",
            scale = "row",   #将数据按行进行标准化
            
            #设置格子大小 cellheigt=""设置格子高
            
            #设置格子高
            labels_col= ac,
            angle_col = 30,
            border=F
            ,color = colorRampPalette(colors= c("blue","white","red"))(10) 
            #,color = colorRampPalette(c("#FFFF00","#FF0000"))(100)
)  
p
ggsave(file="/media/wvdon/sdata/atac-seq/before/heatmap_rna.svg", plot=p, width=8, height=8)



# 火山图


final_rna_vo =merge(gene_name,DataFrame(diff_gene_deseq2), by = "row.names",all=F)
write.csv(final_rna_vo,'/media/wvdon/sdata/atac-seq/before/vo.csv')

data<-read.csv('/media/wvdon/sdata/atac-seq/before/vo.csv')
data$log2FoldChange=-data$log2FoldChange
cut_off_pvalue=0.05
data$external_gene_name
PvalueLimit = 5
data$label=ifelse(-log10(data$pvalue) > PvalueLimit , as.character(data$external_gene_name), '')
data$group<-as.factor(ifelse(data$pvalue <= 0.05 & abs(data$log2FoldChange) >=0,
                             ifelse(data$log2FoldChange<=0  ,'down','up'),'NS'))

this_tile <- paste0('Cutoff for logFC is abs 1.0 and pvalue is 0.05',
                    '\nThe number of up gene is 59',
                    '\nThe number of down gene is 43')                 

p <- ggplot(
  #设置数据
  data, 
  aes(x = log2FoldChange, 
      y = -log10(pvalue), 
      colour=group)) +
  geom_point(alpha=0.4, size=3.5) +
  ggtitle( this_tile ) +
  #scale_fill_manual(values=c("#d2dae2","#546de5"))+
  
  # 辅助线
  geom_vline(xintercept=c(-1,1),lty=4,col="black",lwd=0.8) +
  geom_hline(yintercept = -log10(cut_off_pvalue),lty=4,col="black",lwd=0.8) +
  
  # 坐标轴
  labs(x="log2(fold change)",
       y="-log10 (p-value)")+scale_color_manual(values = c( 'green','red'))+
  theme_bw()+ 
  
  #theme(plot.title = element_text(vjust = -30,size=12), 
  #      legend.position="right", 
  #      legend.title = element_blank(),
  #)+
  geom_text_repel(aes(x = log2FoldChange,                   # geom_text_repel 标记函数
                      y = -1*log10(pvalue),          
                      label=label),                       
                  max.overlaps = 10000,                    # 最大覆盖率，当点很多时，有些标记会被覆盖，调大该值则不被覆盖，反之。
                  size=5,                                  # 字体大小
                  box.padding=unit(0.5,'lines'),           # 标记的边距
                  point.padding=unit(0.1, 'lines'), 
                  segment.color='black',      
                  show.legend=FALSE)   

# 图例
#p+ggtitle(this_tile)
p
ggsave(file="/media/wvdon/sdata/atac-seq/before/vo_rna.svg", plot=p, width=8, height=8)
write.csv(data,'/media/wvdon/sdata/atac-seq/before/p005_filter_rna_before.csv')

human <- useMart('ensembl',dataset = "hsapiens_gene_ensembl")
gene_id = row.names(res)
gene_name<-getBM(attributes=c("ensembl_gene_id","external_gene_name"),filters = "ensembl_gene_id",values =gene_id , mart = human)

res$log2FoldChange=-res$log2FoldChange
rownames(gene_name)=gene_name$ensembl_gene_id
all_before_rna = merge(gene_name,DataFrame(res), by = "row.names",all=F)

write.csv(all_before_rna,'/media/wvdon/sdata/atac-seq/before/all_before_rna.csv')

总结

Fig. The Summary of ATAC & RNA-seq

参考

Yan, Feng, et al. “From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis.” Genome biology 21.1 (2020): 1-16.
Krishnan, H. R. et al. Unraveling the epigenomic and transcriptomic interplay during alcohol-induced anxiolysis. Mol. Psychiatry (2022) doi:10.1038/s41380-022-01732-2.
Mok, G. F. et al. Characterising open chromatin in chick embryos identifies cis-regulatory elements important for paraxial mesoderm formation and axis extension. Nat. Commun. 12, 1157 (2021).
RS ∗, GB †. DiffBind: Differential binding analysis of ChIP- Seq peak data.
Li, Z., Schulz, M. H., Look, T., Begemann, M., Zenke, M., & Costa, I. G. (2019). Identification of transcription factor binding sites using ATAC-seq. Genome Biology, 20(1), 45.
Duren Z, Chen X, Xin J, et al. Time course regulatory analysis based on paired expression and chromatin accessibility data[J]. Genome research, 2020, 30(4): 622-634.
Li, Lingjie, et al. “TFAP2C-and p63-dependent networks sequentially rearrange chromatin landscapes to drive human epidermal lineage commitment.” Cell Stem Cell 24.2 (2019): 271-284
Quinlan, AR, Hall IM. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics 2010;26:841-842
“肠化”到底是怎么回事？什么情况下会癌变？https://view.inews.qq.com/a/20210205A0CTTC00

Software Version

macs2 ==2.2.4
bwa ==0.7.17
bowtie2 ==2.3.4.3
pipeline (v2.1.3)
Homer
HINT-ATAC

所有的代码都被上传到GitHub，https://github.com/wvdon/BIO_ATAC

目前是个人私人仓库，后续会开放。

打造可以提升科研效率的工具

2022-08-18T16:11:41.000Z

Mac 添加扩展词典（提高外刊文献阅读效率）

mac三指点击查询词汇非常方便，但是自带的词典(Dictionary)很多专业性词汇都查不出来

Placeless 为mac 构建了一份可以添加的Mac词典（柯林斯高阶英汉双解学习词典）

目前已经停更了，版本到2019年的

链接地址：one drive ，百度网盘：ejee

使用frp远程访问Jupyter Notebook

2021-01-21T14:39:41.000Z

利用frp实现外网访问局域网内的服务。

frp穿透

软件下载&官方文档

可以通过下面的链接直接下载。

下载链接

配置本地与服务端：

下载解压

1	tar -xzvf frp_0.29.0_linux_amd64.tar.gz`

服务器配置：frpc.ini

1
2
3

[common]
bind_port = 7000
vhost_http_port = 8080

启动

1	nohup ./frps -c./frps.ini&

客户端配置 frps.ini

[common]
server_addr = 111.111.110.211 #你的服务器ip
server_port = 7000

[web]
type = http
local_ip = 127.0.0.1
local_port = 8888 #要映射的jupyter端口
custom_domains = xxx.xxx.com # 映射到访问的web ,不加www 。另外需要提前将域名解析到服务器ip
nohup ./frpc -c./frpc.ini&

后台启动 jupyter notebook

1	nohup jupyter notebook &

使用cat查看是否jupyter启动端口和映射端口一致

cat nohup.out 一致就不需要再管了，如果不一致可以使用 ps -aux找到该进程，然后kill -9 id 杀死，重新配置然后再启动。

此时可以通过web:8080端口访问穿透的Jupyter了。

解决403 问题

如果遇到远程访问403，说明本地是不允许访问的。

可以通过以下方法解决403 不允许访问。

进到python环境里面先设置密码

1
2
3

from notebook.auth import passwd
passwd()#设置自己的密码，例如123
#然后两次输入确认生成加密字符串

记住上面产生的密码

进行配置允许访问

jupyter notebook --generate-config
vim ~/.jupyter/jupyter_notebook_config.py
c.NotebookApp.allow_remote_access = True  #允许远程访问
c.NotebookApp.allow_root = True          #允许root访问
c.NotebookApp.ip='*'                     # 所有ip皆可访问  
c.NotebookApp.password = '上面复制的那个字符串''    
c.NotebookApp.open_browser = False       # 禁止自动打开浏览器  
c.NotebookApp.port =8888                 # 端口
c.NotebookApp.notebook_dir = '设置Notebook启动进入的目录'

最后后台启动jupyter notebook

1	nohup jupyter notebook &

参考

参考链接:

官网文档解读链接

先做好一件事，才能做好更多事

2020-06-05T04:40:00.000Z

——用十年的沉淀，成为一名业界优秀的软件工程师

ps :某次老师需要上交的工作职业规划

先引用之前与久哥的对话（百度T9架构师）：

他问，“如果让你用10年的时间学习数据库，你能不能成为这个领域的专家？”
我说，“应该可以吧”
他说，“你现在20，10年后也才30，30岁就能成为某个领域的专家，为什么不去做呢？你看看周围有多少30岁的人还一事无成，而那个时候的你已经是数据库的专家了。”

职业方向：

软件开发工程师-数据挖掘/存储/计算/分布式方向

技术宗旨：

职业的发展并不只是需要技术栈的学习，当我进入到职场时需要面临的更多的是帮助公司如果实现盈利或拓展业务，而这则从我的职业思考中进行展开（如图）：

知识：

知识是我能进入到职场进行生存的基石，比如我对 machine learning 和计算机相关知识和理论的储备

工具：

人是会制造并且使用工具的高等动物，良好的工具能帮我高效率的解决当下问题。例如spark、Pytorch、xgboost等

逻辑：

能够把握模型直接的逻辑性，并且提高解决问题和思维发散的能力。

业务：

业务是一个公司的现金流，可以让技术更好的切合业务模型。比如展示广告和搜索广告在构建模型时的区别联系，如何根据公司的 business model 制定模型的 objective

十年规划

1-3年：¬¬

技术上持续精进
提高学历
提高语言交流与阅读能力
提高自我认知
自律
断舍离
3-7年：
技术深度
提高职场能力
把握系统架构
基金股票
注重积累
7-10年：
技术广度¬¬
提高业务与管理能力
投资理财
身体健康

==十年很短，你可不要太当真哦，所以我想用十年的沉淀，去成为一名业界优秀的软件工程师。==
by wvdon 2020年06月05日

数据挖掘上分思路

2020-03-20T07:50:39.000Z

比赛思路-阅读

https://www.secrss.com/articles/15352

BERT-Finetune、BERT-CNN-Pooling、BERT-RCNPooling多种结构进行融合!

每一个模型的基础上，进行10折交叉验证
利用 textrank4zh 对每条新闻文本取10个关键词，汇集所有的关键词，得到前100个出现最多的关键词。通过观察这些关键词，发现假新闻喜欢对部分人名、地名、名词、动词进行造谣。
模型融合+gru

假图片

基本统计特征：

图片尺寸
图片后缀类型
图片模式（RGB、灰度等）
清晰度、亮度
直方图分布特征
各通道的均值方差等统计特征

特征意义：

关键特征包括图片尺寸和清晰度特征
图片尺寸可以识别图片的来源，比如手机截图的尺寸和相机照片尺寸截然不同

一般认为图像越清晰越是真的，因为图像经过ps篡改之后清晰度会下降，还有一种可能性是谣言往往传播得更快，传播过程中的每一次保存和发送都可能会降低清晰度

文本特征处理

2020-02-27T07:50:39.000Z

文本特征提取

参考

机器学习算法往往无法直接处理文本数据，需要把文本数据转换为数值型数据

One-Hot

One-Hot方法很简单，但是它的问题也很明显：

没有考虑单词之间的相对位置，任意两个词之间都是孤立的；
如果文档中有很多词，词向量会有很多列，但是只有一个列的值是1；

One-Hot表示的应用

sklearn使用词袋（Bag of Words）和TF-IDF模型来表示文本数据，这两个模型都是One-Hot表示的应用，其中，词袋模型对应的就是文档向量。

词袋模型

词袋模型（BoW）是用于文本表示的最简单的方法， BoW把文本转换为文档中单词出现次数的矩阵，该模型只关注文档中是否出现给定的单词和单词出现频率，而舍弃文本的结构、单词出现的顺序和位置。

CountVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, 
                lowercase=True,    preprocessor=None, tokenizer=None, stop_words=None, 
                token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), analyzer=’word’, 
                max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, 
                dtype=<class ‘numpy.int64’>)

常用参数注释:

input：默认值是content，表示输入的是顺序的字符文本
decode_error：默认为strict，遇到不能解码的字符将报UnicodeDecodeError错误，设为ignore将会忽略解码错误
lowercase：默认值是True，在分词（Tokenize）之前把文本中的所有字符转换为小写。
preprocessor：预处理器，在分词之前对文本进行预处理，默认值是None
tokenizer：分词器，把文本字符串拆分成各个单词（token），默认值是None
analyzer：用于预处理和分词，可设置为string类型，如’word’, ‘char’, ‘char_wb’，默认值是word
stop_words：停用词表，如果值是english，使用内置的英语停用词列表；如果是一个列表，那么使用该列表作为停用词，设为None且max_df∈[0.7, 1.0)将自动根据当前的语料库建立停用词表
ngram_range：tuple（min_n，max_n），表示ngram模型的范围
max_df：可以设置为范围在[0.0 1.0]的浮点数，也可以设置为没有范围限制的整数，默认为1.0。这个参数的作用是作为一个阈值，当构造语料库的词汇表时，如果某个词的document frequence大于max_df，这个词不会被当作关键词。如果这个参数是float，则表示词出现的次数与语料库文档数的百分比，如果是int，则表示词出现的次数。如果参数中已经给定了vocabulary，则这个参数无效
min_df：类似于max_df，不同之处在于如果某个词的document frequence小于min_df，则这个词不会被当作关键词
max_features：对所有关键词的term frequency进行降序排序，只取前max_features个作为关键词集
vocabulary：默认为None，自动从输入文档中构建关键词集，也可以是一个字典或可迭代对象。
binary：默认为False，一个关键词在一篇文档中可能出现n次；如果binary=True，非零的n将全部置为1，这对需要布尔值输入的离散概率模型的有用的
dtype ：用于设置fit_transform() 或 transform()函数返回的矩阵元素的数据类型

模型的属性和方法：

vocabulary_：词汇表，字典类型
get_feature_names()：所有文本的词汇，列表型
stop_words_：停用词列表

模型的主要方法：

fit(raw_document)：拟合模型，对文本分词，并构建词汇表等
transform(raw_documents)：把文档转换为文档-词矩阵
fit_transform(raw_documents)：拟合文档，并返回该文档的文档-词矩阵

TF-IDF

TF-IDF模型用于对特征信息量进行缩放，当一个词在特定的文档中经常出现，而在其他文档中出现的频次很低，那么给予该词较高的权重；当一次词在多个文档中出现的频次都很高，那么给予该词较低的权重。如果一次单词在特定的文档中出现的频次很高，而在其他文档中出现的频次很低，那么这个单词很可能是该文档独有的词，能够很好地描述该文档。

1，TF-IDF模型计算原理

TF（ Term Frequency）是词频，表示每个单词在文档中的数量（频数），TF依赖于BoW模型的输出。

IDF（Inverse Document Frequency）是逆文档频率，代表一个单词的普遍成都，当一个词越普遍（即有大量文档包含这个词）时，其IDF值越低；反之，则IDF值越高。IDF是包含该单词的文档数量和文档总数的对数缩放比例

TF-IDF（术语频率 - 逆文档频率）模型是TF和IDF相乘的结果：TF-IDF=TF*IDF。

TfidfVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, 
                lowercase=True,    preprocessor=None, tokenizer=None, stop_words=None, 
                token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), analyzer=’word’, 
                max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, 
                dtype=dtype=, 
                norm=’l2’, use_idf=True, smooth_idf=True, sublinear_tf=False)

大部分参数和CountVectorizer相同，TfidfVectorizer独有的参数注释：

norm=’l2’：每个输出行具备单位规范，当引用’l2’范式时，所有向量元素的平方和为1；当应用l2范数时，两个向量之间的余弦相似度是它们的点积。 *’l1’：向量元素的绝对值之和为1。
use_idf=True：启用IDF来重新加权
smooth_idf=True：平滑idf权重，向文档-词频矩阵的所有位置加1，就像存在一个额外的文档，只包含词汇表中的每个术语一次，目的是为了防止零分裂。
sublinear_tf=False：应用次线性tf缩放，默认值是False

Sklearn-记录

2019-12-27T12:12:51.000Z

scikit-learn：

简单高效的数据挖掘和数据分析工具

前言

scikit-learn 官方文档

Getting Started

Fitting and predicting: estimator basics

estimators 提供一系列封装好的机器学习算法。
fit ：fit到模型数据。

Example:

from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(random_state=0)

  # 2 samples, 3 features
X = [[ 1,  2,  3],[11, 12, 13]]
y = [0, 1]  # classes of each sample
clf.fit(X, y)

# Predict
y_pred = clf.predict(X)

Transformers and pre-processors

ColumnTransformer : 不同特征的转换处理

sklearn.preprocessing 包含了比较多的数据预处理方法(放缩，编码)，能在pipeline应用的同时，也是安全的da ta leakage

StandardScaler
OneHotEncoder
CountVectorizer
----

Pipelines: chaining pre-processors and estimators

整合数据预处理与模型评估到一个pipeline上。

from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

#同过make_pipeline 把pre-processors 和 estimators整合到一块。
# create a pipeline object
pipe = make_pipeline(
    StandardScaler(),
    LogisticRegression()
)

# load the iris dataset and split it into train and test sets
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# fit the whole pipeline
pipe.fit(X_train, y_train)


# we can now use it like any other estimator
accuracy_score(pipe.predict(X_test), y_test)

Model evaluation

预测的数据，有时候不能很好的拟合到test数据，可能是泛化能力不好，也有可能是数据的split导致的train和test两部分数据的差异。可以利用交叉验证，在不同划分的数据上都进行拟合。

from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_validate

X, y = make_regression(n_samples=1000, random_state=0)
lr = LinearRegression()

result = cross_validate(lr, X, y)  # defaults to 5-fold CV
result['test_score']  # r_squa

Automatic parameter searches

RandomizedSearchCV

Scikit-learn 提供了自动超参数的搜索工具。把最好的参数fit到模型上。

from sklearn.datasets import fetch_california_housing
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import train_test_split
from scipy.stats import randint

X, y = fetch_california_housing(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# define the parameter space that will be searched over
param_distributions = {'n_estimators': randint(1, 5),
                       'max_depth': randint(5, 10)}

# now create a searchCV object and fit it to the data
search = RandomizedSearchCV(estimator=RandomForestRegressor(random_state=0),
                            n_iter=5,
                            param_distributions=param_distributions,
                            random_state=0)
search.fit(X_train, y_train)

search.best_params_


# the search object now acts like a normal random forest estimator
# with max_depth=9 and n_estimators=4
search.score(X_test, y_test)

pre-processing

Data Leakage
Why? :independence between training and testing data.

how to prevent it:Using a pipeline for cross-validation and searching will largely keep you from this common pitfall

数据包

sklearn datasets

提供一些导入，在线下载及本地生成数据集的方法。

sklearn.datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法，可以通过dir或help命令查看，我们会发现主要有三种形式：load_、fetch_及make_的方法

train_test_split

1	from sklearn.model_selection import train_test_splitX_train,X_test,y_train,y_test = train_test_split(X,y,random_state = 2003)

线性模型

from sklearn import datasets, linear_model # 引用 sklearn库，主要为了使用其中的线性回归模块

# 创建数据集，把数据写入到numpy数组
import numpy as np  # 引用numpy库，主要用来做科学计算
import matplotlib.pyplot as plt   # 引用matplotlib库，主要用来画图
data = np.array([[152,51],[156,53],[160,54],[164,55],
                 [168,57],[172,60],[176,62],[180,65],
                 [184,69],[188,72]])

# 打印出数组的大小
print(data.shape)
x = data[:,0].reshape(-1,1)
y  = data[:,1]
# TODO 1. 实例化一个线性回归的模型
regr = linear_model.LinearRegression()
# TODO 2. 在x,y上训练一个线性回归模型。 如果训练顺利，则regr会存储训练完成之后的结果模型
# TODO 3. 画出身高与体重之间的关系
regr.fit(x,y)

# 画出已训练
plt.plot(x, regr.predict(x), color='blue')# 画x,y轴的标题
plt.xlabel('height (cm)')
plt.ylabel('weight (kg)')
plt.show() # 展示

# 利用已经训练好的模型去预测身高为163的人的体重
print ("Standard weight for person with 163 is %.2f"% regr.predict([[163]]))

KNN

模型的泛化能力:它在新的环境中的适应能力

from sklearn.neighbors import KNeighborsClassifierclf = KNeighborsClassifier(n_neighbors=3)clf.fit(X_train,y_train)correct = np.count_nonzero((clf.predict(X_test)==y_test==True)print("auc is：%3.f"%(corrrect/len(X_test))

交叉验证

把数据集分为训练集和测试集

常用的交叉验证技术叫做K折交叉验证(K-fold Cross Validation)。我们先把训练数据再分成训练集和验证集，之后使用训练集来训练模型，然后再验证集上评估模型的准确率。举个例子，比如一个模型有个参数叫\alphaα，我们一开始不清楚要选择0.1还是1，所以这时候我们进行了交叉验证：把所有训练集分成K块，依次对每一个\alphaα值评估它的准确率。下面的动画讲述了如何使用K折交叉验证选出最合适的参数值。

leave_one_out交叉验证，也就是每次只把一个样本当做验证数据，剩下的其他数据都当做是训练样本。

1 2	form sklearn.model_selection import GirdSearchCVknn = KNeighborsClassifier()clf = GirdSearchCV(knn,parameters,cv=5)clf.fit(x,y) clf.best_score_clf.best_params_

绝对不能把测试数据用在交叉验证的过程中

特征缩放

目的是为了：消除有些变量变化的影响

1 线性归一化（Min-max normalization）

线性归一化指的是把特征值的范围映射到[0,1]区间

x_new = (x - min())/(max()-min())

2 标准差标准化（Z-score Normalization）

特征值映射到均值为0，标准差为1的正态分布 x_new = (x-mean(x)/std(x)

mean(x) x 的平均值 std(x) x的标注差

KNN总结：

knn 是一个及其简单的算法
算法比较适合低纬空间
KNN 在训练过程中实质上不需要做任何事情，所以训练本身不产生任何时间上的消耗。

merry-based instance -based (实际上没有训练学习的过程)

KNN预测的时候要循环所以的样本数据，复杂度依赖于样本个数，达成KNN应用在大数据的瓶颈。。

结构化数据与非结构化数据

非结构化数据：简单来讲，文本、图片、声音、视频这些都属于非结构化数据，需要做进一步的处理结构化的数据指的是存放在数据库里的年龄，身高等这种信息

图像

图像来说，此过程相对简单。一般可以通过Python自带的库来读取图片，并把图片数据存放在矩阵(Matrix)或者张量(Tensor)里 - 图片是由像素来构成的，比如256*256或者128*128。两个值分别代表长宽上的像素。这个值越大图片就会越清晰。另外，对于彩色的图片，一个像素点一般由三维数组来构成，分别代表的是R,G,B三种颜色。除了RGB，其实还有其他常用的色彩空间。如果使用RGB来表示每一个像素点，一个大小为128*128像素的图片实际大小为128*128*3，是一个三维张量的形式。

图片特征

颜色特征(color histigram)
SIFT (Scale-invariant feature transfarm)
它是一个局部的特征，它会试图去寻找图片中的拐点这类的关键点，然后再通过一系列的处理最终得到一个SIFT向量
HOG (Histogram of Oriented Grandient)
通过计算和统计图像局部区域的梯度方向直方图来构建特征.由于HOG是在图像的局部方格单元上操作，所以它对图像几何的和光学的形变都能保持很好的不变性

降维

对于一个中小型图片，它的大小一般大于2562563。如果把它转换成向量，其实维度的大小已经几十万了。这会导致消耗非常大的计算资源，所以一般情况下我们都会尝试对图片做一些降维操作。其实特征提取过程我们自然地可以理解为是降维过程。
降维操作会更好地保留图片中重要的信息，同时也帮助过滤掉无用的噪声
PCA(Principal Component Analysis)， (常用的降维工具)
它是一种无监督的学习方法，可以把高维的向量映射到低维的空间里。它的核心思路是对数据做线性的变换，然后在空间里选择信息量最大的Top K维度作为新的特征值

matplotlib.pyplot（画图，展示图片）

1	import matplotlib.pyplot as plt# 读取图片img = plt.imread('')print(img.shape)plt.imshow(im445555555555555g)

缺失值次5

删除缺失的行或者缺失的列

填补缺失值:

均值，最小值，最大值，特殊值填充 ,中位值

特征编码

把非数值型数据转为数值型

数据独热编码(one-hot encoding) 标签编码

标签编码不能直接作为特征输入到模型中，

因为1,2,3,,,,连续的特征标签，模型是会认为这些类别是有大小关系的。

而独热编码是平行的。

如果我们直接把类别特征看作是具体的数比如0，1，2… 那这时候，数与数之间是有大小关系的，比如2要大于1，1要大于0，而且这些大小相关的信息必然会用到模型当中但这就跟原来特征的特点产生了矛盾，因为对于深度学习，数据分析来说它们之间并不存在所谓的“大小”，可以理解为平行关系。所以对于这类特征来说，直接用0，1，2.. 的方式来表示是存在问题的，所以结论是不能这么做。

数值型的变量 可以当做特征直接输入，也可以进行离散化操作

Linux

2019-10-18T07:50:39.000Z

unnatural 石原里美入坑了她的美

Linux基本知识

查询命令 man

linux的命令和参数太多，而且容易记错，我们可以通过man [命令] 来查看如何命令的使用文档，这才是学习命令最好的办法。

其次要首先搞懂：文件，用户与组的概念。

man ls

ls --help 会以中文展示出来。

Tips:

Use the manual man for more information on commands.
If you want to rerun a command you can use the up-arrow key to recall the previous entry.
You can press TAB to ask your shell to try to complete a file name. It is convenient! Always try to have the shell fill in the filename for you, that way you will never mistype these”

摘录来自: “The Biostar Handbook: 2nd Edition。” Apple Books.

Linux的文件权限和目录配置

用户组与用户

其中老王家就代表一个用户组，单个人代表为用户。

linux的用户是记录在
/etc/passwd
密码记录在
/etc/shadow
所有的组记录在
/etc/group

添加新用户：

1
2
3

adduser wvdon 
#修改所添加用户的密码
passwd wvdon

添加用户之后可以把用户添加到相应的组中。

1
2
3

groupadd lab
# 将用户添加到组里面
sudo useradd -g labuser la

新建的用户如果想使用root,将bashrc copy 过去。

如果新建的用户没有用户目录，就新建一下用户目录。

sudo cp /home/wvdon/.bashrc /home/labuser/.bashrc

文件权限

文件的权限被分为可读(read) 可写(write) 可执行（execute）简称为 r w x

用数字表示 r:4 w:2 x:1

文件显示的权限

1 2	> -rw-rw-r-- 1 wuweidong061 wvdon 0 Oct 18 23:08 testfile.txt >

①第一个符合为 d 或者 - 分别代表文件夹或者文件
②2-4符号代表所属用户的权限 rw- 即可读可写（4+2+0）
③5-7符号代表所属用户组的权限 rw- 即可读可写（4+2+0）
④8-10符号代表其他用户的权限为r–仅读(4)
⑤代表连接数
⑥代表文件所有者 wuweidong061
⑦代表文件所属用户组 wvdon
⑧时间代表文件最后修改的时间
⑨文件名

修改文件用户与权限的三个命令

chgrp

#chgrp=change group
#修改用户组
-R 递归更改(连着文件夹下的目录和文件都进行更改)
chgrp user filename

chown

1
2
3

#chown=change owner
#修改文件所属者
chown [-R] 账户名称 文件或目录

chmod

#chmod = chmod mode
#更改文件的权限
#一个文件共有三种权限分别是w r x，同时一个文件也对三种用户组状态设置权限 所有者用户② 用户组③ 其他用户④
#更改权限的方法有三种，
#1 利用对应的数值
chmod 777 filename
#2 利用对应的身份状态设置
# a u g o代表 all[所有用户] user[文件所有者] group[用户所有组] other[其他用户] 
#设置类型可以为 + - =
chmod u=rwx,g=rx,o=x filename
#增加或者减少文件的权限 可以通过 
#chmod [用户类型][设置类型 + -][权限w r x] filename
#例如添加w或者减去x
chmod a+w filename
chmod a-x filename

对文件与目录的常见操作

1. ls

列出文件或者目录的信息，目录的信息就是其中包含的文件。

# ls [-aAdfFhilnrRSt] file|dir
-a ：列出全部的文件
-d ：仅列出目录本身
-l ：以长数据串行列出，包含文件的属性与权限等等数据

2. cd

更换当前目录。

1	cd [相对路径或绝对路径]

3. mkdir

创建目录。

1
2
3

# mkdir [-mp] 目录名称
-m ：配置目录权限
-p ：递归创建目录

4. rmdir

1 2	rmdir [-p] 目录名称 -p ：递归删除目录

5. touch

更新文件时间或者建立新文件。

# touch [-acdmt] filename
-a ： 更新 atime
-c ： 更新 ctime，若该文件不存在则不建立新文件
-m ： 更新 mtime
-d ： 后面可以接更新日期而不使用当前日期，也可以使用 --date="日期或时间"
-t ： 后面可以接更新时间而不使用当前时间，格式为[YYYYMMDDhhmm]

6. cp

复制文件。如果源文件有两个以上，则目的文件一定要是目录才行。

cp [-adfilprsu] source destination
-a ：相当于 -dr --preserve=all
-d ：若来源文件为链接文件，则复制链接文件属性而非文件本身
-i ：若目标文件已经存在时，在覆盖前会先询问
-p ：连同文件的属性一起复制过去
-r ：递归复制
-u ：destination 比 source 旧才更新 destination，或 destination 不存在的情况下才复制
--preserve=all ：除了 -p 的权限相关参数外，还加入 SELinux 的属性, links, xattr 等也复制了

7. rm

删除文件。

1 2	# rm [-fir] 文件或目录 -r ：递归删除

8. mv

移动文件。

1
2
3

# mv [-fiu] source destination
# mv [options] source1 source2 source3 .... directory
-f ： force 强制的意思，如果目标文件已经存在，不会询问而直接覆盖

“How do I view the data one page at a time”

more file

Biostat:

tree

Rsync|scp

Sed

cut

awk

shell 脚本

$1,$2 可以在终端依次接受参数。

1
2
3

for name in *.fastq; do
    echo cutadapt -l 20 $name -o $name.trimmed.fq
done

begin=$(date +%s -d $class)
current_date="`date +%s`"
current=$(($current_date-28800-$begin))
echo $(($current/60

md5sum chr22.fa.gz >md5.txt

md5sum -c md5.txt

进程管理

Ctrl + Z : 终止执行
Ctrl + C :暂停执行，挂到后台。
jobs :查看在后台执行的进程
& ：命令末尾加上，可在后台执行。
fg n: 将命令进程号码为N的命令进程放到前台执行
bg n ：将命令进程号码为N的命令进程放到后台执行

1 2	nohup comand &>nohup.out fg 3

附表

命令缩写一览表

摘要

每每都会忘记linux命令，不过我记得全拼的时候可能就能想起来了。

wc :word counter(计算行数,单词数，字母数) “prints the number of lines, words, and characters in the stream:”
ls：list(列出目录内容)
cd：Change Directory（改变目录）
su:switch user 切换用户
rpm:redhat package manager 红帽子打包管理器
pwd:print work directory 打印当前目录显示出当前工作目录的绝对路径
ps: process status(进程状态，类似于 windows 的任务管理器)
常用参数：－auxf
ps -auxf 显示进程状态
df: disk free 其功能是显示磁盘可用空间数目信息及空间结点信息。换句话说，就是报告在任何安装的设备或目录中，还剩多少自由的空间。
rpm：即 RedHat Package Management，是 RedHat 的发明之一
rmdir：Remove Directory（删除目录）
rm：Remove（删除目录或文件）
cat: concatenate 连锁 cat file1 file2>>file3把文件1和文件2的内容联合起来放到 file3中
insmod: install module,载入模块
ln -s : link -soft 创建一个软链接，相当于创建一个快捷方式
mkdir：Make Directory(创建目录
touch
man: Manual
pwd：Print working directory
su：Swith user
cd：Change directory
ls：List files
ps：Process Status
mkdir：Make directory
rmdir：Remove directory
mkfs: Make file system
fsck：File system check
cat: Concatenate
uname: Unix name
df: Disk free
du: Disk usage
lsmod: List modules
mv: Move file
rm: Remove file
cp: Copy file
ln: Link files
fg: Foreground
bg: Background
chown: Change owner
chgrp: Change group
chmod: Change mode
umount: Unmount
dd: 本来应根据其功能描述“Convert an copy”命名为“cc”，但“cc”已经被用以代表“C Complier”，所以命名为“dd”
tar：Tape archive
ldd：List dynamic dependencies
insmod：Install module
rmmod：Remove module
lsmod：List module
文件结尾的”rc”（如.bashrc、.xinitrc 等）：Resource configuration
Knnxxx / Snnxxx（位于 rcx.d 目录下）：K（Kill）；S(Service)；nn（执行顺序号）；xxx（服务标识）
.a（扩展名 a）：Archive，static library
.so（扩展名 so）：Shared object，dynamically linked library
.o（扩展名 o）：Object file，complied result of C/C++ source file
RPM：Red hat package manager
dpkg：Debian package manager
apt：Advanced package tool（Debian 或基于 Debian 的发行版中提供）
bin = BINaries
/dev = DEVices
/etc = ETCetera
/lib = LIBrary
/proc = PROCesses
/sbin = Superuser BINaries
/tmp = TeMPorary
/usr = Unix Shared Resources
/var = VARiable ?
FIFO = First In, First Out
GRUB = GRand Unified Bootloader
IFS = Internal Field Seperators
Tk = ToolKit
VT = Video Terminal
YaST = Yet Another Setup Tool
apache = “a patchy” server
apt = Advanced Packaging Tool
ar = archiver
as = assembler
awk = “Aho Weiberger and Kernighan” 三个作者的姓的第一个字母
bash = Bourne Again SHell
bc = Basic (Better) Calculator
bg = BackGround
biff = 作者 Heidi Stettner 在 U.C.Berkely 养的一条狗,喜欢对邮递员汪汪叫。
cal = CALendar
cat = CATenate
cd = Change Directory
chgrp = CHange GRouP
chmod = CHange MODe
chown = CHange OWNer
chsh = CHange SHell
cmp = compare
cobra = Common Object Request Broker Architecture
comm = common
cp = CoPy
cpio = CoPy In and Out
cpp = C Pre Processor
cron = Chronos 希腊文时间
cups = Common Unix Printing System
cvs = Current Version System
daemon = Disk And Execution MONitor
dc = Desk Calculator
dd = Disk Dump
df = Disk Free
diff = DIFFerence
dmesg = diagnostic message
du = Disk Usage
ed = editor
egrep = Extended GREP
elf = Extensible Linking Format
elm = ELectronic Mail
emacs = Editor MACroS
eval = EVALuate
ex = EXtended
exec = EXECute
fd = file descriptors
fg = ForeGround
fgrep = Fixed GREP
fmt = format
fsck = File System ChecK
fstab = FileSystem TABle
fvwm = F*** Virtual Window Manager
gawk = GNU AWK
gpg = GNU Privacy Guard
groff = GNU troff
hal = Hardware Abstraction Layer
joe = Joe’s Own Editor
ksh = Korn SHell
lame = Lame Ain’t an MP3 Encoder
lex = LEXical analyser
lisp = LISt Processing = Lots of Irritating Superfluous Parentheses
ln = LiNk
lpr = Line PRint
ls = list
lsof = LiSt Open Files
m4 = Macro processor Version 4
man = MANual pages
mawk = Mike Brennan’s AWK
mc = Midnight Commander
mkfs = MaKe FileSystem
mknod = MaKe NODe
motd = Message of The Day
mozilla = MOsaic GodZILLa
mtab = Mount TABle
mv = MoVe
nano = Nano’s ANOther editor
nawk = New AWK
nl = Number of Lines
nm = names
nohup = No HangUP
nroff = New ROFF
od = Octal Dump
passwd = PASSWorD
pg = pager
pico = PIne’s message COmposition editor
pine = “Program for Internet News & Email” = “Pine is not Elm”
ping = 拟声又 = Packet InterNet Grouper
pirntcap = PRINTer CAPability
popd = POP Directory
pr = pre
printf = PRINT Formatted
ps = Processes Status
pty = pseudo tty
pushd = PUSH Directory
pwd = Print Working Directory
rc = runcom = run command, rc 还是 plan9的 shell
rev = REVerse
rm = ReMove
rn = Read News
roff = RunOFF
rpm = RPM Package Manager = RedHat Package Manager
rsh, rlogin, rvim 中的 r = Remote
rxvt = ouR XVT
seamoneky = 我
sed = Stream EDitor
seq = SEQuence
shar = SHell ARchive
slrn = S-Lang rn
ssh = Secure SHell
ssl = Secure Sockets Layer
stty = Set TTY
su = Substitute User
svn = SubVersioN
tar = Tape ARchive
tcsh = TENEX C shell
tee = T (T 形水管接口)
telnet = TEminaL over Network
termcap = terminal capability
terminfo = terminal information
tex = τ
wc word counter

参考

鸟哥的linux私房菜第三版

https://cyc2018.github.io/CS-Notes/#/notes/Linux

命令缩写

查询手册

Hexo:使用记录

2019-09-27T15:42:57.000Z

快速、简洁且高效的博客框架。一键部署博客到Github Pages，并原生态支持Markdown。

文件头

> ---
> title: '题目'
> date: 2019-08-02 15:50:39
> tags: 
>   - 1
>   - 2
>   - 3
> categories: [分类]
> mathjax: true
> description: 描述
> ---
>

备忘：

hexo s 部署到本地
hexo g 生成静态文件
hexo d 部署到github上

重新部署本地时

安装node.js url地址是
https://nodejs.org/dist/ 。（高版本在同步到git 可能会出现问题TypeError [ERR_INVALID_ARG_TYPE]: The "mode" argument must be integer. Received an instance of Object）
选择低版本 https://nodejs.org/dist/v12.4.0/node-v12.4.0-x64.msi
npm安装 npm install -g hexo-cli

可以手动截取显示的字数。

数据挖掘：Python使用随机森林预测泰坦尼克号生存

2019-09-09T04:20:00.000Z

[TOC]

前言：

Kaggle数据挖掘竞赛：使用随机森林预测泰坦尼克号生存情况

数据来源kaggle

1 数据预处理

1.1 读入数据

import pandas as pd
data_train = pd.read_csv(r'train.csv')
data_test = pd.read_csv(r'test.csv')
data_train.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

1.2 训练集与数据集

1	data_test.head()

	PassengerId	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked
0	892	3	Kelly, Mr. James	male	34.5	0	0	330911	7.8292	NaN	Q
1	893	3	Wilkes, Mrs. James (Ellen Needs)	female	47.0	1	0	363272	7.0000	NaN	S
2	894	2	Myles, Mr. Thomas Francis	male	62.0	0	0	240276	9.6875	NaN	Q
3	895	3	Wirz, Mr. Albert	male	27.0	0	0	315154	8.6625	NaN	S
4	896	3	Hirvonen, Mrs. Alexander (Helga E Lindqvist)	female	22.0	1	1	3101298	12.2875	NaN	S

1.2.1 查看数据完整性

1	data_train.info()

RangeIndex: 891 entries, 0 to 890Data columns (total 12 columns):PassengerId    891 non-null int64Survived       891 non-null int64Pclass         891 non-null int64Name           891 non-null objectSex            891 non-null objectAge            714 non-null float64SibSp          891 non-null int64Parch          891 non-null int64Ticket         891 non-null objectFare           891 non-null float64Cabin          204 non-null objectEmbarked       889 non-null objectdtypes: float64(2), int64(5), object(5)memory usage: 83.7+ KB

总共有891组数据，其中age是714条，Cabin是204条，共计12个变量

乘客ID，存活情况，船票级别，乘客姓名，性别，年龄，船上的兄弟姐妹以及配偶的人数，船上的父母以及子女的人数，船票编号，船票费用，所在船舱，登船的港口

1.2.2 查看训练数据描述信息

1	data_train.describe()

	PassengerId	Survived	Pclass	Age	SibSp	Parch	Fare
count	891.000000	891.000000	891.000000	714.000000	891.000000	891.000000	891.000000
mean	446.000000	0.383838	2.308642	29.699118	0.523008	0.381594	32.204208
std	257.353842	0.486592	0.836071	14.526497	1.102743	0.806057	49.693429
min	1.000000	0.000000	1.000000	0.420000	0.000000	0.000000	0.000000
25%	223.500000	0.000000	2.000000	20.125000	0.000000	0.000000	7.910400
50%	446.000000	0.000000	3.000000	28.000000	0.000000	0.000000	14.454200
75%	668.500000	1.000000	3.000000	38.000000	1.000000	0.000000	31.000000
max	891.000000	1.000000	3.000000	80.000000	8.000000	6.000000	512.329200

mean代表各项的均值，获救率为0.383838

1.3.1 年龄数据简化分组

def simplify_ages(df):
    #把缺失值补上，方便分组
    df.Age = df.Age.fillna(-0.5)
   
    #把Age分为不同区间,-1到0,1-5,6-12...,60以上,放到bins里，八个区间，对应的八个区间名称在group_names那
    bins = (-1, 0, 5, 12, 18, 25, 35, 60, 120)
    group_names = ['Unknown', 'Baby', 'Child', 'Teenager', 'Student', 'Young Adult', 'Adult', 'Senior']
    
    #开始对数据进行离散化，pandas.cut就是这个功能
    catagories = pd.cut(df.Age,bins,labels=group_names)
    df.Age = catagories
    return df

简化Cabin，就是取字母

def simplify_cabin(df):
    df.Cabin = df.Cabin.fillna('N')
    df.Cabin = df.Cabin.apply(lambda x:x[0])
    return df

简化工资，也就是分组

def simplify_fare(df):
    df.Fare = df.Fare.fillna(-0.5)
    bins = (-1, 0, 8, 15, 31, 1000)
    group_names = ['Unknown', '1_quartile', '2_quartile', '3_quartile', '4_quartile']
    catagories = pd.cut(df.Fare,bins,labels=group_names)
    df.Fare = catagories
    return df

删除无用信息

1 2	def simplify_drop(df): return df.drop(['Name','Ticket','Embarked'],axis=1)

整合一遍，凑成新表

def transform_features(df):
    df = simplify_ages(df)
    df = simplify_cabin(df)
    df = simplify_fare(df)
    df = simplify_drop(df)
    return df

执行读取新表

#必须要再读取一遍原来的表，不然会报错,不仅训练集要简化，测试集也要，两者的特征名称要一致
data_train = pd.read_csv(r'train.csv')
data_train = transform_features(data_train)
data_test = transform_features(data_test)
data_train.head()

	PassengerId	Survived	Pclass	Sex	Age	SibSp	Fare	Cabin
0	1	0	3	male	Student	1	1_quartile	N
1	2	1	1	female	Adult	1	4_quartile	C
2	3	1	3	female	Young Adult	0	1_quartile	N
3	4	1	1	female	Young Adult	1	4_quartile	C
4	5	0	3	male	Young Adult	0	2_quartile	N

1 2	#data_train=data_train.drop(["PassengerId","Cabin","Name"],axis=1) data_train.head(200)

	Survived	Pclass	Sex	Age	SibSp	Parch	Ticket	Fare	Embarked
0	0	3	male	22.0	1	0	A/5 21171	7.2500	S
1	1	1	female	38.0	1	0	PC 17599	71.2833	C
2	1	3	female	26.0	0	0	STON/O2. 3101282	7.9250	S
3	1	1	female	35.0	1	0	113803	53.1000	S
4	0	3	male	35.0	0	0	373450	8.0500	S
...	...	...	...	...	...	...	...	...	...
195	1	1	female	58.0	0	0	PC 17569	146.5208	C
196	0	3	male	NaN	0	0	368703	7.7500	Q
197	0	3	male	42.0	0	1	4579	8.4042	S
198	1	3	female	NaN	0	0	370370	7.7500	Q
199	0	2	female	24.0	0	0	248747	13.0000	S

200 rows × 9 columns

选取我们需要的那几个列作为输入，对于票价和姓名我就舍弃了，姓名没什么用

1
2
3

cols = ['PassengerId','Survived','Pclass','Sex','Age','SibSp','Parch','Fare','Embarked']
data_tr=data_train[cols].copy()
data_tr.head()

	PassengerId	Survived	Pclass	Sex	Age	SibSp	Fare	Embarked
0	1	0	3	male	22.0	1	7.2500	S
1	2	1	1	female	38.0	1	71.2833	C
2	3	1	3	female	26.0	0	7.9250	S
3	4	1	1	female	35.0	1	53.1000	S
4	5	0	3	male	35.0	0	8.0500	S

1
2
3

cols = ['PassengerId','Pclass','Sex','Age','SibSp','Parch','Fare','Embarked']
data_te=data_test[cols].copy()
data_te.head()

	PassengerId	Pclass	Sex	Age	SibSp	Parch	Fare	Embarked
0	892	3	male	34.5	0	0	7.8292	Q
1	893	3	female	47.0	1	0	7.0000	S
2	894	2	male	62.0	0	0	9.6875	Q
3	895	3	male	27.0	0	0	8.6625	S
4	896	3	female	22.0	1	1	12.2875	S

1 2	data_tr.isnull().sum() data_te.isnull().sum()

PassengerId     0Pclass          0Sex             0Age            86SibSp           0Parch           0Fare            1Embarked        0dtype: int64

填充数据，，，，，，

age_mean = data_tr['Age'].mean()
data_tr['Age'] = data_tr['Age'].fillna(age_mean)
data_tr['Embarked'] = data_tr['Embarked'].fillna('S')
data_tr.isnull().sum()

PassengerId    0Survived       0Pclass         0Sex            0Age            0SibSp          0Parch          0Fare           0Embarked       0dtype: int64

1	data_tr.head()

	PassengerId	Survived	Pclass	Sex	Age	SibSp	Fare	Embarked
0	1	0	3	male	22.0	1	7.2500	S
1	2	1	1	female	38.0	1	71.2833	C
2	3	1	3	female	26.0	0	7.9250	S
3	4	1	1	female	35.0	1	53.1000	S
4	5	0	3	male	35.0	0	8.0500	S

用数组特征化编码年龄和S C Q等等，，因为随机森林的输入需要数值，字符不行

#import numpy as np
age_mean = data_te['Age'].mean()
data_te['Age'] = data_te['Age'].fillna(age_mean)
age_mean = data_te['Fare'].mean()
data_te['Fare'] = data_te['Fare'].fillna(age_mean)
#data_te.replace(np.na, 0, inplace=True)
#data_te.replace(np.inf, 0, inplace=True)
data_te['Sex']= data_te['Sex'].map({'female':0, 'male': 1}).astype(int)
data_te['Embarked']= data_te['Embarked'].map({'S':0, 'C': 1,'Q':2}).astype(int)
data_te.head()

	PassengerId	Pclass	Sex	Age	SibSp	Parch	Fare	Embarked
0	892	3	1	34.5	0	0	7.8292	2
1	893	3	0	47.0	1	0	7.0000	0
2	894	2	1	62.0	0	0	9.6875	2
3	895	3	1	27.0	0	0	8.6625	0
4	896	3	0	22.0	1	1	12.2875	0

data_tr['Sex']= data_tr['Sex'].map({'female':0, 'male': 1}).astype(int)
data_tr['Embarked']= data_tr['Embarked'].map({'S':0, 'C': 1,'Q':2}).astype(int)
data_tr.head()
#data_tr = pd.get_dummies(data_tr=data_tr,columns=['Embarked'])

	PassengerId	Survived	Pclass	Sex	Age	SibSp	Fare	Embarked
0	1	0	3	1	22.0	1	7.2500	0
1	2	1	1	0	38.0	1	71.2833	1
2	3	1	3	0	26.0	0	7.9250	0
3	4	1	1	0	35.0	1	53.1000	0
4	5	0	3	1	35.0	0	8.0500	0

2 数据可视化

2.1 年龄和生存率之间的关系

1	sns.barplot(x='Embarked',y='Survived',hue='Sex',data=data_train)

female的获救率大于 male,(应该是男士都比较绅士吧，即使面对死亡，也希望将最后的机会留给女生，，电影感悟）
获救率 C 男性女性都是最高，Q时男性最低，S 时女性最低
男性的获救率低于女性的三分之一

2.2 所做的位置和生存率之间的关系

1 2	sns.pointplot(x='Pclass',y='Survived',hue='Sex',data=data_train,palette={'male':'blue','female':'pink'}, marker=['*',"o"],linestyle=['-','--'])

等级越高获救率越高
女性大于男性

2.3 生存率与年龄的关系

1	sns.barplot(x = 'Age',y = 'Survived',hue='Sex',data = data_train)

男性大于女性
student的生存率最低,bady的生存率最高

1	sns.barplot(x = 'Cabin',y = 'Survived',hue='Sex',data = data_train)

1	sns.barplot(x = 'Fare',y = 'Survived',hue='Sex',data = data_train)

3 建立模型

3.1 随机森林

from sklearn.model_selection import train_test_split
X_all = data_tr.drop(['PassengerId','Survived'],axis=1)#主要是乘客ID也没啥用，删就删了吧
y_all = data_tr['Survived']
p = 0.2 #用 百分之20作为测试集

X_train,X_test, y_train, y_test = train_test_split(X_all,y_all,test_size=p, random_state=23)

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import make_scorer, accuracy_score
from sklearn.model_selection import GridSearchCV

#选择分类器的类型，我没试过其他的哦，因为在这个案例中，有人做过试验发现随机森林模型是最好的，所以选了它。呜呜，我下次试试其他的
clf = RandomForestClassifier()

#可以通过定义树的各种参数，限制树的大小，防止出现过拟合现象哦，也可以通过剪枝来限制，但sklearn中的决策树分类器目前不支持剪枝
parameters = {'n_estimators': [4, 6, 9], 
              'max_features': ['log2', 'sqrt','auto'], 
              'criterion': ['entropy', 'gini'],        #分类标准用熵，基尼系数
              'max_depth': [2, 3, 5, 10], 
              'min_samples_split': [2, 3, 5],
              'min_samples_leaf': [1,5,8]
             }

#以下是用于比较参数好坏的评分，使用'make_scorer'将'accuracy_score'转换为评分函数
acc_scorer = make_scorer(accuracy_score)

#自动调参，GridSearchCV，它存在的意义就是自动调参，只要把参数输进去，就能给出最优化的结果和参数
#GridSearchCV用于系统地遍历多种参数组合，通过交叉验证确定最佳效果参数。
grid_obj = GridSearchCV(clf,parameters,scoring=acc_scorer)
grid_obj = grid_obj.fit(X_train,y_train)

#将clf设置为参数的最佳组合
clf = grid_obj.best_estimator_

#将最佳算法运用于数据中
clf.fit(X_train,y_train)

/home/wvdon/anaconda3/envs/weidong/lib/python3.7/site-packages/sklearn/model_selection/_split.py:1978: FutureWarning: The default value of cv will change from 3 to 5 in version 0.22. Specify it explicitly to silence this warning.  warnings.warn(CV_WARNING, FutureWarning)/home/wvdon/anaconda3/envs/weidong/lib/python3.7/site-packages/sklearn/model_selection/_search.py:814: DeprecationWarning: The default of the `iid` parameter will change from True to False in version 0.22 and will be removed in 0.24. This will change numeric results when test-set sizes are unequal.  DeprecationWarning)RandomForestClassifier(bootstrap=True, class_weight=None, criterion='entropy',                       max_depth=5, max_features='sqrt', max_leaf_nodes=None,                       min_impurity_decrease=0.0, min_impurity_split=None,                       min_samples_leaf=1, min_samples_split=3,                       min_weight_fraction_leaf=0.0, n_estimators=4,                       n_jobs=None, oob_score=False, random_state=None,                       verbose=0, warm_start=False)

3.2 预测

1
2
3

predictions = clf.predict(X_test)
print(accuracy_score(y_test,predictions))
data_tr

0.8268156424581006

	PassengerId	Survived	Pclass	Sex	Age	SibSp	Parch	Fare	Embarked
0	1	0	3	1	22.000000	1	0	7.2500	0
1	2	1	1	0	38.000000	1	0	71.2833	1
2	3	1	3	0	26.000000	0	0	7.9250	0
3	4	1	1	0	35.000000	1	0	53.1000	0
4	5	0	3	1	35.000000	0	0	8.0500	0
...	...	...	...	...	...	...	...	...	...
886	887	0	2	1	27.000000	0	0	13.0000	0
887	888	1	1	0	19.000000	0	0	30.0000	0
888	889	0	3	0	29.699118	1	2	23.4500	0
889	890	1	1	1	26.000000	0	0	30.0000	1
890	891	0	3	1	32.000000	0	0	7.7500	2

891 rows × 9 columns

3.3 预测test文件

predictions = clf.predict(data_te.drop('PassengerId',axis=1))
output = pd.DataFrame({'Passengers':data_te['PassengerId'],'Survived':predictions})
output.to_csv(r'test1.csv')
output.head()

	Passengers	Survived
0	892	0
1	893	0
2	894	0
3	895	0
4	896	0

3.4 提交到kaggle官网

结果是 0.77990
hhhhhhhh还是比较满意的
下次用深度学习试试

1
2

Git:分布式版本控制

2019-08-28T15:42:57.000Z

Git简介

什么是Git

git是一种分布式版本控制系统

什么是版本控制系统：

什么是分布式&集中式：

优势：
SVN

Git的历史：

2002年大神Linus 为了管理Linux源码，花了两个星期使用c语言编写的。

安装使用

windows上在官网下载安装即可
命令行验证一下 git 是否安装完成。

ubuntu 上

1	sudo apt-get install git

Git学习笔记

1、建立与连接远程仓库

建立git仓库

init```


添加项目中的文件  

```git add *```  

提交到仓库

```git commit -m "注释"

与远程仓库建立关联

remote add originlink


上传之前pull一下

```git pull origin master```  

上传到GitHub远程仓库（master分支）

```git push -u origin master

2、git基本操作

查看仓库状态

git status

参考资料

廖雪峰git教程

精通Git（第2版）

LaTex:排版系统

2019-07-18T16:11:41.000Z

最后更新时间:2019.10.24

前言：

LaTex 是一种基于ΤΕΧ的排版系统，开发之初目的利用这种格式，人们在没有程序设计与排版的情况下也能利用其强大的功能在很短的时间内完成书籍的排版。然而其对于复杂表格和数学公式的展示具有很优秀的表现，在很多文字排版系统都可以看得到LaTex的插件。
目前我使用LaTex的原因是，他能够帮助我在MarkDown的书写过程中快速的插入数学公式。

有些站点不支持LaTex语法的我们可以借助在线 LaTeX 编辑器进行转换，然后复制为html代码插入进去
hexo的许多主题都是支持LaTex的，只需在文章头文字部分设置 mathjax: true

LaTex常用语法：

$$
LaTex公式
$$

分数表示

\frac{1}{2} 代表分数
$$
\frac{1}{2}
$$

上下标

_{}下标 ^{} 上标
C_{n}^{m}代表
$$
C_{n}^{m}
$$

求和压缩符合

\sum_{i=0}^{n}{(x_i+y_i)}
\prod_{i=0}^{n}{x_i\cdot{y_i}}_
\lim_{x\to0}\frac{sinx}{x}_
\int_{a}^{b}{sinx}dx

根号

\sqrt[x]{y}

图片的插入与引用：

引用如图\ref{fig1} {}为label内容

\begin{figure}
    \centering
    \includegraphics[width=17cm]{figure/m3.png}
    \caption{高通量检测预测系统研究方案}
    \label{fig1}
\end{figure}
\subsection{研究方法}
\subsection{技术路线}

参考

《浪潮之巅》计算机行业的发展规律

2019-04-01T15:34:19.000Z

摩尔定律

英特尔公司创始人戈登·摩尔在1956年提出，至多在10年内，集成电路的集成度会每两年翻一番。后来人们把这个周期缩短到18个月。而现在每18个月，计算机等IT产品的性能会翻一番；换句话来说就是同等性能的计算机等IT产品，每18个月价钱会降一半。乍一看，这个发展速度令人发指，但是几十年来IT行业的发展始终遵循着摩尔定律发展

通常我们可以看到，一般新的处理器发布一年半之后，价格会开始大幅下调；

摩尔定律主导着IT行业的发展。首先，为了不断提升芯片的性能，IT公司必须在比较短的时间内完成下一代产品的开发。因此这就要求这些公司必须要投入大量的资金进行研发，这使得每个产品的市场不会有太多的竞争者

这也是这么多年来国内无法生产与国外性能和技术相同的处理器的原因

安迪-比尔定律

摩尔定律给我们带来了一个希望，即是如果我今天认为计算机太贵买不起，我可以等到18个月之后就可以用一般的价钱买到相同配置的计算机。如果大家都等到几个月之后再买电脑的话，电脑的销量就会降低很多，开发人员也没有动力去更新计算机了

然而事实上是个人电脑的销售一直在持续增长。

安迪-比尔定律：比尔要拿走安迪所给的（What Andy gives,Bill takes away).

安迪：原英特尔CEO安迪·格鲁夫。比尔：微软公司创始人比尔·盖茨

在过去的几十年里，英特尔的处理器速度每18个月翻一番，计算机的内存和硬盘容量则以更快的速度发展，但是，微软的操作系统和应用软件越来越慢，也越做越大。所以现在的计算机比着10年前快了上百倍，但是软件的运行速度感觉上和之前的差不多。即使是同样功能的软件，今天的比着昨天的占用硬件资源多就在所难免了。

相应的产生了一条生态链：以微软为首的软件开发商吃掉硬件提升带来的全部好处，迫使用户更新计算机，让惠普，戴尔，联想这些公司收益，而这些公司再向英特尔，希捷，三星，金士顿等厂家订购芯片，内存和硬盘等硬件。然后各个公司分别获利，按照摩尔定律预定的速度发展，提升硬件的性能，为微软的下一步更新软件，吃掉硬件性能做准备。

就这样，安迪-比尔定律把原本属于耐用消费品的电脑，手机等商品变成了消耗性商品，刺激着整个IT行业的发展。

反摩尔定律

Googel前CEO埃里克·施密特指出：一个IT公司如果今天和18个月之前卖掉同样的产品，他的营业额就要降低一半。对于IT公司反摩尔定律是非常可怕的，因为一个公司付出了相同的劳动，却只得到之前一半的收入，

反摩尔定律逼着所有的硬件设备公司必须要赶得上摩尔定律规定的更新速度。
反摩尔定律使得IT企业不可能像石油工业或飞机制造业那样只追求量变，而必须要不断的寻找革命性的创造发明。
反摩尔定律同时使得新兴的小公司有可能在发展新技术方面和大公司处在同一个起跑线上。

总结

苹果公司是一个例外，它是通过硬件实现软件的价值，因此在过去的10多年他的产品成为了一种时尚和潮流。由于安迪-比尔定律的作用，在IT工业的产业链中，处于上游的是“看不见摸不着”的软件和IT服务业，而下是”看得见摸得着“的硬件和半导体。从事IT业，想要获得高额利润，就得从上游入手，从微软，Google,facebook，无一不是。

Ubuntu18下破解xmind8

2019-02-10T04:10:30.000Z

工具下载

xmind8安装包官网地址

破解文件下载地址

平台:ubuntu 18.04lts

将下载的安装包解压到指定目录
unzip xmind-8-update8-linux.zip
解压破解文件将下载的破解文件解压到XMind_amd64/ 并选择替换
修改host

sudo vim /etc/hosts

在最后添加

127.0.0.1 www.xmind.net

安装软件回到安装目录

执行
sudo ./setup.sh
进入XMind_amd64/ 点击运行XMind

点击帮助序列号
输入邮箱（随便输入）
输入序列号（复制下面的）
XAka34A2rVRYJ4XBIU35UZMUEEF64CMMIYZCK2FZZUQNODEKUHGJLFMSLIQMQUCUBXRENLK6NZL37JXP4PZXQFILMQ2RG5R7G4QNDO3PSOEUBOCDRYSSXZGRARV6MGA33TN2AMUBHEL4FXMWYTTJDEINJXUAV4BAYKBDCZQWVF3LWYXSDCXY546U3NBGOI3ZPAP2SO3CSQFNB7VVIY123456789012345

激活成功

创建桌面快捷方式

进入到XMind_amd64/并创建运行脚本文件
vim run.sh
输入以下
cd /usr/soft/xmind/xmind-8-update8-linux/XMind_amd64/
/usr/soft/xmind/xmind-8-update8-linux/XMind_amd64/XMind
为run.sh加上可执行权限
chmod +x ./run.sh
进入到applications目录下
cd /usr/share/applications/
创建xmind.desktopp
sudo vim xmind.desktop

输入以下

[Desktop Entry]Name=XMindExec=/usr/soft/xmind/xmind-8-update8-linux/XMind_amd64/run.shIcon=/home/wvdon/space/down/macOS11/apps/128/xmind.pngPath=/usr/soft/xmind/xmind-8-update8-linux/XMind_amd64/Type=ApplicationCategories=GTK;GNOME;Office;

字段解释：
Name: 应用文件名，本例中此处填写 XMind 。
Exec: 应用执行路径，必须准确填写。
Icon: 图标路径。(自己选择下载的图片所在路径） Path：应用所在路径。 Type: .desktop 类型，此处我们应填写 Application 。
sudo chmod a+x XMind.desktop 6.复制XMind.desktop 到桌面粘贴即可创建快捷方式也可以 super 搜索 xmind 添加到收藏夹

---

结束